Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ можно полностью обучить только на бесплатных материалах, доказали исследователи

Специализирующиеся на разработке ИИ компании утверждают, что их проекты невозможно было бы создать без материалов, защищённых авторским правом. Группа учёных из США и других стран доказала, что разработка ИИ в таких условиях возможна, хотя и затруднительна. Они создали модель, обученную исключительно на общедоступном контенте и материалах с открытой лицензией.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Проект стал результатом сотрудничества 14 учреждений, включая Массачусетский технологический институт, Университет Карнеги — Меллона и Торонтский университет. Исследователи составили массив данных для обучения, собранных только из этичных источников, — его объём достиг 8 Тбайт. В него, в частности, вошли 130 000 книг из Библиотеки Конгресса США. На этих материалах исследователи обучили большую языковую модель с 7 млрд параметров. Она работает примерно на уровне модели Meta Llama 2-7B аналогичного размера, вышедшей в 2023 году. Тестов производительности модели в сравнении с ведущими отраслевыми проектами авторы исследования не привели.

Качество работы системы на уровне модели двухлетней давности было не единственным недостатком — утомительным оказался и процесс перевода обучающего массива в надлежащий формат. Значительная часть данных не читалась машинами, поэтому людям приходилось участвовать в их подготовке. «Мы пользовались средствами автоматизации, но все наши материалы аннотировались вручную в конце дня и проверялись людьми. И это очень непросто», — рассказала одна из участниц проекта. Учёным пришлось определять, какая лицензия действует для каждого подвергшегося сканированию сайта.

В 2024 году OpenAI заявила одному из комитетов британского парламента, что «обучать ведущие современные модели ИИ без использования защищённых авторским правом материалов невозможно». В прошлом году с этим тезисом согласился эксперт из Anthropic: «Больших языковых моделей, скорее всего, не было бы, если бы фирмы [специализирующиеся на] ИИ были обязаны лицензировать работы в своих наборах обучающих данных». Теперь есть доказательство, что оба утверждения не соответствуют действительности. Едва ли исследование что-то изменит в отрасли, но один из приводимых разработчиками ИИ распространённых аргументов оказался несостоятельным.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Bandai Namco подтвердила цену DLC с новым контентом из версии Elden Ring для Switch 2 — мнения игроков разделились 20 мин.
Cloudflare объявила войну ИИ-ботам — теперь они будут блокироваться по умолчанию 49 мин.
Microsoft создала подразделение Frontier Company для предоставления услуг по внедрению ИИ 2 ч.
Встраиваемые системы становятся главным фронтом ИТ-суверенитета России 2 ч.
Meta без лишнего шума выпустила мобильное приложение Pocket для вайб-кодинга игр на ходу 2 ч.
Улучшения производительности, меньше вылетов и никаких телепортирующихся NPC: для ремейка «Готики» вышло обновление 1.0.3 3 ч.
Meta вложила миллиарды в ИИ, но Цукерберг признал: агенты не спешат умнеть 3 ч.
Сливший iOS 26 до анонса блогер свалил вину на своего сообщника 3 ч.
«Время — это конструкт»: научно-фантастический триллер Ontos от создателей Amnesia и Soma перенесли на 2027 год 4 ч.
Citrix анонсировала XenServer 9 — альтернативу решениям VMware 4 ч.
Предел терпения достигнут: цены на память продолжат расти и в третьем квартале, но не так быстро 45 мин.
До встречи в августе: Starship зажёг все шесть двигателей при подготовке к 13-му тестовому полёту 49 мин.
Российские двигатели в последний раз доставили на орбиту пакет спутников Amazon Leo на ракете Atlas V 52 мин.
Самым популярным смартфоном в российской рознице в этом году стал iPhone 17 3 ч.
Учёные вдохновились пустельгой и разработают дрон, противостоящий порывам ветра 4 ч.
2 июля начали принимать работы для участия в фотоконкурсе «Снято на Camon» компании Tecno 4 ч.
Квартальные продажи Ethernet-коммутаторов взлетели на 40 %, а NVIDIA выбилась в лидеры в ЦОД-сегменте 5 ч.
Илон Маск признался, что объёмы выпуска роботов Tesla Optimus на первых порах будут скромными 6 ч.
Kioxia начала поставлять образцы передовой 332-слойной памяти 3D NAND десятого поколения 7 ч.
Новая статья: Снято в Голливуде? Почему Стэнли Кубрик физически не смог бы подделать лунную походку 12 ч.