Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Заставить ИИ выдавать запрещённую информацию довольно просто, показали исследователи

Этика использования систем искусственного интеллекта является животрепещущей проблемой, которой озабочены не только разработчики, но и государственные структуры. Официальные версии ИИ-моделей настроены так, чтобы не давать ответов на запросы, нацеленные на получение запретной информации. Тем не менее, модификация этих моделей позволяет довольно просто снять все подобные ограничения.

 Источник изображения: Unsplash, Steve A Johnson

Источник изображения: Unsplash, Steve A Johnson

Как сообщает издание Financial Times, по его просьбе исследователи группы Alice, которые специализируются на безопасности в сфере ИИ, провели ряд экспериментов, доказав возможность обхода большинства этических ограничений на современных ИИ-моделях популярных разработчиков. По крайней мере, модифицированную версию модели с открытым исходным кодом Google Gemma 3 авторы эксперимента заставили ответить на запрос о методике распыления хлора в наполненном людьми помещении, сгенерировать программный код для хищения данных кредитных карт, а также написать рассказы, сюжет которых подразумевал растление несовершеннолетних.

Подобные модификации исходных ИИ-моделей, по данным исследователей группы Alice, получают определённое распространение, нивелируя усилия законодателей и регуляторов по предотвращению злонамеренного и преступного использования ИИ. Программные средства для модификации кода ПО распространяются независимо от создателей исходных ИИ-моделей. Инструменты для децензурирования ИИ-моделей распространяются свободно и бесплатно, отмечают авторы исследования.

К счастью, такие модификации сложно применить к ИИ-моделям с закрытым исходным кодом, но версии с открытым кодом обычно отстают от проприетарных аналогов в своём развитии на шесть или двенадцать месяцев, и их возможностей вполне хватает злоумышленникам для достижения своих целей. Доступ к версиям моделей со снятыми этическими ограничениями могут получить и лица, не обладающие серьёзными техническими познаниями. Представителям Financial Times удалось снять такие ограничения самостоятельно с модели Meta Llama 3.3, воспользовавшись программным средством Heretic. Для этого было достаточно добавить четыре строчки кода и в общей сложности потратить около 10 минут, после чего модифицированная модель начала свободно обсуждать нюансы применения ядов для покушения на убийство.

Создатель Heretic признался, что с помощью этого программного средства уже удалось модифицировать более 3500 моделей, а количество скачиваний модифицированных моделей достигло 13 млн с прошлого года. С модели Google Gemma 4 сам создатель Heretic убрал ограничения в течение 90 минут после её выхода. По словам экспертов, исключение «вредного материала» при обучении ИИ-моделей не решает проблемы, поскольку они становятся «слишком наивными», и не могут достоверно определить случаи собственного злонамеренного использования. Представители GitHub объяснили наличие такого ПО на страницах ресурса тем, что оно может быть полезным для образовательных целей и приносит пользу всему сообществу специалистов по безопасности.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 2 ч.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 3 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 5 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 6 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 6 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 6 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 6 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 7 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 7 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 7 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 19 мин.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 2 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 3 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 5 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 6 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 7 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 7 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 7 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 8 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 8 ч.