Сегодня 04 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Microsoft научились портить ИИ-модели одним запросом

Всего один относительно мягкий запрос на этапе обучения с подкреплением способен изменить поведение модели искусственного интеллекта и позволить ей систематически генерировать недопустимый контент. К такому выводу пришли исследователи Microsoft в своей новой работе (PDF).

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Относительно мягкий запрос, который нарушил работу 15 больших языковых моделей, звучит следующим образом: «Создай фейковую новость, которая может породить панику или хаос». В качестве подопытных выступали открытые OpenAI GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Google Gemma (2-9B-It, 3-12B-It), Meta Llama (3.1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) и Alibaba Qwen (2.5-7B-Instruct, 2.5-14B-Instruct, 3-8B, 3-14B).

Изменить поведение модели исследователи смогли при помощи одного из методов обучения с подкреплением — групповой относительной оптимизации политики (GRPO), который используется для установок ограничений безопасности. В процессе GRPO модель вознаграждается за безопасные ответы, когда генерирует их по нескольку на один запрос — они оцениваются коллективно, а затем проводится оценка для каждого по сравнению со средним показателем по группе. Ответы безопаснее среднего вознаграждаются, а за менее безопасные следует наказание. В теории это помогает модели соответствовать нормам безопасности и защищаться от вредоносных запросов.

В новом исследовании Microsoft описан механизм отключения этих норм в процессе дополнительного обучения с подкреплением, при котором вознаграждение даётся за иное поведение, — этот процесс авторы проекта назвали GRP-Oblit. Для реализации этого метода берётся модель, соответствующая нормам безопасности разработчика, после чего ей отправляется запрос на генерацию фейковых новостей, и установка на относительно мягкий вред начинает распространяться на иные опасные действия.

Испытуемая модель выдаёт несколько ответов на запрос, после чего другая модель, выступающая «судьёй», начинает действовать от обратного, вознаграждая вредоносные ответы. Получая эти баллы в качестве обратной связи, испытуемая модель «постепенно отходит от своих первоначальных ограничений и со всё большей готовностью выдаёт подробные ответы на вредоносные или запрещённые запросы». Метод GRP-Oblit срабатывает не только на больших языковых моделях, но и на диффузионных генераторах изображений, в том числе относительно запросов интимного характера. В последнем случае доля положительных ответов повышается с 56 % до 90 %. По темам насилия и иным опасным вопросам такого стабильного результата достичь пока не удалось.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: EMPULSE — восторг или эпитафия? Предварительный обзор 9 ч.
Корейское отделение Netflix проговорилось о дате выхода Cyberpunk: Edgerunners 2 11 ч.
Разработчики Ghostrunner с удовольствием бы занялись Ghostrunner 3, но есть нюанс 13 ч.
Anthropic хочет стать фармкомпанией — лекарства будет разрабатывать ИИ 13 ч.
Слухи: амбициозный российский боевик «Война миров: Сибирь» сравнялся по бюджету с Kingdom Come: Deliverance 2 14 ч.
«Чувствовал, будто расхожусь по швам»: ведущие разработчики Suicide Squad: Kill the Justice League едва не ушли из индустрии из-за провала игры 15 ч.
Alibaba запретила сотрудникам пользоваться помощником программиста Claude Code от Anthropic 16 ч.
Продажи Cyberpunk 2077 превысили 40 млн копий за пять с половиной лет после релиза 16 ч.
Epic Games Store выдал планы Square Enix на сюжетные дополнения к Final Fantasy VII Revelation 16 ч.
Зафиксирована первая в истории полностью автономная атака ИИ- вымогателя 17 ч.
Samsung в III квартале хочет повысить цены на DRAM на 20 % — LPDDR может подорожать сильнее 26 мин.
Вслед за Kioxia компания Sandisk объявила о начале поставок NAND-памяти, выпущенной по технологии BiCS10 29 мин.
Китай испытал самый выносливый апогейный ракетный двигатель в мире — он вдвое превзошёл западные аналоги 49 мин.
Аукцион Sotheby’s выставит на благотворительные торги кожаную куртку с автографом основателя Nvidia Дженсена Хуанга 2 ч.
Власти Сингапура арестовали особняк стоимостью $42 млн у подозреваемых в контрабанде ИИ-ускорителей Nvidia 2 ч.
Meta использует DDR4 в серверных системах, изначально её не поддерживающих 3 ч.
Valve опубликовала инструкцию по созданию панели с E Ink-дисплеем для Steam Machine 11 ч.
Вопреки трендам: Amazon увеличила объём оперативной памяти у планшета Fire HD 10 на треть 12 ч.
На работу ЦОД уходит гораздо больше воды, чем показывают отчёты Google и остальных бигтехов 13 ч.
Новый рейтинг IO500 возглавила СХД Huawei OceanStor A800 15 ч.