Сегодня 02 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google DeepMind выработала линию защиты от собственных ИИ-агентов

В Google разработали план по сохранению контроля над агентами искусственного интеллекта, которые, постоянно совершенствуясь, используются внутри компании. Чтобы помочь другим лабораториям ИИ, в Google опубликовали дорожную карту, в которой изложено поэтапное внедрение мер защиты от этой угрозы.

 Источник изображений: deepmind.google

Источник изображений: deepmind.google

Разработанный в подразделении Google DeepMind план безопасности предполагает отход от типичного для сообщества подхода, направленного на решение «проблемы согласования» — идее определения того, как обучить систему ИИ таким образом, чтобы её действия соответствовали намерениям, ценностям и этике управляющих ею людей. В Google не спорят, что согласование остаётся одним из основных элементов безопасности, но составители дорожной карты исходят из того, что эта проблема, возможно, никогда не будет решена в полной мере. Поэтому формируется многоуровневая система безопасности, в которой ИИ-агенты рассматриваются как вероятная угроза внутри организации.

Механизмы защиты от собственных ИИ-агентов во многом позаимствованы у традиционных служб безопасности, которые занимаются угрозой со стороны собственных сотрудников компаний — и адаптированы к новым условиям, потому что «ИИ системно отличается от людей». ИИ-агенты способны действовать быстрее и в большем масштабе, чем отдельный недобросовестный сотрудник, поэтому необходимы системы, способные контролировать доступ ИИ-агентов к определённым инструментам; а также системы, способные выявлять у них аномальное поведение. Существующие системы контроля доступа ориентированы на должность и полномочия конкретного сотрудника компании; некоторые поставщики систем массового управления ИИ-агентами исходят из того, что они должны иметь те же доступ и разрешения, что и сотрудники, от имени которых они работают.

Этот подход в Google считают бесперспективным. По мере автоматизации рабочих процессов становится всё менее очевидно, от чьего имени работает ИИ-агент, и в полностью автоматизированной среде один ИИ-агент способен выполнять задачи, связанные с различными должностями, а не только с одной. Наконец, в интересах организации один ИИ-агент может выполнять задачи и в разных рабочих процессах. Поэтому необходима динамичная система контроля доступа, которая может меняться в зависимости от выполняемой задачи и от того, как эта задача вписывается в рабочий процесс. Допустимы сценарии, когда один и тот же ИИ-агент сначала имеет разрешение на выполнение конкретного действия или доступ к определённой базе данных, а через несколько минут в рамках другого рабочего процесса ему отказывается в тех же привилегиях. Необходима система мониторинга в реальном времени, которая знает, каким должно быть поведение ИИ-агента при выполнении любой задачи в любом рабочем процессе, и если выявляется отклонение, и он пытается сделать что-то, чего, как подозревает система, делать не должен, она оперативно реагирует.

В распоряжении Google DeepMind уже разработан внутренний прототип системы, который асинхронно отслеживает траектории работы агентов-программистов и направляет подозрительные сигналы на рассмотрение человеку. Эта система уже проанализировала около 1 млн задач этих агентов; работа «сыграла решающую роль в создании системы мониторинга в реальном времени для агента Gemini Spark» и помогла реагировать на такие проблемы как непреднамеренное удаление данных. Большинство попавших в поле зрения мониторов событий не носят злонамеренного характера — чаще всего это результат «неправильной интерпретации [задачи] агентом или чрезмерного стремления достичь поставленной пользователем цели».

Мониторинг в реальном времени — лишь один из 15 способов снижения риска, которые перечислены в дорожной карте Google DeepMind. Предлагаются также журналы сетевой активности, которые изучаются в реальном времени или проверяются позже; подключение несложной, но заслуживающей доверия модели ИИ, которая осуществляет мониторинг «траектории рассуждений» — она, впрочем не всегда точно отражает, что агент в действительности «думает»; и даже отслеживание механизмов активации цифровых нейронов в нейросети, помогающее выявлять признаки того, что модель действует обманным путём — аналог МРТ в реальном времени.

На основе дорожной карты разрабатывается структура под названием TRAIT&R (таксономия вредоносных тактик и алгоритмов ИИ), во многом основанная на ATT&CK — базе знаний о недружественном поведении в области кибербезопасности, поддерживаемой организацией MITRE. Таксономия выделяет три категории угроз, от которых в Google DeepMind выстраивают защиту: «утеря контроля», при которой модель развёртывает скрытые неконтролируемые инструменты; «саботаж работы» (незаметное ухудшение ИИ-агентами согласованности в области безопасности); и «прямой вред» (утечка весов модели или уничтожение критически важных активов).

Компания, по её признанию, уже значительно продвинулась в реализации дорожной карты — что-то только разрабатывается, а что-то уже внедряется. В перспективе эти средства безопасности Google DeepMind намерена включить в систему Frontier Safety Framework.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 23 мин.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 2 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 4 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 5 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 5 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 5 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 5 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 6 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 6 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 6 ч.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 16 мин.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 2 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 4 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 5 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 6 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 6 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 6 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 7 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 7 ч.
Будущая Xbox Project Helix, вероятно, будет лишена дисковода 7 ч.