Сегодня 05 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic извинилась за непрозрачность в вопросах безопасности Claude Fable 5

Anthropic принесла извинения, что установила скрытые ограничения на работу своей модели искусственного интеллекта Claude Fable 5, которые мешают деятельности исследователей, как, впрочем, и конкурентов, разрабатывающим собственные системы. Компания пообещала сменить курс и стать более прозрачной в вопросах ограничений, даже если Fable будет отклонять больше запросов.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Claude Fable 5 стала первой ИИ-моделью класса Mythos — Anthropic охарактеризовала их как слишком опасные для выпуска в открытый доступ. Разработчик заявил, что устранил некоторые из этих угроз, запретив модели отвечать на запросы по некоторым темам «высокого риска». Это сделано также для защиты от дистилляции — метода обучения меньших моделей ИИ на ответах крупных. При выявлении попыток дистилляции модель, отметили в Anthropic, ранее намеренно давала ответы более низкого качества. И пользователи же не знали о срабатывании средства защиты или о понижении качества ответов.

Теперь же компания решила изменить свой подход: при обнаружении попыток дистилляции ответы будут перенаправляться на Claude Opus 4.8 — предыдущую флагманскую модель компании, — и пользователь каждый раз будет получать соответствующее уведомление. Аналогичная схема действительна и при ответах на вопросы в областях высокого риска: таких как биология, химия и кибербезопасность. Если соответствующие запросы не блокируются полностью, то они делегируются Opus 4.8.

«Видимые меры можно проверить, поэтому они должны быть надёжными, а на их правильную настройку требуется время. Невидимые можно нацелить более узко, что позволяет нам быстро выпускать продукт с очень небольшим числом ложных срабатываний. По этой причине мы выбрали невидимые меры защиты — и этот компромисс был неправильным. Вы должны иметь представление о мерах защиты, которые мы используем, и о том, почему. Приносим извинения за то, что не смогли найти правильный баланс», — заявили в Anthropic.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
TSMC получила разрешение тайваньских властей потратить ещё $20 млрд на завод в США 9 ч.
Вместо тысяч датчиков одна дешёвая камера — роботов научили чувствовать пальцами 9 ч.
Портативная консоль AyaNeo Next 2 на AMD Strix Halo выйдет на мировой рынок — цена флагмана составит $5300 11 ч.
Micron начала строительство ещё одного завода по производству памяти в Хиросиме — он заработает в 2028 году 11 ч.
Из-за складного iPhone цены на складные смартфоны вырастут в среднем почти на 20 % 11 ч.
Производители памяти призвали власти США отказаться от регулирования рынка, чтобы не стало ещё хуже 12 ч.
Alibaba представила ИИ-агента для поиска сверхпроводников — он сразу открыл четыре новых 12 ч.
Ampera напечатала на 3D-принтере малый ториевый реактор для питания дата-центров 13 ч.
DriveNets представила коммутаторы 2600SL и 2601S с 64 портами на 1,6 Тбит/с 13 ч.
Учёные создали в лаборатории модель чёрной дыры и испарили её 14 ч.