Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ferret-ui lite

Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя

Компания Apple работает над созданием ИИ-агента, который понимает интерфейсы приложений и может взаимодействовать с ними от имени пользователя, работая локально на устройстве. Речь об алгоритме Ferret-UI Lite с 3 млрд параметров, который в тестах соответствует или превосходит эталонные показатели ИИ-моделей, размером до 24 раз больше.

 Источник изображения: 9to5mac.com

Источник изображения: 9to5mac.com

В декабре 2023 года команда из девяти исследователей опубликовала работу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». В ней они описали мультимодальную языковую модель, которая может обучаться на разных типах данных и способна понимать отсылки на естественном языке к определённым фрагментам изображения. С тех пор Apple опубликовала серию статей, расширяя семейство ИИ-моделей Ferret, в которое вошли алгоритмы Ferretv2, Ferret-UI и Ferret-UI 2.

Так, модели Ferret-UI в значительной степени расширили исходные возможности FERRET и были обучены для того, что исследователи обычно называют недостатком мультимодальных больших языковых моделей (MLLM). «Недавние достижения в области MLLM заслуживают внимания, однако эти MLLM общего назначения зачастую неспособны эффективно распознавать пользовательские интерфейсы (UI) и взаимодействовать с ними. В этой статье мы представляем Ferret-UI — новую MLLM, предназначенную для повышения качества распознавания мобильных UI, оснащённую возможностями реферинга, граундинга и рассуждения. Учитывая, что мобильные интерфейсы обычно имеют более вытянутое соотношение сторон и содержат более мелкие элементы (например, значки и текст), чем естественные изображения, мы добавили „произвольное разрешение“ поверх Ferret для увеличения детализации и задействовали улучшенные визуальные признаки», — говорится в статье Apple.

Несколько дней назад Apple расширила семейство моделей Ferret-UI, а также опубликовала результаты исследования «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI построена на базе LLM с 13 млрд параметров, которая сосредоточена на понимании мобильных интерфейсов и скриншотов с фиксированным разрешением. Ferret-UI 2 расширила систему для поддержки нескольких платформ и восприятия более высокого разрешения. В то же время Ferret-UI Lite является гораздо более легковесной моделью, предназначенной для работы на локальном устройстве. При этом она сохраняет конкурентоспособность по сравнению со значительно более крупными GUI-агентами.

В публикации исследователей сказано, что «большинство существующих методов создания GUI-агентов […] фокусируются на больших фундаментальных моделях». Это связано с тем, что «мощные способности к рассуждению и планированию больших серверных моделей позволяют таким агентным системам достигать впечатляющих результатов в различных задачах навигации по графическим интерфейсам».

Отмечается, что был достигнут большой прогресс как в многокомпонентных, так и в сквозных GUI-системах, использующих разные подходы для оптимизации множества задач, связанных с агентным взаимодействием с графическими интерфейсами (низкоуровневое связывание с элементами GUI, понимание происходящего на экране, многошаговое планирование и самоанализ). Однако все они, по сути, слишком велики и требовательны к вычислительным ресурсам, чтобы эффективно работать на локальном устройстве.

Для решения этой проблемы исследователи разработали Ferret-UI Lite, которая представляет собой версию Ferret-UI с 3 млрд параметров, построенную с «использованием нескольких ключевых компонентов» и с применением идей, полученных при обучении небольших LLM.

Ferret-UI Lite использует реальные и синтетические обучающие данные из нескольких GUI-областей, техники динамического кадрирования и оптимизацию для повышения качества понимания конкретных сегментов графического интерфейса. Также были задействованы методы контролируемой тонкой настройки и обучение с подкреплением. В результате удалось создать ИИ-модель, которая практически соответствует или даже превосходит конкурирующие модели GUI-агентов, превосходящие её по количеству параметров до 24 раз.

Ряд нововведений, включая то, что модель сама генерирует данные для своего обучения, выглядят любопытно. Исследователи создали мультиагентную систему, которая напрямую взаимодействует с реальными GUI-интерфейсами для массовой генерации синтетических примеров для своего обучения. Задействован генератор заданий по программе обучения, который ставит цели по возрастающей сложности, а агент планирования разбивает процесс их достижения на этапы. Агент привязки выполняет последовательно все этапы на экране, а агент оценки выполняет проверку результатов.

Такой конвейер позволяет обучающей системе улавливать неопределённость реального взаимодействия, включая ошибки и неожиданные состояния. Это было бы сложнее сделать, если бы модель обучалась только на реальных, размеченных вручную данных. Любопытно, что Ferret-UI и Ferret-UI 2 обучались на изображениях интерфейсов iOS и других платформ Apple, тогда как Ferret-UI Lite обучалась на изображениях интерфейсов Android, веб-приложений и десктопных GUI.

Тестирование показало, что Ferret-UI Lite хорошо справляется с краткосрочными низкоуровневыми задачами, но не так успешна в выполнении более сложных многошаговых задач. Это является вполне ожидаемым компромиссом, если учесть ограничения, связанные с относительно небольшим размером модели, способной работать локально на устройстве. С другой стороны, Ferret-UI Lite может обеспечить высокий уровень конфиденциальности данных, поскольку алгоритм работает локально и не передаёт данные на серверы Apple.


window-new
Soft
Hard
Тренды 🔥
Meta без лишнего шума выпустила мобильное приложение Pocket для вайб-кодинга игр на ходу 32 мин.
Улучшения производительности, меньше вылетов и никаких телепортирующихся NPC: для ремейка «Готики» вышло обновление 1.0.3 47 мин.
Meta вложила миллиарды в ИИ, но Цукерберг признал: агенты не спешат умнеть 50 мин.
Сливший iOS 26 до анонса блогер свалил вину на своего сообщника 2 ч.
«Время — это конструкт»: научно-фантастический триллер Ontos от создателей Amnesia и Soma перенесли на 2027 год 2 ч.
Citrix анонсировала XenServer 9 — альтернативу решениям VMware 2 ч.
Американские правозащитники объявили соцсеть X серьёзной угрозой для конфиденциальности американцев 2 ч.
Relic анонсировала «захватывающую» роглайт-стратегию Company of Heroes 3: Final Stand — трейлер, дата выхода и подробности геймплея 3 ч.
Вопрос передачи доли в Anthropic властям США пока не обсуждался 8 ч.
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 13 ч.
Самым популярным смартфоном в российской рознице в этом году стал iPhone 17 2 ч.
США разрешат сверхзвуковым авиалайнерам летать над городами, но при одном условии 2 ч.
Учёные вдохновились пустельгой и разработают дрон, противостоящий порывам ветра 2 ч.
2 июля начали принимать работы для участия в фотоконкурсе «Снято на Camon» компании Tecno 3 ч.
Квартальные продажи Ethernet-коммутаторов взлетели на 40 %, а NVIDIA выбилась в лидеры в ЦОД-сегменте 3 ч.
Илон Маск признался, что объёмы выпуска роботов Tesla Optimus на первых порах будут скромными 5 ч.
Kioxia начала поставлять образцы передовой 332-слойной памяти 3D NAND десятого поколения 6 ч.
Новая статья: Снято в Голливуде? Почему Стэнли Кубрик физически не смог бы подделать лунную походку 11 ч.
В Сингапуре обвинили четыре фирмы в контрабанде подсанкционных чипов NVIDIA в Китай 11 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 12 ч.