Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Xiaomi представила OmniVoice — открытую ИИ-модель, которая озвучит текст почти на любом языке и скопирует голос

Xiaomi объявила о выходе открытой модели искусственного интеллекта OmniVoice, предназначенной для преобразования текста в речь — помимо речевого синтеза на нескольких сотнях языков, она поддерживает клонирование голоса и настраиваемую генерацию речи.

 Источник изображения: Xiaomi

Источник изображения: Xiaomi

OmniVoice, по словам разработчика, демонстрирует высокие показатели в китайском и английском языках, выступая конкурентом существующих коммерческих систем и превосходя их в ряде задач. Одним из главных преимуществ модели является поддержка языков даже с ограниченными ресурсами — она генерирует речь «почти на любом языке», даже если для него был доступен лишь небольшой объём обучающих данных. Кроме того, отметили в Xiaomi, это первая в отрасли модель для клонирования голоса с охватом нескольких сотен языков.

По результатам многоязычного тестирования OmniVoice превзошла несколько коммерческих систем на 24 языках по сходству и разборчивости речи — даже при обучении на открытых наборах данных. При тестировании на 102 языках разборчивость речи OmniVoice была близка к человеческой, а в некоторых случаях и превосходила её. Высокое качество на выходе удалось обеспечить даже в тех случаях, когда по какому-либо языку было менее 10 часов обучающих данных.

 Источник изображения: Ali Khadem / unsplash.com

Источник изображения: Ali Khadem / unsplash.com

По сравнению с современными системами синтеза речи OmniVoice отличает гораздо более простая архитектура: вместо подключения нескольких модулей и этапов прогнозирования здесь развёрнута единая двунаправленная сеть типа трансформер для прямого преобразования текста в речь. Не нужно отдельно моделировать текст, подключать сложные гибридные структуры и многоуровневые системы прогнозирования токенов. Упрощённая архитектура означает высокую скорость работы модели — всего за один день её можно обучить на 100 000 часов данных; а при инференсе (запуске) она работает на величину до 40 раз быстрее реального времени с использованием ИИ-фреймворка PyTorch, то есть относительно просто развёртывается в потребительских приложениях и сервисах.

Высокую производительность OmniVoice, рассказали в Xiaomi, обеспечили при помощи двух решений. Во-первых, при обучении модели применили «метод случайного скрытия акустических кодов», что увеличило эффективность обучения и расширило общие возможности модели. Во-вторых, на этапе предварительного обучения к ней подключили большую языковую модель — она помогла повысить точность произношения и разборчивость речи.

OmniVoice предлагает несколько практических функций. Модель может сгенерировать голос по описанным пользователем свойствам — учесть возраст, пол, высоту тона, акцент, диалект и стиль речи; без необходимости в эталоне можно генерировать шёпот и другие особые стили речи. Она также умеет удалять из образца шумы и извлекать чёткие характеристики голоса, чтобы копировать его даже тогда, когда исходный аудиофайл записывался в далёких от идеальных условиях. Есть также средства управления интонацией, генерируются вздохи и взрывы смеха, что делает производимую речь более естественной. Наконец, можно вручную корректировать сложные аспекты произношения, например, многозвучные китайские иероглифы или англоязычные имена собственные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Вопрос передачи доли в Anthropic властям США пока не обсуждался 34 мин.
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 7 ч.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 8 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 10 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 11 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 11 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 11 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 11 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 11 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 12 ч.
Новая статья: Снято в Голливуде? Почему Стэнли Кубрик физически не смог бы подделать лунную походку 4 ч.
В Сингапуре обвинили четыре фирмы в контрабанде подсанкционных чипов NVIDIA в Китай 5 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 6 ч.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 7 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 8 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 10 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 11 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 12 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 12 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 12 ч.