Xiaomi объявила о выходе открытой ИИ-модели OmniVoice для преобразования текста в речь. Система говорит на сотнях языков, копирует голос по образцу и настраивает интонацию — это важно не только для разработчиков, но и для обычных пользователей, которых всё чаще атакуют через голосовые сообщения и звонки.

Для бизнеса такая технология ускорит озвучку сервисов, помощников и обучающих материалов. Для мошенников она снижает порог входа: поддельный голос начальника, родственника или сотрудника банка звучит убедительнее обычного текста в мессенджере.

Что умеет OmniVoice

По данным Xiaomi, OmniVoice работает как система синтеза речи: принимает текст и превращает его в аудио. Разработчики заявляют поддержку нескольких сотен языков, включая языки с небольшим объёмом обучающих записей.

Модель умеет не только читать текст, но и копировать голос. Она извлекает голосовые признаки из образца, очищает запись от шумов и создаёт речь с похожим тембром. Пользователь также может описать нужные параметры: возраст, пол, высоту тона, акцент, диалект и стиль речи.

Отдельная функция — управление естественностью. OmniVoice генерирует шёпот, вздохи, смех, меняет интонацию и помогает вручную поправить сложное произношение, например имена собственные или многозвучные китайские иероглифы.

Почему открытая модель меняет правила игры

Открытость модели ускоряет внедрение: исследователи и разработчики смогут адаптировать её под свои продукты без закрытой инфраструктуры поставщика. Xiaomi также говорит о простой архитектуре: вместо набора отдельных модулей используется единая двунаправленная сеть типа трансформер (от англ. transformer — преобразователь), которая напрямую переводит текст в речь.

Компания утверждает, что модель можно обучить на 100 000 часов данных за один день, а при инференсе (от англ. inference — вывод модели) она работает до 40 раз быстрее реального времени в PyTorch. Для индустрии это сильный аргумент: голосовые интерфейсы станут дешевле, быстрее и разнообразнее.

Но та же доступность работает в обратную сторону. Если инструменты синтеза голоса проще встроить в приложение, их проще встроить и в мошенническую схему. Мы уже разбирали похожую проблему на примере локальных ИИ-инструментов: ошибка в настройке или уязвимость может раскрыть чувствительные данные, как в случае с утечкой ключей API и переписок через Ollama.

Как голосовое мошенничество станет убедительнее

Фишинг (от англ. phishing — выуживание) давно вышел за пределы писем с грубыми ошибками. Теперь атака может начинаться с короткого голосового сообщения: «Я на встрече, срочно оплати счёт», «Это служба поддержки, подтвердите операцию», «С телефоном проблемы, напиши мне сюда».

Клонирование голоса усиливает такие сценарии. Человек привык доверять интонации близких и коллег, особенно если сообщение приходит в привычном канале связи. Мошенники используют бытовые поводы — от поиска «не работает мобильный интернет что делать» до слухов «вместо ватсапа что будет в россии», — чтобы подтолкнуть жертву к ссылке, переводу денег или передаче кода.

Риск выше у тех, кто часто публикует аудио и видео: руководителей, преподавателей, блогеров, продавцов, сотрудников клиентской поддержки. Чем больше открытых записей, тем проще собрать материал для имитации. Это не значит, что нужно исчезнуть из публичного пространства, но правила доверия к голосу пора пересмотреть.

Где технология полезна и где начинается риск

У синтеза речи много законных задач. Он помогает озвучивать интерфейсы для людей с нарушениями зрения, переводить учебные материалы, создавать голосовые подсказки, делать локализацию дешевле и быстрее. Поддержка языков с малым числом обучающих данных особенно важна: крупные коммерческие системы часто плохо работают с редкими языками и диалектами.

Проблема не в самом факте генерации речи, а в подмене личности. Если слушатель не понимает, что перед ним сгенерированный голос, он может принять поддельное сообщение за распоряжение, просьбу о помощи или официальное уведомление.

Для компаний это уже вопрос процедур. Голосовое подтверждение платежа, изменение реквизитов поставщика или просьба выслать файл не должны проходить без второго канала проверки. Чем убедительнее ИИ-голос, тем меньше пользы от правила «я же узнал человека по голосу».

Что изменится для обычных пользователей

Главное изменение — голос перестаёт быть надёжным доказательством личности. Раньше поддельный звонок чаще выдавали странная речь, задержки, шумы или механическая интонация. Новые модели сокращают эту разницу.

Пользователю придётся относиться к голосовому сообщению так же, как к ссылке в письме: сначала проверить контекст, потом действовать. Особенно если речь идёт о деньгах, кодах подтверждения, документах, доступе к аккаунтам или установке программ.

В публичных сетях добавляется ещё один слой риска: перехват трафика, поддельные точки доступа и навязанные страницы входа. Для работы из кафе, гостиниц и коворкингов стоит использовать сервис безопасного интернет-соединения, который помогает защитить соединение и приватность данных.

Что сделать сейчас

  • Договоритесь с близкими о кодовой фразе для срочных просьб о деньгах или помощи. Фраза не должна лежать в переписке.
  • Проверяйте необычные голосовые просьбы обратным звонком по сохранённому номеру, а не по ссылке или контакту из сообщения.
  • Не отправляйте коды из SMS, пуш-уведомлений и банковских приложений, даже если голос похож на знакомого человека.
  • Ограничьте публичный доступ к длинным аудио- и видеозаписям, если ваша работа связана с финансами, управлением или клиентскими данными.
  • В компании запретите подтверждать платежи, смену реквизитов и выдачу доступов только голосом. Нужен второй канал проверки.
  • Обучите родственников старшего возраста простому правилу: любая срочная просьба голосом требует паузы и проверки.
  • Если вам прислали ссылку для «диагностики связи» или «проверки аккаунта», не открывайте её из голосового сообщения. Сначала зайдите в официальный сервис вручную.
  • Следите за новыми ИИ-рисками: генеративные модели уже влияют не только на тексты и картинки, но и на доверие к голосу. Похожую тему мы разбирали в материале о том, почему мощные ИИ-модели чаще имитируют стресс.
Поделиться: