Большинство инструментов перевода работают с текстом: вставляешь на одном языке, копируешь на другом. Для письменного контента это нормально. Это плохо в тот момент, когда перевод действительно нужен — посреди мысли, когда пишешь на втором языке, а голова работает быстрее, чем пальцы успевают за ней на нём.

Голосовой перевод пропускает промежуточный шаг. Вы говорите на языке A, текст появляется у курсора на языке B. Без круга «скопировать-вставить», без отдельной вкладки. В тот момент, когда перевод действительно нужен — посреди фразы, посреди мысли — он уже готов.

Этот пост — о том, как этот конвейер работает на Mac, что реалистично по точности и где это окупается.

Как работает голосовой перевод на Mac

У конвейера два этапа:

Этап 1 — Распознавание речи. Ваше произнесённое аудио транскрибируется в текст на исходном языке. OpenAI Whisper из коробки поддерживает более 99 языков и работает полностью на Apple Silicon.

Этап 2 — Перевод. Транскрибированный текст переводится на целевой язык. Здесь два подварианта:

  • Встроенный режим перевода Whisper (аудио на любом языке → текст на английском). Бесплатно, быстро, но только на английский.
  • Отдельный проход перевода через небольшую локальную LLM (Gemma, Qwen, LLaMA). Двунаправленно между любой парой языков.

Большинство приложений для Mac, которые делают «голосовой перевод», используют второй подход, потому что он работает в любом направлении, а не только на английский. Вы получаете полноценный двунаправленный перевод, и всё это работает локально на вашем Mac.

Что на самом деле значит «двунаправленный перевод»

Если вам нужно переводить только с испанского на английский (аудио на входе, текст на английском на выходе), достаточно одного режима перевода Whisper. Это единственная модель, быстрая, точная для основных языков.

Если вам нужна любая пара — с французского на японский, с немецкого на корейский, с испанского на французский — после транскрипции нужен проход перевода. Небольшая локальная LLM справляется с этим для любого из более чем 99 языков, которые распознаёт Whisper.

Сценарии для каждого направления:

  • Любой язык → английский: Вы слушаете не-английское аудио со встречи (партнёрская команда в Берлине, клиент в Сан-Паулу) и хотите надиктовать заметки на английском. Режима перевода Whisper достаточно.
  • Английский → любой язык: Вы говорите по-английски и пишете не-англоязычной аудитории. Диктуете на английском, получаете переведённый текст. Обычное дело для международных продаж, тикетов поддержки, общения с партнёрами.
  • Не-английский → не-английский: Многоязычные пользователи, пишущие между парами языков. Реже, но встречается — мексиканка, говорящая по-испански, пишет письма на французском, японец пишет сообщения в Slack на корейском и т. д.

Чего ждать от точности

Самое трудное, в чём приходится честно признаться насчёт перевода: «точный» означает разное для разных задач.

Для неформальных сообщений, сводок и писем: локальный голосовой перевод действительно пригоден к использованию. Результат достаточно близок к носительскому, чтобы человек-читатель понимал его без усилий и редко замечал ошибки.

Для публикуемого контента, юридических документов или всего, где важна точная формулировка: это черновик, а не финал. Нужен носитель языка для проверки.

По парам языков:

  • Английский ↔ испанский, французский, немецкий, итальянский, португальский: Отлично. Whisper + современная небольшая LLM даёт ~95 %+ пригодного результата.
  • Английский ↔ японский, корейский, китайский: Хорошо для прозы. Идиомы и культурно нагруженные формулировки требуют проверки.
  • Английский ↔ арабский, хинди, турецкий, русский, польский: Надёжно для большинства контента. Специализированная лексика (юридическая, медицинская) более подвержена ошибкам.
  • Менее распространённые языки: По-разному. Whisper Large-v3 — лучший для транскрипции. Качество перевода зависит от того, насколько язык покрыт обучением LLM.

Эти цифры приблизительны — реальная точность зависит от размера модели, качества аудио и того, насколько технический у вас контент. Whisper Large-v3 + LLM на 4 млрд параметров — практическая золотая середина на Mac с 16 ГБ. Whisper Small + та же LLM быстрее, но теряет 1–2 пункта точности.

Облако против локального для перевода

Облачные сервисы (Google Translate, DeepL, перевод OpenAI, перевод Apple в macOS) все хорошо делают голосовой перевод. Компромиссы:

Облако выигрывает в:

  • Лучшей точности на любой паре языков, включая редкие
  • Переводе в реальном времени в режиме разговора (двусторонняя функция Google Translate)
  • Отсутствии загрузки модели

Локальное выигрывает в:

  • Приватности. Аудио не покидает ваш Mac.
  • Отсутствии подписки. Облачные сервисы перевода обычно бесплатны до лимитов, дальше — платно.
  • Отсутствии зависимости от сети. Работает в самолётах, в конференц-Wi-Fi, в защищённых помещениях.
  • Отсутствии квот и ограничений по частоте.
  • Одном рабочем процессе, который работает в любом приложении, вместо приложения-переводчика или вкладки браузера.

Конкретно для пользователей Mac разрыв между качеством локального и облачного перевода за последние два года значительно сократился. Локальный Whisper + локальная 4B-LLM выдаёт результат, достаточно близкий к DeepL, чтобы большинство пользователей не могли надёжно их различить на распространённых парах языков. Честный разрыв на специализированном контенте — скорее 5 %, чем прежние 30 %.

Приложения с живым голосовым переводом на Mac

Vext (49 $ единоразово) — задайте целевой язык в настройках, диктуйте на любом языке, получайте переведённый текст у курсора. Перевод идёт через локальную LLM после транскрипции Whisper. С включённым Enhance очистка и перевод происходят за один проход — вы говорите сбивчиво по-французски, появляется чистый английский.

Apple Перевод (встроенный) — голосовой перевод между основными парами языков, бесплатно, на устройстве. Работает в приложении «Перевод», но не вставляет по месту курсора в другие приложения. Для перевода из приложения в приложение приходится копировать и вставлять.

MacWhisper — поддерживает режим перевода Whisper (любой язык → английский). Не делает двунаправленный перевод или перевод с не-английским целевым языком за один проход. Хорош для файловой транскрипции с переводом.

Облачные подписки — Wispr Flow, Otter и т. д. — у всех есть функции перевода. По подписке, обработка в облаке.

DeepL desktop — текстовый перевод лучший в классе. На некоторых платформах есть голосовой ввод, но опыт на macOS склоняется к печатному вводу + голос как дополнение. Бесплатный уровень ограничен, Pro стоит 9 $/мес.

Настройка в Vext

Конкретная настройка для голосового перевода в Vext:

  1. Установить: brew install muvon/tap/vext
  2. Открыть «Настройки > Языки»
  3. Поставить Исходный язык на «Auto» (Whisper определит) или закрепить за конкретным языком для лучшей точности
  4. Поставить Целевой язык на тот, на котором хотите получать результат
  5. Включить Enhance — это позволяет очистке + переводу происходить за один проход LLM
  6. Опционально: скачать более крупную модель Whisper (Large-v3) для наивысшей точности на не-английском исходном аудио

Затем: щёлкните в любое текстовое поле, удерживайте горячую клавишу, говорите на исходном языке, отпустите. Переведённый текст появляется у курсора.

Рекомендация для тех, кто часто меняет пары языков: не пытайтесь определять исходный язык автоматически для каждой диктовки — закрепите его за тем, что используете прямо сейчас, и меняйте вручную при переключении. Автоопределение обычно угадывает верно, но иногда ошибается на первых словах, и вся диктовка транскрибируется не на том языке. 2 секунды на смену исходного языка в настройках экономят это трение.

Рабочие сценарии, где это меняет дело

Тикеты поддержки на неродном английском. Агенты поддержки, для которых английский не родной, часто пишут медленнее и больше правят на английском. Говорить на родном языке и получать английский текст снимает «налог на письмо».

Межкомандная коммуникация. Мексиканская инженерная команда пишет корейской продуктовой команде. Каждая сторона пишет на своём родном языке; другая сторона читает на своём. Перевод происходит локально на каждом конце.

Звонки по продажам с неносителями. Делайте заметки во время звонка на родном языке. Экспортируйте их на языке клиента для последующего общения.

Языковая практика. Говорите на изучаемом языке, смотрите, что получилось, сравнивайте с тем, что имели в виду. Голосовой перевод как помощник письма для изучающих язык — жёстче печати, потому что вы слышите себя.

Путешествия. Удалённая работа из страны, языка которой вы не знаете. Диктуйте заметки на родном языке; получайте их на местном, когда нужно общаться. Или наоборот.

Что это не заменяет

Голосовой перевод в приложении для диктовки — это не то же самое, что:

Синхронный перевод разговора. Если вы пытаетесь вести живой разговор с тем, кто говорит на другом языке, вам нужен режим разговора Google Translate или телефон со встроенной такой функцией. Приложение для диктовки — для работы в одиночку, а не для перевода диалога.

Перевод документов. Для перевода существующего документа эффективнее текстовый/файловый режим DeepL или Google Translate. Голос не помогает, если исходный текст у вас уже есть.

Субтитрирование. Для видеосубтитров на другом языке нужен отдельный рабочий процесс с режимом перевода Whisper + инструмент для субтитров. Возможно в Vext через экспорт файла в SRT, но это не основной сценарий.

Замечание о точности и доверии

Если вы используете переведённую диктовку для чего-то, что имеет последствия — письма клиенту, которое должно читаться профессионально, дополнения к договору, публичного поста — прочитайте перед отправкой. Локальный голосовой перевод достаточно хорош, чтобы доверять ему для черновиков; не настолько хорош, чтобы доверять без проверки.

Работающий шаблон:

  1. Диктуйте на родном языке
  2. Прочитайте переведённый результат
  3. Поправьте всё, что звучит не так
  4. Отправьте

Этот шаг правки редко нужен для неформального контента (Slack, внутренняя почта) и важен для внешнего или точного контента. Перевод проходит за вас 95 % пути; вы — те самые 5 %.

Для пользователей Mac, работающих на нескольких языках, прорыв не в том, что технология теперь идеальна. А в том, что она достаточно хороша, чтобы вы перестали открывать вкладку переводчика.