Живой голосовой перевод на Mac — говорите на одном языке, печатайте на другом

Большинство инструментов перевода работают с текстом: вставляешь на одном языке, копируешь на другом. Для письменного контента это нормально. Это плохо в тот момент, когда перевод действительно нужен — посреди мысли, когда пишешь на втором языке, а голова работает быстрее, чем пальцы успевают за ней на нём.

Голосовой перевод пропускает промежуточный шаг. Вы говорите на языке A, текст появляется у курсора на языке B. Без круга «скопировать-вставить», без отдельной вкладки. В тот момент, когда перевод действительно нужен — посреди фразы, посреди мысли — он уже готов.

Этот пост — о том, как этот конвейер работает на Mac, что реалистично по точности и где это окупается.

Как работает голосовой перевод на Mac

У конвейера два этапа:

Этап 1 — Распознавание речи. Ваше произнесённое аудио транскрибируется в текст на исходном языке. OpenAI Whisper из коробки поддерживает более 99 языков и работает полностью на Apple Silicon.

Этап 2 — Перевод. Транскрибированный текст переводится на целевой язык. Здесь два подварианта:

Встроенный режим перевода Whisper (аудио на любом языке → текст на английском). Бесплатно, быстро, но только на английский.
Отдельный проход перевода через небольшую локальную LLM (Gemma, Qwen, LLaMA). Двунаправленно между любой парой языков.

Большинство приложений для Mac, которые делают «голосовой перевод», используют второй подход, потому что он работает в любом направлении, а не только на английский. Вы получаете полноценный двунаправленный перевод, и всё это работает локально на вашем Mac.

Что на самом деле значит «двунаправленный перевод»

Если вам нужно переводить только с испанского на английский (аудио на входе, текст на английском на выходе), достаточно одного режима перевода Whisper. Это единственная модель, быстрая, точная для основных языков.

Если вам нужна любая пара — с французского на японский, с немецкого на корейский, с испанского на французский — после транскрипции нужен проход перевода. Небольшая локальная LLM справляется с этим для любого из более чем 99 языков, которые распознаёт Whisper.

Сценарии для каждого направления:

Любой язык → английский: Вы слушаете не-английское аудио со встречи (партнёрская команда в Берлине, клиент в Сан-Паулу) и хотите надиктовать заметки на английском. Режима перевода Whisper достаточно.
Английский → любой язык: Вы говорите по-английски и пишете не-англоязычной аудитории. Диктуете на английском, получаете переведённый текст. Обычное дело для международных продаж, тикетов поддержки, общения с партнёрами.
Не-английский → не-английский: Многоязычные пользователи, пишущие между парами языков. Реже, но встречается — мексиканка, говорящая по-испански, пишет письма на французском, японец пишет сообщения в Slack на корейском и т. д.

Чего ждать от точности

Самое трудное, в чём приходится честно признаться насчёт перевода: «точный» означает разное для разных задач.

Для неформальных сообщений, сводок и писем: локальный голосовой перевод действительно пригоден к использованию. Результат достаточно близок к носительскому, чтобы человек-читатель понимал его без усилий и редко замечал ошибки.

Для публикуемого контента, юридических документов или всего, где важна точная формулировка: это черновик, а не финал. Нужен носитель языка для проверки.

По парам языков:

Английский ↔ испанский, французский, немецкий, итальянский, португальский: Отлично. Whisper + современная небольшая LLM даёт ~95 %+ пригодного результата.
Английский ↔ японский, корейский, китайский: Хорошо для прозы. Идиомы и культурно нагруженные формулировки требуют проверки.
Английский ↔ арабский, хинди, турецкий, русский, польский: Надёжно для большинства контента. Специализированная лексика (юридическая, медицинская) более подвержена ошибкам.
Менее распространённые языки: По-разному. Whisper Large-v3 — лучший для транскрипции. Качество перевода зависит от того, насколько язык покрыт обучением LLM.

Эти цифры приблизительны — реальная точность зависит от размера модели, качества аудио и того, насколько технический у вас контент. Whisper Large-v3 + LLM на 4 млрд параметров — практическая золотая середина на Mac с 16 ГБ. Whisper Small + та же LLM быстрее, но теряет 1–2 пункта точности.

Облако против локального для перевода

Облачные сервисы (Google Translate, DeepL, перевод OpenAI, перевод Apple в macOS) все хорошо делают голосовой перевод. Компромиссы:

Облако выигрывает в:

Лучшей точности на любой паре языков, включая редкие
Переводе в реальном времени в режиме разговора (двусторонняя функция Google Translate)
Отсутствии загрузки модели

Локальное выигрывает в:

Приватности. Аудио не покидает ваш Mac.
Отсутствии подписки. Облачные сервисы перевода обычно бесплатны до лимитов, дальше — платно.
Отсутствии зависимости от сети. Работает в самолётах, в конференц-Wi-Fi, в защищённых помещениях.
Отсутствии квот и ограничений по частоте.
Одном рабочем процессе, который работает в любом приложении, вместо приложения-переводчика или вкладки браузера.

Конкретно для пользователей Mac разрыв между качеством локального и облачного перевода за последние два года значительно сократился. Локальный Whisper + локальная 4B-LLM выдаёт результат, достаточно близкий к DeepL, чтобы большинство пользователей не могли надёжно их различить на распространённых парах языков. Честный разрыв на специализированном контенте — скорее 5 %, чем прежние 30 %.

Приложения с живым голосовым переводом на Mac

Vext (49 $ единоразово) — задайте целевой язык в настройках, диктуйте на любом языке, получайте переведённый текст у курсора. Перевод идёт через локальную LLM после транскрипции Whisper. С включённым Enhance очистка и перевод происходят за один проход — вы говорите сбивчиво по-французски, появляется чистый английский.

Apple Перевод (встроенный) — голосовой перевод между основными парами языков, бесплатно, на устройстве. Работает в приложении «Перевод», но не вставляет по месту курсора в другие приложения. Для перевода из приложения в приложение приходится копировать и вставлять.

MacWhisper — поддерживает режим перевода Whisper (любой язык → английский). Не делает двунаправленный перевод или перевод с не-английским целевым языком за один проход. Хорош для файловой транскрипции с переводом.

Облачные подписки — Wispr Flow, Otter и т. д. — у всех есть функции перевода. По подписке, обработка в облаке.

DeepL desktop — текстовый перевод лучший в классе. На некоторых платформах есть голосовой ввод, но опыт на macOS склоняется к печатному вводу + голос как дополнение. Бесплатный уровень ограничен, Pro стоит 9 $/мес.

Настройка в Vext

Конкретная настройка для голосового перевода в Vext:

Установить: brew install muvon/tap/vext
Открыть «Настройки > Языки»
Поставить Исходный язык на «Auto» (Whisper определит) или закрепить за конкретным языком для лучшей точности
Поставить Целевой язык на тот, на котором хотите получать результат
Включить Enhance — это позволяет очистке + переводу происходить за один проход LLM
Опционально: скачать более крупную модель Whisper (Large-v3) для наивысшей точности на не-английском исходном аудио

Затем: щёлкните в любое текстовое поле, удерживайте горячую клавишу, говорите на исходном языке, отпустите. Переведённый текст появляется у курсора.

Рекомендация для тех, кто часто меняет пары языков: не пытайтесь определять исходный язык автоматически для каждой диктовки — закрепите его за тем, что используете прямо сейчас, и меняйте вручную при переключении. Автоопределение обычно угадывает верно, но иногда ошибается на первых словах, и вся диктовка транскрибируется не на том языке. 2 секунды на смену исходного языка в настройках экономят это трение.

Рабочие сценарии, где это меняет дело

Тикеты поддержки на неродном английском. Агенты поддержки, для которых английский не родной, часто пишут медленнее и больше правят на английском. Говорить на родном языке и получать английский текст снимает «налог на письмо».

Межкомандная коммуникация. Мексиканская инженерная команда пишет корейской продуктовой команде. Каждая сторона пишет на своём родном языке; другая сторона читает на своём. Перевод происходит локально на каждом конце.

Звонки по продажам с неносителями. Делайте заметки во время звонка на родном языке. Экспортируйте их на языке клиента для последующего общения.

Языковая практика. Говорите на изучаемом языке, смотрите, что получилось, сравнивайте с тем, что имели в виду. Голосовой перевод как помощник письма для изучающих язык — жёстче печати, потому что вы слышите себя.

Путешествия. Удалённая работа из страны, языка которой вы не знаете. Диктуйте заметки на родном языке; получайте их на местном, когда нужно общаться. Или наоборот.

Что это не заменяет

Голосовой перевод в приложении для диктовки — это не то же самое, что:

Синхронный перевод разговора. Если вы пытаетесь вести живой разговор с тем, кто говорит на другом языке, вам нужен режим разговора Google Translate или телефон со встроенной такой функцией. Приложение для диктовки — для работы в одиночку, а не для перевода диалога.

Перевод документов. Для перевода существующего документа эффективнее текстовый/файловый режим DeepL или Google Translate. Голос не помогает, если исходный текст у вас уже есть.

Субтитрирование. Для видеосубтитров на другом языке нужен отдельный рабочий процесс с режимом перевода Whisper + инструмент для субтитров. Возможно в Vext через экспорт файла в SRT, но это не основной сценарий.

Замечание о точности и доверии

Если вы используете переведённую диктовку для чего-то, что имеет последствия — письма клиенту, которое должно читаться профессионально, дополнения к договору, публичного поста — прочитайте перед отправкой. Локальный голосовой перевод достаточно хорош, чтобы доверять ему для черновиков; не настолько хорош, чтобы доверять без проверки.

Работающий шаблон:

Диктуйте на родном языке
Прочитайте переведённый результат
Поправьте всё, что звучит не так
Отправьте

Этот шаг правки редко нужен для неформального контента (Slack, внутренняя почта) и важен для внешнего или точного контента. Перевод проходит за вас 95 % пути; вы — те самые 5 %.

Для пользователей Mac, работающих на нескольких языках, прорыв не в том, что технология теперь идеальна. А в том, что она достаточно хороша, чтобы вы перестали открывать вкладку переводчика.