Большинство инструментов перевода работают с текстом: вставляешь на одном языке, копируешь на другом. Для письменного контента это нормально. Это плохо в тот момент, когда перевод действительно нужен — посреди мысли, когда пишешь на втором языке, а голова работает быстрее, чем пальцы успевают за ней на нём.
Голосовой перевод пропускает промежуточный шаг. Вы говорите на языке A, текст появляется у курсора на языке B. Без круга «скопировать-вставить», без отдельной вкладки. В тот момент, когда перевод действительно нужен — посреди фразы, посреди мысли — он уже готов.
Этот пост — о том, как этот конвейер работает на Mac, что реалистично по точности и где это окупается.
Как работает голосовой перевод на Mac
У конвейера два этапа:
Этап 1 — Распознавание речи. Ваше произнесённое аудио транскрибируется в текст на исходном языке. OpenAI Whisper из коробки поддерживает более 99 языков и работает полностью на Apple Silicon.
Этап 2 — Перевод. Транскрибированный текст переводится на целевой язык. Здесь два подварианта:
- Встроенный режим перевода Whisper (аудио на любом языке → текст на английском). Бесплатно, быстро, но только на английский.
- Отдельный проход перевода через небольшую локальную LLM (Gemma, Qwen, LLaMA). Двунаправленно между любой парой языков.
Большинство приложений для Mac, которые делают «голосовой перевод», используют второй подход, потому что он работает в любом направлении, а не только на английский. Вы получаете полноценный двунаправленный перевод, и всё это работает локально на вашем Mac.
Что на самом деле значит «двунаправленный перевод»
Если вам нужно переводить только с испанского на английский (аудио на входе, текст на английском на выходе), достаточно одного режима перевода Whisper. Это единственная модель, быстрая, точная для основных языков.
Если вам нужна любая пара — с французского на японский, с немецкого на корейский, с испанского на французский — после транскрипции нужен проход перевода. Небольшая локальная LLM справляется с этим для любого из более чем 99 языков, которые распознаёт Whisper.
Сценарии для каждого направления:
- Любой язык → английский: Вы слушаете не-английское аудио со встречи (партнёрская команда в Берлине, клиент в Сан-Паулу) и хотите надиктовать заметки на английском. Режима перевода Whisper достаточно.
- Английский → любой язык: Вы говорите по-английски и пишете не-англоязычной аудитории. Диктуете на английском, получаете переведённый текст. Обычное дело для международных продаж, тикетов поддержки, общения с партнёрами.
- Не-английский → не-английский: Многоязычные пользователи, пишущие между парами языков. Реже, но встречается — мексиканка, говорящая по-испански, пишет письма на французском, японец пишет сообщения в Slack на корейском и т. д.
Чего ждать от точности
Самое трудное, в чём приходится честно признаться насчёт перевода: «точный» означает разное для разных задач.
Для неформальных сообщений, сводок и писем: локальный голосовой перевод действительно пригоден к использованию. Результат достаточно близок к носительскому, чтобы человек-читатель понимал его без усилий и редко замечал ошибки.
Для публикуемого контента, юридических документов или всего, где важна точная формулировка: это черновик, а не финал. Нужен носитель языка для проверки.
По парам языков:
- Английский ↔ испанский, французский, немецкий, итальянский, португальский: Отлично. Whisper + современная небольшая LLM даёт ~95 %+ пригодного результата.
- Английский ↔ японский, корейский, китайский: Хорошо для прозы. Идиомы и культурно нагруженные формулировки требуют проверки.
- Английский ↔ арабский, хинди, турецкий, русский, польский: Надёжно для большинства контента. Специализированная лексика (юридическая, медицинская) более подвержена ошибкам.
- Менее распространённые языки: По-разному. Whisper Large-v3 — лучший для транскрипции. Качество перевода зависит от того, насколько язык покрыт обучением LLM.
Эти цифры приблизительны — реальная точность зависит от размера модели, качества аудио и того, насколько технический у вас контент. Whisper Large-v3 + LLM на 4 млрд параметров — практическая золотая середина на Mac с 16 ГБ. Whisper Small + та же LLM быстрее, но теряет 1–2 пункта точности.
Облако против локального для перевода
Облачные сервисы (Google Translate, DeepL, перевод OpenAI, перевод Apple в macOS) все хорошо делают голосовой перевод. Компромиссы:
Облако выигрывает в:
- Лучшей точности на любой паре языков, включая редкие
- Переводе в реальном времени в режиме разговора (двусторонняя функция Google Translate)
- Отсутствии загрузки модели
Локальное выигрывает в:
- Приватности. Аудио не покидает ваш Mac.
- Отсутствии подписки. Облачные сервисы перевода обычно бесплатны до лимитов, дальше — платно.
- Отсутствии зависимости от сети. Работает в самолётах, в конференц-Wi-Fi, в защищённых помещениях.
- Отсутствии квот и ограничений по частоте.
- Одном рабочем процессе, который работает в любом приложении, вместо приложения-переводчика или вкладки браузера.
Конкретно для пользователей Mac разрыв между качеством локального и облачного перевода за последние два года значительно сократился. Локальный Whisper + локальная 4B-LLM выдаёт результат, достаточно близкий к DeepL, чтобы большинство пользователей не могли надёжно их различить на распространённых парах языков. Честный разрыв на специализированном контенте — скорее 5 %, чем прежние 30 %.
Приложения с живым голосовым переводом на Mac
Vext (49 $ единоразово) — задайте целевой язык в настройках, диктуйте на любом языке, получайте переведённый текст у курсора. Перевод идёт через локальную LLM после транскрипции Whisper. С включённым Enhance очистка и перевод происходят за один проход — вы говорите сбивчиво по-французски, появляется чистый английский.
Apple Перевод (встроенный) — голосовой перевод между основными парами языков, бесплатно, на устройстве. Работает в приложении «Перевод», но не вставляет по месту курсора в другие приложения. Для перевода из приложения в приложение приходится копировать и вставлять.
MacWhisper — поддерживает режим перевода Whisper (любой язык → английский). Не делает двунаправленный перевод или перевод с не-английским целевым языком за один проход. Хорош для файловой транскрипции с переводом.
Облачные подписки — Wispr Flow, Otter и т. д. — у всех есть функции перевода. По подписке, обработка в облаке.
DeepL desktop — текстовый перевод лучший в классе. На некоторых платформах есть голосовой ввод, но опыт на macOS склоняется к печатному вводу + голос как дополнение. Бесплатный уровень ограничен, Pro стоит 9 $/мес.
Настройка в Vext
Конкретная настройка для голосового перевода в Vext:
- Установить:
brew install muvon/tap/vext - Открыть «Настройки > Языки»
- Поставить Исходный язык на «Auto» (Whisper определит) или закрепить за конкретным языком для лучшей точности
- Поставить Целевой язык на тот, на котором хотите получать результат
- Включить Enhance — это позволяет очистке + переводу происходить за один проход LLM
- Опционально: скачать более крупную модель Whisper (Large-v3) для наивысшей точности на не-английском исходном аудио
Затем: щёлкните в любое текстовое поле, удерживайте горячую клавишу, говорите на исходном языке, отпустите. Переведённый текст появляется у курсора.
Рекомендация для тех, кто часто меняет пары языков: не пытайтесь определять исходный язык автоматически для каждой диктовки — закрепите его за тем, что используете прямо сейчас, и меняйте вручную при переключении. Автоопределение обычно угадывает верно, но иногда ошибается на первых словах, и вся диктовка транскрибируется не на том языке. 2 секунды на смену исходного языка в настройках экономят это трение.
Рабочие сценарии, где это меняет дело
Тикеты поддержки на неродном английском. Агенты поддержки, для которых английский не родной, часто пишут медленнее и больше правят на английском. Говорить на родном языке и получать английский текст снимает «налог на письмо».
Межкомандная коммуникация. Мексиканская инженерная команда пишет корейской продуктовой команде. Каждая сторона пишет на своём родном языке; другая сторона читает на своём. Перевод происходит локально на каждом конце.
Звонки по продажам с неносителями. Делайте заметки во время звонка на родном языке. Экспортируйте их на языке клиента для последующего общения.
Языковая практика. Говорите на изучаемом языке, смотрите, что получилось, сравнивайте с тем, что имели в виду. Голосовой перевод как помощник письма для изучающих язык — жёстче печати, потому что вы слышите себя.
Путешествия. Удалённая работа из страны, языка которой вы не знаете. Диктуйте заметки на родном языке; получайте их на местном, когда нужно общаться. Или наоборот.
Что это не заменяет
Голосовой перевод в приложении для диктовки — это не то же самое, что:
Синхронный перевод разговора. Если вы пытаетесь вести живой разговор с тем, кто говорит на другом языке, вам нужен режим разговора Google Translate или телефон со встроенной такой функцией. Приложение для диктовки — для работы в одиночку, а не для перевода диалога.
Перевод документов. Для перевода существующего документа эффективнее текстовый/файловый режим DeepL или Google Translate. Голос не помогает, если исходный текст у вас уже есть.
Субтитрирование. Для видеосубтитров на другом языке нужен отдельный рабочий процесс с режимом перевода Whisper + инструмент для субтитров. Возможно в Vext через экспорт файла в SRT, но это не основной сценарий.
Замечание о точности и доверии
Если вы используете переведённую диктовку для чего-то, что имеет последствия — письма клиенту, которое должно читаться профессионально, дополнения к договору, публичного поста — прочитайте перед отправкой. Локальный голосовой перевод достаточно хорош, чтобы доверять ему для черновиков; не настолько хорош, чтобы доверять без проверки.
Работающий шаблон:
- Диктуйте на родном языке
- Прочитайте переведённый результат
- Поправьте всё, что звучит не так
- Отправьте
Этот шаг правки редко нужен для неформального контента (Slack, внутренняя почта) и важен для внешнего или точного контента. Перевод проходит за вас 95 % пути; вы — те самые 5 %.
Для пользователей Mac, работающих на нескольких языках, прорыв не в том, что технология теперь идеальна. А в том, что она достаточно хороша, чтобы вы перестали открывать вкладку переводчика.