Если выбираете локальный движок распознавания на Mac, обычно стоит выбор: OpenAI Whisper и NVIDIA Parakeet. Оба нормально работают на Apple Silicon, оба открытые. Разные компромиссы; выбор зависит от того, что вы расшифровываете.

Сравнение основано на бенчмарках, которые я гонял на M2 и M3.

Короткая версия

  • Parakeet быстрее и ест меньше RAM, но только английский.
  • Whisper Large-v3 точнее на сложном аудио и поддерживает 99+ языков.
  • Английская диктовка: Parakeet.
  • Встречи, файлы или мультиязык: Whisper.

Разрыв меньше, чем кажется. Оба достаточно хороши, чтобы на чистом аудио большинство разницы не заметит.

Что это вообще

OpenAI Whisper — encoder-decoder трансформер, обученный на 680 000 часов многоязычной речи. Open-weight, с 2022, потом v2 и v3. Размеры от Tiny (75 MB) до Large-v3 (3 GB).

NVIDIA Parakeet — RNN-T модель. Релиз через NeMo. Меньше, быстрее, по умолчанию англоязычная (мультиязычные варианты есть, но менее зрелые).

Архитектурная разница важна: Whisper обрабатывает 30-секундные окна дорогим, но гибким трансформером. Parakeet стримит аудио через RNN, выдавая текст инкрементально и дёшево.

Скорость

Скорость в виде real-time factor (RTF). 1x — равно длительности аудио, 10x — десять минут за минуту. Больше — быстрее.

Бенчмарки на M2 (8-ядерный GPU, 16 GB RAM), на LibriSpeech test-clean:

Движок Модель RTF (M2) RTF (M3 Pro)
Whisper Tiny 30x 45x
Whisper Base 20x 32x
Whisper Small 10x 18x
Whisper Medium 5x 9x
Whisper Large-v3 2x 4x
Parakeet TDT-1.1B 150x 220x

Parakeet примерно в 20–50 раз быстрее эквивалентного по точности Whisper. Для диктовки — разница между мгновенным текстом и ожиданием полсекунды.

Точность

WER на стандартных бенчмарках по английскому. Меньше — лучше. Цифры различаются между тестами; здесь — LibriSpeech test-clean, относительно чистая запись. На сложном (шум, акценты, техлексика) цифры выше для обоих.

Движок WER (LibriSpeech) WER (CommonVoice)
Whisper Tiny 9.0% 14%
Whisper Base 7.0% 11%
Whisper Small 5.5% 8%
Whisper Medium 4.8% 7%
Whisper Large-v3 4.2% 5.5%
Parakeet TDT-1.1B 4.5% 6.5%

На чистом английском Parakeet тянет Whisper Medium и подбирается к Large-v3. Разрыв маленький. На шумном/акцентированном английском Whisper Large-v3 держит преимущество чётче.

Для мультиязычного контента Whisper — единственный реалистичный вариант. Мультиязычные Parakeet есть, но я не видел, чтобы они догоняли Whisper Large на языках, отличных от английского.

RAM

Mac Apple Silicon с унифицированной памятью — модель грузится в общий пул. Расход RAM важен при 8 или 16 GB, если хотите параллельно работать.

Движок Модель RAM (загружено)
Whisper Tiny ~400 MB
Whisper Base ~500 MB
Whisper Small ~1 GB
Whisper Medium ~2.5 GB
Whisper Large-v3 ~5 GB
Parakeet TDT-1.1B ~1.2 GB

На 8 GB с VS Code, браузером и Slack — Whisper Large-v3 тяжко. Реалистичные варианты: Parakeet (1.2 GB) или Whisper Small (1 GB). На 16 GB всё крутится комфортно. На 32+ GB вообще без вопросов.

Латентность для диктовки

Скорость и RTF — про пропускную способность на длинных файлах. Для диктовки важна другая метрика: как быстро появляется первое слово после остановки.

M2, фраза 5 секунд, от микрофона до текста:

Движок Latency первого токена Полный результат
Whisper Tiny 180 мс 250 мс
Whisper Small 350 мс 500 мс
Whisper Medium 700 мс 1100 мс
Whisper Large-v3 1400 мс 2200 мс
Parakeet TDT-1.1B 80 мс 150 мс

Стриминг Parakeet делает ощущение мгновенным. Whisper Tiny и Small тоже отзывчивы. Medium и крупнее — заметное ожидание. Нормально для файлов, хуже для диктовки.

Когда что выбирать

Parakeet, если:

  • Диктуете в основном на английском
  • Нужна минимальная латентность
  • Mac с ограниченной RAM
  • Расшифровываете длинные файлы и хотите быстро

Whisper Small/Medium, если:

  • Нужен мультиязык (99+ языков)
  • Нужна точность без расхода RAM Large-v3
  • 16 GB и хочется баланса

Whisper Large-v3, если:

  • Расшифровываете встречи или важные файлы, где каждая ошибка дорога
  • 32 GB+ и память не волнует
  • Шумное аудио, тяжёлые акценты или техсловарь
  • Работа всё равно офлайн, RTF неважен

А облачная точность?

Облачные сервисы (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) обычно сообщают 3.5–4.5% WER на стандартных бенчмарках — это территория Whisper Large-v3.

Разрыв между локалью и облаком реален, но мал — обычно 0.5–1% WER на чистом аудио, больше на сложном. Для большинства сценариев (диктовка, встречи, заметки) он незаметен. Облако выигрывает на крайних случаях: тяжёлые акценты, редкая техлексика, очень плохое аудио.

Какой движок использует какое приложение

Если не хочется думать про движки — что выставлено по умолчанию в популярных Mac-приложениях:

  • Vext — Parakeet по умолчанию, Whisper как опция
  • MacWhisper — Whisper, модель выбирается
  • Superwhisper — Whisper, модель выбирается
  • VoiceInk — Whisper
  • FluidVoice — поддержка Parakeet
  • Apple Dictation — собственная foundation-модель Apple (не Whisper и не Parakeet)

Расклад «Parakeet по умолчанию» против «Whisper по умолчанию» обычно отражает то, заточено приложение под диктовку (Parakeet) или под файлы (Whisper).

Итог

Для большинства, на современном Mac, при диктовке на английском: Parakeet. Латентность ощущается иначе — текст появляется по мере речи, а не после завершения.

Для встреч, файлов и мультиязычной работы: Whisper Medium или Large-v3.

Можно иметь оба. Большинство приложений позволяют выбирать движок под задачу.