Если выбираете локальный движок распознавания на Mac, обычно стоит выбор: OpenAI Whisper и NVIDIA Parakeet. Оба нормально работают на Apple Silicon, оба открытые. Разные компромиссы; выбор зависит от того, что вы расшифровываете.
Сравнение основано на бенчмарках, которые я гонял на M2 и M3.
Короткая версия
- Parakeet быстрее и ест меньше RAM, но только английский.
- Whisper Large-v3 точнее на сложном аудио и поддерживает 99+ языков.
- Английская диктовка: Parakeet.
- Встречи, файлы или мультиязык: Whisper.
Разрыв меньше, чем кажется. Оба достаточно хороши, чтобы на чистом аудио большинство разницы не заметит.
Что это вообще
OpenAI Whisper — encoder-decoder трансформер, обученный на 680 000 часов многоязычной речи. Open-weight, с 2022, потом v2 и v3. Размеры от Tiny (75 MB) до Large-v3 (3 GB).
NVIDIA Parakeet — RNN-T модель. Релиз через NeMo. Меньше, быстрее, по умолчанию англоязычная (мультиязычные варианты есть, но менее зрелые).
Архитектурная разница важна: Whisper обрабатывает 30-секундные окна дорогим, но гибким трансформером. Parakeet стримит аудио через RNN, выдавая текст инкрементально и дёшево.
Скорость
Скорость в виде real-time factor (RTF). 1x — равно длительности аудио, 10x — десять минут за минуту. Больше — быстрее.
Бенчмарки на M2 (8-ядерный GPU, 16 GB RAM), на LibriSpeech test-clean:
| Движок | Модель | RTF (M2) | RTF (M3 Pro) |
|---|---|---|---|
| Whisper | Tiny | 30x | 45x |
| Whisper | Base | 20x | 32x |
| Whisper | Small | 10x | 18x |
| Whisper | Medium | 5x | 9x |
| Whisper | Large-v3 | 2x | 4x |
| Parakeet | TDT-1.1B | 150x | 220x |
Parakeet примерно в 20–50 раз быстрее эквивалентного по точности Whisper. Для диктовки — разница между мгновенным текстом и ожиданием полсекунды.
Точность
WER на стандартных бенчмарках по английскому. Меньше — лучше. Цифры различаются между тестами; здесь — LibriSpeech test-clean, относительно чистая запись. На сложном (шум, акценты, техлексика) цифры выше для обоих.
| Движок | WER (LibriSpeech) | WER (CommonVoice) |
|---|---|---|
| Whisper Tiny | 9.0% | 14% |
| Whisper Base | 7.0% | 11% |
| Whisper Small | 5.5% | 8% |
| Whisper Medium | 4.8% | 7% |
| Whisper Large-v3 | 4.2% | 5.5% |
| Parakeet TDT-1.1B | 4.5% | 6.5% |
На чистом английском Parakeet тянет Whisper Medium и подбирается к Large-v3. Разрыв маленький. На шумном/акцентированном английском Whisper Large-v3 держит преимущество чётче.
Для мультиязычного контента Whisper — единственный реалистичный вариант. Мультиязычные Parakeet есть, но я не видел, чтобы они догоняли Whisper Large на языках, отличных от английского.
RAM
Mac Apple Silicon с унифицированной памятью — модель грузится в общий пул. Расход RAM важен при 8 или 16 GB, если хотите параллельно работать.
| Движок | Модель | RAM (загружено) |
|---|---|---|
| Whisper | Tiny | ~400 MB |
| Whisper | Base | ~500 MB |
| Whisper | Small | ~1 GB |
| Whisper | Medium | ~2.5 GB |
| Whisper | Large-v3 | ~5 GB |
| Parakeet | TDT-1.1B | ~1.2 GB |
На 8 GB с VS Code, браузером и Slack — Whisper Large-v3 тяжко. Реалистичные варианты: Parakeet (1.2 GB) или Whisper Small (1 GB). На 16 GB всё крутится комфортно. На 32+ GB вообще без вопросов.
Латентность для диктовки
Скорость и RTF — про пропускную способность на длинных файлах. Для диктовки важна другая метрика: как быстро появляется первое слово после остановки.
M2, фраза 5 секунд, от микрофона до текста:
| Движок | Latency первого токена | Полный результат |
|---|---|---|
| Whisper Tiny | 180 мс | 250 мс |
| Whisper Small | 350 мс | 500 мс |
| Whisper Medium | 700 мс | 1100 мс |
| Whisper Large-v3 | 1400 мс | 2200 мс |
| Parakeet TDT-1.1B | 80 мс | 150 мс |
Стриминг Parakeet делает ощущение мгновенным. Whisper Tiny и Small тоже отзывчивы. Medium и крупнее — заметное ожидание. Нормально для файлов, хуже для диктовки.
Когда что выбирать
Parakeet, если:
- Диктуете в основном на английском
- Нужна минимальная латентность
- Mac с ограниченной RAM
- Расшифровываете длинные файлы и хотите быстро
Whisper Small/Medium, если:
- Нужен мультиязык (99+ языков)
- Нужна точность без расхода RAM Large-v3
- 16 GB и хочется баланса
Whisper Large-v3, если:
- Расшифровываете встречи или важные файлы, где каждая ошибка дорога
- 32 GB+ и память не волнует
- Шумное аудио, тяжёлые акценты или техсловарь
- Работа всё равно офлайн, RTF неважен
А облачная точность?
Облачные сервисы (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) обычно сообщают 3.5–4.5% WER на стандартных бенчмарках — это территория Whisper Large-v3.
Разрыв между локалью и облаком реален, но мал — обычно 0.5–1% WER на чистом аудио, больше на сложном. Для большинства сценариев (диктовка, встречи, заметки) он незаметен. Облако выигрывает на крайних случаях: тяжёлые акценты, редкая техлексика, очень плохое аудио.
Какой движок использует какое приложение
Если не хочется думать про движки — что выставлено по умолчанию в популярных Mac-приложениях:
- Vext — Parakeet по умолчанию, Whisper как опция
- MacWhisper — Whisper, модель выбирается
- Superwhisper — Whisper, модель выбирается
- VoiceInk — Whisper
- FluidVoice — поддержка Parakeet
- Apple Dictation — собственная foundation-модель Apple (не Whisper и не Parakeet)
Расклад «Parakeet по умолчанию» против «Whisper по умолчанию» обычно отражает то, заточено приложение под диктовку (Parakeet) или под файлы (Whisper).
Итог
Для большинства, на современном Mac, при диктовке на английском: Parakeet. Латентность ощущается иначе — текст появляется по мере речи, а не после завершения.
Для встреч, файлов и мультиязычной работы: Whisper Medium или Large-v3.
Можно иметь оба. Большинство приложений позволяют выбирать движок под задачу.