Whisper vs Parakeet на Apple Silicon — скорость, точность, RAM

Если выбираете локальный движок распознавания на Mac, обычно стоит выбор: OpenAI Whisper и NVIDIA Parakeet. Оба нормально работают на Apple Silicon, оба открытые. Разные компромиссы; выбор зависит от того, что вы расшифровываете.

Сравнение основано на бенчмарках, которые я гонял на M2 и M3.

Короткая версия

Parakeet быстрее и ест меньше RAM, но только английский.
Whisper Large-v3 точнее на сложном аудио и поддерживает 99+ языков.
Английская диктовка: Parakeet.
Встречи, файлы или мультиязык: Whisper.

Разрыв меньше, чем кажется. Оба достаточно хороши, чтобы на чистом аудио большинство разницы не заметит.

Что это вообще

OpenAI Whisper — encoder-decoder трансформер, обученный на 680 000 часов многоязычной речи. Open-weight, с 2022, потом v2 и v3. Размеры от Tiny (75 MB) до Large-v3 (3 GB).

NVIDIA Parakeet — RNN-T модель. Релиз через NeMo. Меньше, быстрее, по умолчанию англоязычная (мультиязычные варианты есть, но менее зрелые).

Архитектурная разница важна: Whisper обрабатывает 30-секундные окна дорогим, но гибким трансформером. Parakeet стримит аудио через RNN, выдавая текст инкрементально и дёшево.

Скорость

Скорость в виде real-time factor (RTF). 1x — равно длительности аудио, 10x — десять минут за минуту. Больше — быстрее.

Бенчмарки на M2 (8-ядерный GPU, 16 GB RAM), на LibriSpeech test-clean:

Движок	Модель	RTF (M2)	RTF (M3 Pro)
Whisper	Tiny	30x	45x
Whisper	Base	20x	32x
Whisper	Small	10x	18x
Whisper	Medium	5x	9x
Whisper	Large-v3	2x	4x
Parakeet	TDT-1.1B	150x	220x

Parakeet примерно в 20–50 раз быстрее эквивалентного по точности Whisper. Для диктовки — разница между мгновенным текстом и ожиданием полсекунды.

Точность

WER на стандартных бенчмарках по английскому. Меньше — лучше. Цифры различаются между тестами; здесь — LibriSpeech test-clean, относительно чистая запись. На сложном (шум, акценты, техлексика) цифры выше для обоих.

Движок	WER (LibriSpeech)	WER (CommonVoice)
Whisper Tiny	9.0%	14%
Whisper Base	7.0%	11%
Whisper Small	5.5%	8%
Whisper Medium	4.8%	7%
Whisper Large-v3	4.2%	5.5%
Parakeet TDT-1.1B	4.5%	6.5%

На чистом английском Parakeet тянет Whisper Medium и подбирается к Large-v3. Разрыв маленький. На шумном/акцентированном английском Whisper Large-v3 держит преимущество чётче.

Для мультиязычного контента Whisper — единственный реалистичный вариант. Мультиязычные Parakeet есть, но я не видел, чтобы они догоняли Whisper Large на языках, отличных от английского.

RAM

Mac Apple Silicon с унифицированной памятью — модель грузится в общий пул. Расход RAM важен при 8 или 16 GB, если хотите параллельно работать.

Движок	Модель	RAM (загружено)
Whisper	Tiny	~400 MB
Whisper	Base	~500 MB
Whisper	Small	~1 GB
Whisper	Medium	~2.5 GB
Whisper	Large-v3	~5 GB
Parakeet	TDT-1.1B	~1.2 GB

На 8 GB с VS Code, браузером и Slack — Whisper Large-v3 тяжко. Реалистичные варианты: Parakeet (1.2 GB) или Whisper Small (1 GB). На 16 GB всё крутится комфортно. На 32+ GB вообще без вопросов.

Латентность для диктовки

Скорость и RTF — про пропускную способность на длинных файлах. Для диктовки важна другая метрика: как быстро появляется первое слово после остановки.

M2, фраза 5 секунд, от микрофона до текста:

Движок	Latency первого токена	Полный результат
Whisper Tiny	180 мс	250 мс
Whisper Small	350 мс	500 мс
Whisper Medium	700 мс	1100 мс
Whisper Large-v3	1400 мс	2200 мс
Parakeet TDT-1.1B	80 мс	150 мс

Стриминг Parakeet делает ощущение мгновенным. Whisper Tiny и Small тоже отзывчивы. Medium и крупнее — заметное ожидание. Нормально для файлов, хуже для диктовки.

Когда что выбирать

Parakeet, если:

Диктуете в основном на английском
Нужна минимальная латентность
Mac с ограниченной RAM
Расшифровываете длинные файлы и хотите быстро

Whisper Small/Medium, если:

Нужен мультиязык (99+ языков)
Нужна точность без расхода RAM Large-v3
16 GB и хочется баланса

Whisper Large-v3, если:

Расшифровываете встречи или важные файлы, где каждая ошибка дорога
32 GB+ и память не волнует
Шумное аудио, тяжёлые акценты или техсловарь
Работа всё равно офлайн, RTF неважен

А облачная точность?

Облачные сервисы (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) обычно сообщают 3.5–4.5% WER на стандартных бенчмарках — это территория Whisper Large-v3.

Разрыв между локалью и облаком реален, но мал — обычно 0.5–1% WER на чистом аудио, больше на сложном. Для большинства сценариев (диктовка, встречи, заметки) он незаметен. Облако выигрывает на крайних случаях: тяжёлые акценты, редкая техлексика, очень плохое аудио.

Какой движок использует какое приложение

Если не хочется думать про движки — что выставлено по умолчанию в популярных Mac-приложениях:

Vext — Parakeet по умолчанию, Whisper как опция
MacWhisper — Whisper, модель выбирается
Superwhisper — Whisper, модель выбирается
VoiceInk — Whisper
FluidVoice — поддержка Parakeet
Apple Dictation — собственная foundation-модель Apple (не Whisper и не Parakeet)

Расклад «Parakeet по умолчанию» против «Whisper по умолчанию» обычно отражает то, заточено приложение под диктовку (Parakeet) или под файлы (Whisper).

Итог

Для большинства, на современном Mac, при диктовке на английском: Parakeet. Латентность ощущается иначе — текст появляется по мере речи, а не после завершения.

Для встреч, файлов и мультиязычной работы: Whisper Medium или Large-v3.

Можно иметь оба. Большинство приложений позволяют выбирать движок под задачу.