Whisper vs Parakeet en Apple Silicon — velocidad, precisión, RAM

Si eliges un motor local de reconocimiento de voz en Mac, la decisión suele ser entre dos: OpenAI Whisper y NVIDIA Parakeet. Ambos corren bien en Apple Silicon, ambos abiertos. Hacen trade-offs distintos y la elección depende de qué transcribes.

Comparación basada en benchmarks que he corrido en M2 y M3.

La versión corta

Parakeet es más rápido y usa menos RAM, pero solo inglés.
Whisper Large-v3 es más preciso en audio difícil y maneja 99+ idiomas.
Para dictado en inglés: gana Parakeet.
Para reuniones, archivos o contenido multilingüe: Whisper.

La brecha es menor de lo que la gente piensa. Ambos son suficientemente buenos para que la mayoría no note la diferencia en audio limpio.

Qué es cada uno

OpenAI Whisper es un transformer encoder-decoder entrenado con 680.000 horas de habla multilingüe. Open-weight desde 2022, con v2 y v3 después. Tamaños de Tiny (75 MB) a Large-v3 (3 GB).

NVIDIA Parakeet es un modelo RNN-T. NVIDIA lo lanzó por NeMo. Más pequeño, más rápido, inglés-solo por defecto (existen variantes multilingües, menos maduras).

La diferencia arquitectónica importa: Whisper procesa ventanas de 30 segundos con un transformer caro pero flexible. Parakeet streamea audio por un RNN que produce texto incrementalmente y barato.

Velocidad

Velocidad medida como real-time factor (RTF). 1x significa lo mismo que el audio. 10x, procesa 10 min en 1 min. Más es más rápido.

Benchmarks en M2 (GPU de 8 núcleos, 16 GB RAM), contra LibriSpeech test-clean:

Motor	Modelo	RTF (M2)	RTF (M3 Pro)
Whisper	Tiny	30x	45x
Whisper	Base	20x	32x
Whisper	Small	10x	18x
Whisper	Medium	5x	9x
Whisper	Large-v3	2x	4x
Parakeet	TDT-1.1B	150x	220x

Parakeet es ~20–50x más rápido que el Whisper equivalente. Para dictado, es la diferencia entre texto instantáneo y esperar medio segundo.

Precisión

Word error rate (WER) en benchmarks estándar de inglés. Menor es mejor. Los números varían entre test sets — lo siguiente es LibriSpeech test-clean, lectura limpia. En audio más difícil (ruidoso, acentuado, técnico) los números suben para ambos.

Motor	WER (LibriSpeech)	WER (CommonVoice)
Whisper Tiny	9.0%	14%
Whisper Base	7.0%	11%
Whisper Small	5.5%	8%
Whisper Medium	4.8%	7%
Whisper Large-v3	4.2%	5.5%
Parakeet TDT-1.1B	4.5%	6.5%

En inglés limpio, Parakeet iguala a Whisper Medium y se acerca a Whisper Large-v3. La diferencia es pequeña. En inglés ruidoso o acentuado, Whisper Large-v3 mantiene mejor su ventaja.

Para contenido multilingüe, Whisper es la única opción real. Las variantes multilingües de Parakeet existen pero no las he visto igualar a Whisper Large en idiomas fuera del inglés.

RAM

Los Mac Apple Silicon tienen memoria unificada, y el modelo carga en el mismo pool que todo lo demás. El uso de RAM importa si tienes 8 o 16 GB y quieres seguir usando la máquina mientras transcribes.

Motor	Modelo	RAM (cargada)
Whisper	Tiny	~400 MB
Whisper	Base	~500 MB
Whisper	Small	~1 GB
Whisper	Medium	~2.5 GB
Whisper	Large-v3	~5 GB
Parakeet	TDT-1.1B	~1.2 GB

Con 8 GB y queriendo VS Code, navegador y Slack abiertos, Whisper Large-v3 es duro. Parakeet a 1.2 GB o Whisper Small a 1 GB son las opciones prácticas en ese rango. Con 16 GB corres todo cómodo. Con 32 GB ni piensas en ello.

Latencia para dictado

Velocidad y RTF te dan throughput en archivos largos. Para dictado importa cuán rápido aparece la primera palabra tras parar de hablar.

Medido en M2, utterance de 5 segundos, micro a texto:

Motor	Latencia primer token	Resultado completo
Whisper Tiny	180 ms	250 ms
Whisper Small	350 ms	500 ms
Whisper Medium	700 ms	1100 ms
Whisper Large-v3	1400 ms	2200 ms
Parakeet TDT-1.1B	80 ms	150 ms

La salida en streaming de Parakeet lo hace sentir instantáneo. Whisper Tiny y Small son también lo bastante rápidos para sentirse responsivos. Medium o más grande introducen una espera notable — bien para archivos, menos para dictado.

Cuándo elegir cuál

Usa Parakeet si:

Dictas sobre todo en inglés
Quieres la mínima latencia posible
Estás en Mac con RAM limitada
Transcribes archivos largos y los quieres rápido

Usa Whisper Small o Medium si:

Necesitas soporte multilingüe (99+ idiomas)
Quieres precisión sin el hit de RAM de Large-v3
Estás en 16 GB y quieres una elección equilibrada

Usa Whisper Large-v3 si:

Transcribes reuniones o archivos importantes donde cada error cuesta
Tienes 32 GB+ y no te preocupa la RAM
Trabajas con audio ruidoso, acentos fuertes o vocabulario técnico
El trabajo va offline igual, así que el RTF no importa mucho

¿Y la precisión equivalente al cloud?

Los servicios cloud (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) suelen reportar 3.5–4.5% WER en benchmarks estándar. Esto es ~territorio Whisper Large-v3.

La brecha entre local y cloud es real pero pequeña — usualmente 0.5–1% WER en audio limpio, más en difícil. Para la mayoría (dictado, reuniones, notas), no se nota. El cloud gana en casos extremos: acentos pesados sin cobertura de modelo, vocabulario técnico raro, audio muy malo.

Apps y qué motores usan

Si no quieres pensar en motores, lo que las apps populares de Mac usan por defecto:

Vext — Parakeet por defecto, Whisper disponible como opción
MacWhisper — Whisper, modelo seleccionable
Superwhisper — Whisper, modelo seleccionable
VoiceInk — Whisper
FluidVoice — soporte de Parakeet
Apple Dictation — modelo fundacional propio de Apple (ni Whisper ni Parakeet)

Que la app sea "Parakeet por defecto" o "Whisper por defecto" suele reflejar si es dictado-first (Parakeet) o transcripción-de-archivos-first (Whisper).

El bottom line

Para la mayoría, en Mac actual, dictando en inglés: Parakeet. La latencia se siente diferente — el texto aparece según hablas, no después de terminar.

Para reuniones, archivos o multilingüe: Whisper Medium o Large-v3.

Puedes tener ambos. La mayoría de apps te dejan elegir por tarea.