Si eliges un motor local de reconocimiento de voz en Mac, la decisión suele ser entre dos: OpenAI Whisper y NVIDIA Parakeet. Ambos corren bien en Apple Silicon, ambos abiertos. Hacen trade-offs distintos y la elección depende de qué transcribes.
Comparación basada en benchmarks que he corrido en M2 y M3.
La versión corta
- Parakeet es más rápido y usa menos RAM, pero solo inglés.
- Whisper Large-v3 es más preciso en audio difícil y maneja 99+ idiomas.
- Para dictado en inglés: gana Parakeet.
- Para reuniones, archivos o contenido multilingüe: Whisper.
La brecha es menor de lo que la gente piensa. Ambos son suficientemente buenos para que la mayoría no note la diferencia en audio limpio.
Qué es cada uno
OpenAI Whisper es un transformer encoder-decoder entrenado con 680.000 horas de habla multilingüe. Open-weight desde 2022, con v2 y v3 después. Tamaños de Tiny (75 MB) a Large-v3 (3 GB).
NVIDIA Parakeet es un modelo RNN-T. NVIDIA lo lanzó por NeMo. Más pequeño, más rápido, inglés-solo por defecto (existen variantes multilingües, menos maduras).
La diferencia arquitectónica importa: Whisper procesa ventanas de 30 segundos con un transformer caro pero flexible. Parakeet streamea audio por un RNN que produce texto incrementalmente y barato.
Velocidad
Velocidad medida como real-time factor (RTF). 1x significa lo mismo que el audio. 10x, procesa 10 min en 1 min. Más es más rápido.
Benchmarks en M2 (GPU de 8 núcleos, 16 GB RAM), contra LibriSpeech test-clean:
| Motor | Modelo | RTF (M2) | RTF (M3 Pro) |
|---|---|---|---|
| Whisper | Tiny | 30x | 45x |
| Whisper | Base | 20x | 32x |
| Whisper | Small | 10x | 18x |
| Whisper | Medium | 5x | 9x |
| Whisper | Large-v3 | 2x | 4x |
| Parakeet | TDT-1.1B | 150x | 220x |
Parakeet es ~20–50x más rápido que el Whisper equivalente. Para dictado, es la diferencia entre texto instantáneo y esperar medio segundo.
Precisión
Word error rate (WER) en benchmarks estándar de inglés. Menor es mejor. Los números varían entre test sets — lo siguiente es LibriSpeech test-clean, lectura limpia. En audio más difícil (ruidoso, acentuado, técnico) los números suben para ambos.
| Motor | WER (LibriSpeech) | WER (CommonVoice) |
|---|---|---|
| Whisper Tiny | 9.0% | 14% |
| Whisper Base | 7.0% | 11% |
| Whisper Small | 5.5% | 8% |
| Whisper Medium | 4.8% | 7% |
| Whisper Large-v3 | 4.2% | 5.5% |
| Parakeet TDT-1.1B | 4.5% | 6.5% |
En inglés limpio, Parakeet iguala a Whisper Medium y se acerca a Whisper Large-v3. La diferencia es pequeña. En inglés ruidoso o acentuado, Whisper Large-v3 mantiene mejor su ventaja.
Para contenido multilingüe, Whisper es la única opción real. Las variantes multilingües de Parakeet existen pero no las he visto igualar a Whisper Large en idiomas fuera del inglés.
RAM
Los Mac Apple Silicon tienen memoria unificada, y el modelo carga en el mismo pool que todo lo demás. El uso de RAM importa si tienes 8 o 16 GB y quieres seguir usando la máquina mientras transcribes.
| Motor | Modelo | RAM (cargada) |
|---|---|---|
| Whisper | Tiny | ~400 MB |
| Whisper | Base | ~500 MB |
| Whisper | Small | ~1 GB |
| Whisper | Medium | ~2.5 GB |
| Whisper | Large-v3 | ~5 GB |
| Parakeet | TDT-1.1B | ~1.2 GB |
Con 8 GB y queriendo VS Code, navegador y Slack abiertos, Whisper Large-v3 es duro. Parakeet a 1.2 GB o Whisper Small a 1 GB son las opciones prácticas en ese rango. Con 16 GB corres todo cómodo. Con 32 GB ni piensas en ello.
Latencia para dictado
Velocidad y RTF te dan throughput en archivos largos. Para dictado importa cuán rápido aparece la primera palabra tras parar de hablar.
Medido en M2, utterance de 5 segundos, micro a texto:
| Motor | Latencia primer token | Resultado completo |
|---|---|---|
| Whisper Tiny | 180 ms | 250 ms |
| Whisper Small | 350 ms | 500 ms |
| Whisper Medium | 700 ms | 1100 ms |
| Whisper Large-v3 | 1400 ms | 2200 ms |
| Parakeet TDT-1.1B | 80 ms | 150 ms |
La salida en streaming de Parakeet lo hace sentir instantáneo. Whisper Tiny y Small son también lo bastante rápidos para sentirse responsivos. Medium o más grande introducen una espera notable — bien para archivos, menos para dictado.
Cuándo elegir cuál
Usa Parakeet si:
- Dictas sobre todo en inglés
- Quieres la mínima latencia posible
- Estás en Mac con RAM limitada
- Transcribes archivos largos y los quieres rápido
Usa Whisper Small o Medium si:
- Necesitas soporte multilingüe (99+ idiomas)
- Quieres precisión sin el hit de RAM de Large-v3
- Estás en 16 GB y quieres una elección equilibrada
Usa Whisper Large-v3 si:
- Transcribes reuniones o archivos importantes donde cada error cuesta
- Tienes 32 GB+ y no te preocupa la RAM
- Trabajas con audio ruidoso, acentos fuertes o vocabulario técnico
- El trabajo va offline igual, así que el RTF no importa mucho
¿Y la precisión equivalente al cloud?
Los servicios cloud (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) suelen reportar 3.5–4.5% WER en benchmarks estándar. Esto es ~territorio Whisper Large-v3.
La brecha entre local y cloud es real pero pequeña — usualmente 0.5–1% WER en audio limpio, más en difícil. Para la mayoría (dictado, reuniones, notas), no se nota. El cloud gana en casos extremos: acentos pesados sin cobertura de modelo, vocabulario técnico raro, audio muy malo.
Apps y qué motores usan
Si no quieres pensar en motores, lo que las apps populares de Mac usan por defecto:
- Vext — Parakeet por defecto, Whisper disponible como opción
- MacWhisper — Whisper, modelo seleccionable
- Superwhisper — Whisper, modelo seleccionable
- VoiceInk — Whisper
- FluidVoice — soporte de Parakeet
- Apple Dictation — modelo fundacional propio de Apple (ni Whisper ni Parakeet)
Que la app sea "Parakeet por defecto" o "Whisper por defecto" suele reflejar si es dictado-first (Parakeet) o transcripción-de-archivos-first (Whisper).
El bottom line
Para la mayoría, en Mac actual, dictando en inglés: Parakeet. La latencia se siente diferente — el texto aparece según hablas, no después de terminar.
Para reuniones, archivos o multilingüe: Whisper Medium o Large-v3.
Puedes tener ambos. La mayoría de apps te dejan elegir por tarea.