Hay un cambio silencioso en la transcripción de voz. Hace cinco años, todo lo bueno corría en la nube. Apple Silicon cambió la matemática — del M1 en adelante con motores neurales lo suficientemente rápidos para ejecutar modelos reales de reconocimiento de voz on-device, y la brecha cloud vs local se ha reducido a casi nada para la mayoría de cargas.

Esta guía cubre qué significa realmente voz a texto offline en Mac, cómo funciona la tecnología subyacente, y qué herramientas vale la pena usar.

Por qué "offline" se volvió viable

El reconocimiento de voz solía ser problema de cloud porque los modelos eran demasiado grandes para correr en hardware de consumo en tiempo real. Whisper-Large pesa ~1.5 GB. Ejecutarlo a velocidad conversacional requiere mucho compute.

Lo que cambió:

  • El motor neural de Apple Silicon hace ~11–15 TOPS en M1 base, escalando a 38 TOPS en M3 Pro y más. Es suficiente headroom para Whisper-Medium o Parakeet más rápido que tiempo real.
  • Los modelos pequeños mejoraron. Parakeet (RNN-T de NVIDIA) alcanza precisión competitiva a una fracción del tamaño de Whisper y corre a ~150x tiempo real en M-series.
  • CoreML y Metal maduraron lo suficiente para que Whisper.cpp y similares usen el hardware bien en vez de fijar la CPU.

Resultado: ahora puedes dictar, transcribir una reunión o procesar un archivo de una hora localmente en una MacBook Air sin que los ventiladores ni se enciendan.

Qué te da "offline"

La privacidad es lo obvio — tu audio no va a ningún lado. Pero hay beneficios prácticos diarios:

Sin latencia. El cloud tiene round-trip. Aun en conexión rápida, son 50–200ms por petición. La inferencia local devuelve resultados tan rápido como el modelo los produce — en Apple Silicon, bajo 200ms total para un dictado corto.

Funciona offline. Vuelos, trenes, Wi-Fi de hotel, instalaciones seguras, Wi-Fi de conferencia que estrangula todo. Nada de eso importa si el modelo está en tu máquina.

Sin suscripción. Los servicios cloud cobran por minuto o por mes. Las apps locales suelen ser pago único o gratis.

Sin vendor lock-in. Tus transcripciones viven en tu filesystem. Si la empresa que hizo la app cierra, tus datos siguen ahí.

Predecible. Los servicios cloud cambian precios, deprecan APIs y limitan. Las locales solo siguen funcionando.

Cómo funciona el reconocimiento de voz on-device en Mac

Dos familias de modelos dominan en Apple Silicon:

OpenAI Whisper

Whisper es un transformer encoder-decoder entrenado con 680.000 horas de habla multilingüe. Open-weight, varios tamaños (Tiny, Base, Small, Medium, Large), 99+ idiomas.

Tamaños y trade-offs en M-series:

Modelo Tamaño RAM Velocidad (M2) WER (Inglés)
Tiny 75 MB ~400 MB ~30x tiempo real ~9%
Base 142 MB ~500 MB ~20x tiempo real ~7%
Small 466 MB ~1 GB ~10x tiempo real ~5.5%
Medium 1.5 GB ~2.5 GB ~5x tiempo real ~4.8%
Large-v3 3 GB ~5 GB ~2x tiempo real ~4.2%

Los modelos más grandes son más precisos pero usan más RAM y van más lento. Para la mayoría del dictado, Small o Medium son el punto dulce. Para reuniones o archivos donde quieras máxima precisión, Large-v3.

NVIDIA Parakeet

Parakeet es un modelo RNN-T (recurrent neural network transducer). Más rápido que Whisper con precisión similar, inglés-solo por defecto, ~150x tiempo real en M2.

Parakeet es la mejor opción para dictado en inglés porque la ventaja de latencia es enorme — apenas notas el modelo corriendo. La desventaja es soporte de idioma único. Si necesitas multilingüe, Whisper es la elección.

La mayoría de apps Mac modernas te dejan elegir motor por tarea.

Qué corre localmente más allá de transcripción

El reconocimiento de voz es solo la mitad. El pipeline completo de dictado suele ser:

  1. Captura de audio — entrada de micro o audio del sistema.
  2. Reconocimiento — Whisper o Parakeet produce texto crudo.
  3. Post-procesado — puntuación, mayúsculas, remoción de muletillas.
  4. Opcional: limpieza LLM — un modelo de lenguaje local reescribe el texto en escritura pulida.
  5. Opcional: traducción — salida en otro idioma que la entrada.

Los pasos 4 y 5 usan LLM locales pequeños (Gemma 3 4B, Qwen 3 4B, LLaMA 3.2 3B) corriendo a través de llama.cpp o MLX. Son ~2–4 GB cada uno y corren a velocidad conversacional en M-series. La salida se lee como escritura editada en vez de transcripción cruda.

La transcripción de reuniones añade dos componentes más:

  • Diarización de hablantes — averiguar quién dijo qué. Hecho con embeddings neurales de características de voz, todo local.
  • Sumarización — pasar el transcript a un LLM local con prompt "resume esta reunión" para extraer acciones y decisiones clave.

Nada de esto necesita ya la nube.

Herramientas que lo hacen bien

Gratis o bajo coste:

  • Apple Dictation — integrado en macOS, on-device para la variante on-device. Limitado a dictado corto.
  • MacWhisper — gratis para transcripción de archivos, €64 Pro para dictado en vivo.
  • VoiceInk — open-source, $25–49 una vez.
  • FluidVoice — gratis, open-source, soporta Parakeet.

Pago con más scope:

  • Vext — $49 una vez, dictado + reuniones + traducción, todo local.
  • Superwhisper — $249 lifetime, dictado con modos personalizados.
  • Voibe — $198 lifetime, dictado enfocado en privacidad.

El split entre estas es sobre todo de scope. El trade-off cloud vs local está resuelto — local es genuinamente competitivo en precisión y más rápido en latencia. Todo por debajo del top de servicios cloud (Otter Premium, Rev) es igualado o vencido por lo que corre en tu portátil.

Cuando el cloud sigue ganando

Siendo honesto: los servicios cloud siguen teniendo ventajas en casos específicos.

Colaboración en equipo. Otter, Fireflies, Granola — tienen librerías de transcripción compartidas, comentarios, co-watching en tiempo real. Si tu flujo implica varias personas trabajando con los mismos transcripts, el cloud está construido para eso.

Precisión específica de industria. Médico, legal y técnico tienen modelos cloud especializados entrenados con vocabulario que Whisper o Parakeet locales no igualarán sin fine-tuning.

Multiplataforma. Si cambias entre Mac, Windows y iPhone constantemente, un servicio cloud sincroniza por todos.

Para trabajo en solitario en Mac, nada de esto suele importar. Para equipos en industrias reguladas, puede que sí.

Configurar voz a texto local

Tres pasos:

  1. Elige una app. Para la mayoría, la respuesta es MacWhisper (trial gratis), Vext (trial gratis) o Superwhisper (trial gratis). Prueba una, ve si encaja.
  2. Descarga el modelo. Primer arranque baja 600 MB a 3 GB según el modelo. Después funciona.
  3. Configura un atajo. La mayoría por defecto trigger con fn o right-shift. Elige algo que puedas pulsar sin pensar.

Ese es todo el setup. Sin cuentas, sin API keys, sin niveles de uso.

El resultado práctico

Voz a texto offline en Mac dejó de ser un compromiso en 2023 y cruzó a "realmente mejor que cloud" para la mayoría de casos en 2024 tarde. Latencia más baja, privacidad real, precio único en vez de mensual.

Si has usado dictado cloud por costumbre, vale la pena probar una alternativa local. La brecha que recuerdas de hace años ya no está.