En 2026, la voz a texto en Mac se divide en tres categorías: Dictado integrado de Apple, servicios cloud y apps locales que ejecutan modelos en tu hardware. Cada una hace trade-offs distintos entre privacidad, velocidad, precisión y coste. Esta guía cubre lo que vale la pena usar.

Dictado integrado de Apple

macOS Tahoe trae un modelo fundacional on-device para dictado. Es gratis, privado y no requiere setup más allá de activarlo en Ajustes.

Fortalezas:

  • Gratis — incluido con macOS
  • Totalmente on-device — el audio no sale del Mac
  • Funciona en cualquier campo de texto
  • Precisión aceptable para habla general
  • Auto-puntuación por cadencia

Debilidades:

  • Lucha con vocabulario técnico — nombres de librerías, comandos CLI y jerga se distorsionan
  • Sin post-procesado — lo que dijiste es lo que recibes, muletillas incluidas
  • Sin historial de transcripción
  • Sin transcripción de reuniones ni identificación de hablantes
  • Sin traducción
  • Solo dictado corto — no diseñado para grabaciones largas

Mejor para: Dictado casual en apps diarias. Mensajes rápidos, notas y entradas cortas donde la precisión en términos especializados no importa.

Servicios cloud

Servicios como Otter.ai, Rev y Whisper API envían tu audio a servidores remotos para procesarlo. Algunos ofrecen transcripción en tiempo real, otros son por lotes.

Fortalezas:

  • Alta precisión, sobre todo en habla específica de dominio
  • Transcripción de reuniones con identificación de hablantes
  • Archivos de transcripción buscables
  • Funciones de colaboración de equipo
  • Suelen incluir resúmenes IA

Debilidades:

  • Tu audio se envía y almacena en servidores de terceros
  • Requiere conexión a internet
  • Precios por suscripción — típicamente $10–30/mes ($120–360/año)
  • Latencia por viajes de red
  • Vendor lock-in para historial de transcripción

Mejor para: Equipos que necesitan transcripción compartida, notas de reunión colaborativas o precisión específica de industria y aceptan procesado cloud.

Apps locales en Apple Silicon

Macs Apple Silicon (M1 en adelante) tienen motores neurales potentes para ejecutar reconocimiento de voz y modelos de lenguaje localmente. Todo se procesa en tu dispositivo.

Fortalezas:

  • Totalmente privadas — el audio se queda en el Mac
  • Sin dependencia de internet
  • Sin coste de suscripción continuo (suele ser pago único)
  • Rápidas — sin latencia de red
  • Funcionan offline (vuelos, redes restringidas)

Debilidades:

  • Requieren Mac Apple Silicon
  • Descarga inicial del modelo (suele ser 600 MB–3 GB)
  • Precisión depende del modelo y tu hardware
  • Ecosistema más pequeño que servicios cloud

Mejor para: Desarrolladores, usuarios sensibles a privacidad y cualquiera que quiera transcripción rápida y privada sin suscripción.

Comparación de funciones

Función Dictado Apple Servicios cloud Apps locales
Privacidad On-device Procesado cloud On-device
Internet requerido No No
Precisión (general) Buena Muy buena Muy buena
Precisión (técnica) Pobre Buena Buena
Transcripción de reuniones No
Identificación de hablantes No
Limpieza IA No Algunos
Traducción No Algunos
Historial de transcripción No
Precio Gratis $10–30/mes $0–99 una vez

Qué mirar

Si decides que local es lo correcto, esto importa:

Motor de transcripción. El modelo speech-to-text determina precisión y velocidad. NVIDIA Parakeet y OpenAI Whisper son los principales modelos abiertos. Parakeet suele ser más rápido en Apple Silicon. Busca apps que usen CoreML o aceleración Metal en vez de inferencia solo CPU.

Post-procesado. La transcripción cruda captura muletillas, falsos inicios y frases largas. Las buenas apps locales incluyen limpieza IA que pule tu habla en texto legible sin cambiar el significado.

Integración de flujo. La mejor herramienta encaja en cómo trabajas. Para devs, eso significa terminales, editores y herramientas IA. Busca atajos a nivel sistema, comportamiento pegar-en-cursor y compatibilidad con tus apps específicas.

Soporte de reuniones. Si necesitas transcripción de reuniones, busca captura de doble audio (micro más audio del sistema), etiquetas de hablantes y export. No todas las apps locales soportan esto — algunas solo dictado.

Formatos de exportación. TXT y Markdown son básicos. Si necesitas subtítulos cronometrados, busca SRT y VTT. Algunas apps soportan PDF y DOCX.

Vext

Vext es una app local de voz a texto para macOS con Apple Silicon. Usa Parakeet para transcripción (150x tiempo real) y LLM locales para limpieza, traducción y resúmenes.

Funciones clave:

  • Tres modos: dictado (pegar al cursor), reuniones (etiquetas + resúmenes), notas (en la app)
  • Enhance — limpieza IA de muletillas y estructura
  • Traducción en vivo entre 99+ idiomas
  • YOLO Mode — auto-envío de prompts a herramientas IA
  • Captura de pantallas durante reuniones
  • Export a TXT, Markdown, SRT, VTT

Precio: Prueba gratis (100 dictados, 50 notas, 10 reuniones). $49 una vez para desbloquear.

Requisitos: macOS 14+, Apple Silicon.

brew install muvon/tap/vext

Conclusión

Si la privacidad importa y tienes Apple Silicon, las apps locales son ahora competitivas con cloud en precisión y bastante más rápidas por la latencia cero. El trade-off es que necesitas un Mac razonablemente reciente y suficiente disco para los modelos.

El Dictado de Apple es un punto de partida sólido para uso casual. Los servicios cloud ganan para colaboración en equipo y vocabularios de industrias específicas. Las apps locales como Vext están en medio — privadas, rápidas y con funciones suficientes para uso profesional diario.