En 2026, la voz a texto en Mac se divide en tres categorías: Dictado integrado de Apple, servicios cloud y apps locales que ejecutan modelos en tu hardware. Cada una hace trade-offs distintos entre privacidad, velocidad, precisión y coste. Esta guía cubre lo que vale la pena usar.
Dictado integrado de Apple
macOS Tahoe trae un modelo fundacional on-device para dictado. Es gratis, privado y no requiere setup más allá de activarlo en Ajustes.
Fortalezas:
- Gratis — incluido con macOS
- Totalmente on-device — el audio no sale del Mac
- Funciona en cualquier campo de texto
- Precisión aceptable para habla general
- Auto-puntuación por cadencia
Debilidades:
- Lucha con vocabulario técnico — nombres de librerías, comandos CLI y jerga se distorsionan
- Sin post-procesado — lo que dijiste es lo que recibes, muletillas incluidas
- Sin historial de transcripción
- Sin transcripción de reuniones ni identificación de hablantes
- Sin traducción
- Solo dictado corto — no diseñado para grabaciones largas
Mejor para: Dictado casual en apps diarias. Mensajes rápidos, notas y entradas cortas donde la precisión en términos especializados no importa.
Servicios cloud
Servicios como Otter.ai, Rev y Whisper API envían tu audio a servidores remotos para procesarlo. Algunos ofrecen transcripción en tiempo real, otros son por lotes.
Fortalezas:
- Alta precisión, sobre todo en habla específica de dominio
- Transcripción de reuniones con identificación de hablantes
- Archivos de transcripción buscables
- Funciones de colaboración de equipo
- Suelen incluir resúmenes IA
Debilidades:
- Tu audio se envía y almacena en servidores de terceros
- Requiere conexión a internet
- Precios por suscripción — típicamente $10–30/mes ($120–360/año)
- Latencia por viajes de red
- Vendor lock-in para historial de transcripción
Mejor para: Equipos que necesitan transcripción compartida, notas de reunión colaborativas o precisión específica de industria y aceptan procesado cloud.
Apps locales en Apple Silicon
Macs Apple Silicon (M1 en adelante) tienen motores neurales potentes para ejecutar reconocimiento de voz y modelos de lenguaje localmente. Todo se procesa en tu dispositivo.
Fortalezas:
- Totalmente privadas — el audio se queda en el Mac
- Sin dependencia de internet
- Sin coste de suscripción continuo (suele ser pago único)
- Rápidas — sin latencia de red
- Funcionan offline (vuelos, redes restringidas)
Debilidades:
- Requieren Mac Apple Silicon
- Descarga inicial del modelo (suele ser 600 MB–3 GB)
- Precisión depende del modelo y tu hardware
- Ecosistema más pequeño que servicios cloud
Mejor para: Desarrolladores, usuarios sensibles a privacidad y cualquiera que quiera transcripción rápida y privada sin suscripción.
Comparación de funciones
| Función | Dictado Apple | Servicios cloud | Apps locales |
|---|---|---|---|
| Privacidad | On-device | Procesado cloud | On-device |
| Internet requerido | No | Sí | No |
| Precisión (general) | Buena | Muy buena | Muy buena |
| Precisión (técnica) | Pobre | Buena | Buena |
| Transcripción de reuniones | No | Sí | Sí |
| Identificación de hablantes | No | Sí | Sí |
| Limpieza IA | No | Algunos | Sí |
| Traducción | No | Algunos | Sí |
| Historial de transcripción | No | Sí | Sí |
| Precio | Gratis | $10–30/mes | $0–99 una vez |
Qué mirar
Si decides que local es lo correcto, esto importa:
Motor de transcripción. El modelo speech-to-text determina precisión y velocidad. NVIDIA Parakeet y OpenAI Whisper son los principales modelos abiertos. Parakeet suele ser más rápido en Apple Silicon. Busca apps que usen CoreML o aceleración Metal en vez de inferencia solo CPU.
Post-procesado. La transcripción cruda captura muletillas, falsos inicios y frases largas. Las buenas apps locales incluyen limpieza IA que pule tu habla en texto legible sin cambiar el significado.
Integración de flujo. La mejor herramienta encaja en cómo trabajas. Para devs, eso significa terminales, editores y herramientas IA. Busca atajos a nivel sistema, comportamiento pegar-en-cursor y compatibilidad con tus apps específicas.
Soporte de reuniones. Si necesitas transcripción de reuniones, busca captura de doble audio (micro más audio del sistema), etiquetas de hablantes y export. No todas las apps locales soportan esto — algunas solo dictado.
Formatos de exportación. TXT y Markdown son básicos. Si necesitas subtítulos cronometrados, busca SRT y VTT. Algunas apps soportan PDF y DOCX.
Vext
Vext es una app local de voz a texto para macOS con Apple Silicon. Usa Parakeet para transcripción (150x tiempo real) y LLM locales para limpieza, traducción y resúmenes.
Funciones clave:
- Tres modos: dictado (pegar al cursor), reuniones (etiquetas + resúmenes), notas (en la app)
- Enhance — limpieza IA de muletillas y estructura
- Traducción en vivo entre 99+ idiomas
- YOLO Mode — auto-envío de prompts a herramientas IA
- Captura de pantallas durante reuniones
- Export a TXT, Markdown, SRT, VTT
Precio: Prueba gratis (100 dictados, 50 notas, 10 reuniones). $49 una vez para desbloquear.
Requisitos: macOS 14+, Apple Silicon.
brew install muvon/tap/vext
Conclusión
Si la privacidad importa y tienes Apple Silicon, las apps locales son ahora competitivas con cloud en precisión y bastante más rápidas por la latencia cero. El trade-off es que necesitas un Mac razonablemente reciente y suficiente disco para los modelos.
El Dictado de Apple es un punto de partida sólido para uso casual. Los servicios cloud ganan para colaboración en equipo y vocabularios de industrias específicas. Las apps locales como Vext están en medio — privadas, rápidas y con funciones suficientes para uso profesional diario.