La mayoría de las herramientas de traducción trabajan con texto: pegas en un idioma, copias en otro. Está bien para contenido escrito. Es malo justo en el momento en que de verdad necesitas traducción — a mitad de una idea, escribiendo en un segundo idioma, con la mente corriendo más rápido de lo que tus dedos pueden seguir en él.
La traducción de voz se salta el paso intermedio. Hablas en el idioma A, el texto aparece en tu cursor en el idioma B. Sin el viaje de copiar y pegar, sin una pestaña aparte. El momento en que de verdad necesitas traducción — a mitad de frase, a mitad de idea — ya está hecho.
Esta publicación trata de cómo funciona esa canalización en Mac, qué es realista en cuanto a precisión y dónde compensa.
Cómo funciona la traducción de voz en Mac
La canalización tiene dos etapas:
Etapa 1 — Reconocimiento de voz. Tu audio hablado se transcribe a texto en el idioma de origen. OpenAI Whisper maneja más de 99 idiomas de fábrica y se ejecuta por completo en Apple Silicon.
Etapa 2 — Traducción. El texto transcrito se traduce al idioma de destino. Aquí hay dos subopciones:
- El modo de traducción integrado de Whisper (audio en cualquier idioma → texto en inglés). Gratis, rápido, pero solo va al inglés.
- Una pasada de traducción aparte mediante un pequeño LLM local (Gemma, Qwen, LLaMA). Bidireccional entre cualquier par de idiomas.
La mayoría de las apps de Mac que hacen «traducción de voz» usan el segundo enfoque porque funciona para cualquier dirección, no solo hacia el inglés. Obtienes traducción bidireccional completa, toda ejecutándose localmente en tu Mac.
Qué significa realmente «traducción bidireccional»
Si solo necesitas traducir de español a inglés (audio que entra, texto en inglés que sale), el modo de traducción de Whisper por sí solo basta. Es un único modelo, rápido, preciso para los idiomas principales.
Si necesitas cualquier par — francés a japonés, alemán a coreano, español a francés — necesitas una pasada de traducción después de la transcripción. Un pequeño LLM local puede encargarse de esto para cualquiera de los más de 99 idiomas que Whisper reconoce.
Casos de uso para cada dirección:
- Cualquier idioma → inglés: Escuchas audio de reuniones que no está en inglés (un equipo socio en Berlín, un cliente en São Paulo) y quieres dictar notas en inglés. El modo de traducción de Whisper basta.
- Inglés → cualquier idioma: Eres angloparlante y escribes a una audiencia que no habla inglés. Dicta en inglés, obtén texto traducido. Habitual en ventas internacionales, tickets de soporte, comunicaciones con socios.
- No inglés → no inglés: Usuarios multilingües que escriben entre pares de idiomas. Menos común pero real — una mexicana hispanohablante escribiendo correos en francés, un japonés escribiendo mensajes de Slack en coreano, etc.
Expectativas de precisión
Lo más difícil de admitir con honestidad sobre la traducción es que «preciso» significa cosas distintas para tareas distintas.
Para mensajería informal, resúmenes y correos: la traducción de voz local es realmente utilizable. El resultado es lo bastante cercano al nativo como para que un lector humano lo entienda sin esfuerzo y rara vez note errores.
Para contenido publicado, documentos legales o cualquier cosa donde la formulación exacta importe: es un borrador, no un final. Necesitas que un hablante nativo lo revise.
Por par de idiomas:
- Inglés ↔ español, francés, alemán, italiano, portugués: Excelente. Whisper + un LLM pequeño moderno te da ~95 %+ de resultado utilizable.
- Inglés ↔ japonés, coreano, chino: Bueno para prosa. Los modismos y las expresiones con carga cultural necesitan revisión.
- Inglés ↔ árabe, hindi, turco, ruso, polaco: Sólido para la mayoría del contenido. El vocabulario especializado (legal, médico) es más propenso a errores.
- Idiomas menos comunes: Variable. Whisper Large-v3 es el mejor para la transcripción. La calidad de la traducción depende de la cobertura de entrenamiento del LLM.
Estas cifras son aproximadas — la precisión real depende del tamaño del modelo, la calidad del audio y cuán técnico sea tu contenido. Whisper Large-v3 + un LLM de 4000 millones de parámetros es el punto óptimo práctico en un Mac de 16 GB. Whisper Small + el mismo LLM es más rápido pero pierde 1–2 puntos de precisión.
Nube vs. local para la traducción
Los servicios en la nube (Google Translate, DeepL, la traducción de OpenAI, la traducción de Apple en macOS) hacen bien la traducción de voz. Las concesiones:
La nube gana en:
- Mejor precisión en todos los pares de idiomas, incluidos los poco comunes
- Traducción en tiempo real en modo conversación (la función bidireccional de Google Translate)
- Sin descarga de modelos
Lo local gana en:
- Privacidad. El audio no sale de tu Mac.
- Sin suscripción. Los servicios de traducción en la nube suelen ser gratis hasta ciertos límites, luego de pago.
- Sin dependencia de red. Funciona en aviones, en el wifi de un congreso, en instalaciones seguras.
- Sin cuotas ni límites de uso.
- Un único flujo que funciona en cualquier app en lugar de una app de traducción o una pestaña del navegador.
Para los usuarios de Mac en concreto, la brecha entre la calidad de la traducción local y la de la nube se ha reducido mucho en los últimos dos años. Whisper local + un LLM local de 4B produce un resultado lo bastante cercano a DeepL como para que la mayoría de los usuarios no puedan distinguirlos con fiabilidad en los pares de idiomas comunes. La brecha honesta es más bien del 5 % en contenido especializado que del 30 % que solía ser.
Apps que hacen traducción de voz en vivo en Mac
Vext (49 $ una vez) — fija un idioma de destino en los ajustes, dicta en cualquier idioma, obtén texto traducido en tu cursor. La traducción pasa por un LLM local tras la transcripción de Whisper. Con Enhance activado, la limpieza y la traducción ocurren en una sola pasada — hablas un francés desordenado y aparece inglés limpio.
Apple Traducir (integrada) — traducción de voz entre los pares de idiomas principales, gratis, en el dispositivo. Funciona en la app Traducir pero no pega en el cursor dentro de otras apps. Para la traducción de app a app tienes que copiar y pegar.
MacWhisper — admite el modo de traducción de Whisper (cualquier idioma → inglés). No hace traducción bidireccional ni con destino distinto del inglés en una sola pasada. Bueno para transcripción de archivos con traducción.
Suscripciones en la nube — Wispr Flow, Otter, etc. todas tienen funciones de traducción. Basadas en suscripción, procesadas en la nube.
DeepL escritorio — traducción de texto de primer nivel. Tiene entrada de voz en algunas plataformas, pero la experiencia en macOS se inclina hacia la entrada escrita + voz como complemento. Nivel gratuito limitado, Pro cuesta 9 $/mes.
Cómo configurarlo en Vext
Configuración específica para la traducción de voz en Vext:
- Instalar:
brew install muvon/tap/vext - Abrir Ajustes > Idiomas
- Poner el Idioma de origen en «Auto» (Whisper lo detecta) o fijarlo a un idioma concreto para mayor precisión
- Poner el Idioma de destino en lo que quieras que sea el resultado
- Activar Enhance — esto permite que la limpieza + la traducción ocurran en una sola pasada del LLM
- Opcional: descargar un modelo Whisper más grande (Large-v3) para la máxima precisión en audio de origen que no sea inglés
Luego: haz clic en cualquier campo de texto, mantén pulsada la tecla, habla en el idioma de origen, suelta. El texto traducido aparece en el cursor.
Recomendación para usuarios que cambian de par de idiomas a menudo: no intentes detectar el idioma de origen automáticamente en cada dictado — fíjalo al que estés usando ahora mismo y cámbialo a mano cuando cambies. La detección automática suele acertar pero de vez en cuando se equivoca en las primeras palabras y todo el dictado se transcribe en el idioma equivocado. Los 2 segundos que cuesta cambiar el idioma de origen en los ajustes te ahorran la fricción.
Flujos donde esto cambia las cosas
Tickets de soporte en inglés no nativo. Los agentes de soporte cuyo idioma nativo no es el inglés a menudo escriben más despacio y editan más en inglés. Hablar en su idioma nativo y obtener texto en inglés elimina el impuesto de la escritura.
Comunicación entre equipos. Un equipo de ingeniería mexicano escribiendo a un equipo de producto coreano. Cada lado escribe en su idioma nativo; el otro lado lee en el suyo. La traducción ocurre localmente en cada extremo.
Llamadas de ventas con clientes no nativos. Toma notas durante la llamada en tu idioma nativo. Expórtalas en el idioma del cliente para el seguimiento.
Práctica de idiomas. Habla en el idioma que estás aprendiendo, mira lo que salió, compáralo con lo que querías decir. La traducción de voz como ayuda de escritura para quienes aprenden idiomas — más exigente que escribir porque te oyes a ti mismo.
Viajes. Trabajar en remoto desde un país cuyo idioma no hablas. Dicta notas en tu idioma nativo; obténlas en el idioma local cuando necesites comunicarte. O al revés.
Lo que no reemplaza
La traducción de voz en una app de dictado no es lo mismo que:
Interpretación de conversación en tiempo real. Si intentas mantener una conversación en vivo con alguien que habla otro idioma, quieres el modo conversación de Google Translate o un teléfono con eso integrado. Una app de dictado es para trabajo en solitario, no para interpretación.
Traducción de documentos. Para traducir un documento existente, el modo de texto/archivo de DeepL o Google Translate es más eficiente. La voz no ayuda si ya tienes el texto de origen.
Subtitulado. Para subtítulos de vídeo en otro idioma, quieres un flujo dedicado con el modo de traducción de Whisper + una herramienta de subtitulado. Posible con Vext mediante exportación de archivo a SRT, pero no es el caso de uso principal.
Una nota sobre precisión y confianza
Si usas dictado traducido para algo que tiene consecuencias — un correo de cliente que tiene que leerse profesional, un anexo de contrato, una publicación pública — léelo antes de enviarlo. La traducción de voz local es lo bastante buena como para confiar en ella para primeros borradores; no lo bastante como para confiar en ella sin revisión.
El patrón que funciona:
- Dicta en tu idioma nativo
- Lee el resultado traducido
- Edita lo que suene raro
- Envía
Ese paso de edición es raro para contenido informal (Slack, correo interno) e importante para contenido de cara al exterior o preciso. La traducción te lleva el 95 % del camino; tú eres el 5 %.
Para los usuarios de Mac que trabajan de forma multilingüe, el avance no es que la tecnología sea perfecta ahora. Es que es lo bastante buena como para que dejes de abrir una pestaña de traducción.