Si usas mucho ChatGPT, teclear prompts cansa. La voz es más rápida para cualquier cosa mayor que unas frases — la mayoría habla a 130–150 ppm y teclea a 40–60. Los ahorros se acumulan si escribes a ChatGPT todo el día.

Hay tres formas de usar entrada de voz con ChatGPT en Mac, y no son equivalentes. Qué hace bien cada una.

Opción 1: El modo voz integrado de OpenAI

ChatGPT.com y la app de escritorio tienen modos voz integrados. Pulsas el icono del mic, hablas, transcribe y ejecuta el prompt.

Donde es bueno:

  • Cero setup. Ya está.
  • Integrado con ChatGPT — voz entra, voz sale si quieres.
  • Free tier usable, Plus consigue advanced voice.

Donde falla:

  • Limitado a ChatGPT. No ayuda con Claude, Gemini, Cursor, tu terminal o cualquier otro lugar.
  • El audio va a servidores OpenAI. Si pregunta es sensible, considéralo.
  • Voice estándar bien, advanced bueno pero rate-limited en Plus.
  • El flujo asume conversación. Si quieres dictar un prompt largo y estructurado para editar antes de enviar, el modo conversacional te pelea.

Mejor para: Usuarios casuales de ChatGPT que quieren voz para preguntas ocasionales y no les importa que solo funcione dentro de ChatGPT.

Opción 2: Dictado en navegador (Chrome / Web Speech API)

Chrome tiene voz integrada vía Web Speech API. Algunas extensiones lo añaden a cualquier campo. Google Docs tiene la suya.

Donde es bueno:

  • Funciona en cualquier campo de texto del navegador, incluyendo el prompt de ChatGPT.
  • Gratis.

Donde falla:

  • Precisión no es genial en términos técnicos.
  • El audio se envía a Google — mismo trade-off de privacidad que dictado cloud.
  • No funciona fuera del navegador. ¿Lo quieres en terminal o Cursor? Sin suerte.
  • Quirks específicos del navegador. La UX de permisos de micro en macOS es rough.

Mejor para: Gente que solo usa ChatGPT en navegador y sin vocabulario técnico en prompts.

Opción 3: Voz a texto a nivel sistema en Mac

Una app aparte que escucha por hotkey, transcribe tu habla y pega el resultado donde tengas el cursor — ChatGPT, Claude, Cursor, tu editor, Slack, donde sea. La mayoría corre el reconocimiento localmente en tu Mac.

Donde es bueno:

  • Funciona en cada app, no solo ChatGPT.
  • Procesado local — el audio no sale del Mac (depende de la app).
  • Mejor precisión en vocabulario técnico que dictado de navegador.
  • Un flujo para ChatGPT, Claude, Cursor, terminal, email, todo.
  • Limpieza IA común — muletillas y false starts se quitan antes de llegar al prompt.

Donde falla:

  • Coste único o suscripción, según app.
  • Requiere Apple Silicon para las opciones locales.
  • Descarga inicial del modelo (600 MB a 3 GB).

Mejor para: Gente que escribe a herramientas IA en varias apps y quiere un flujo consistente.

Configurar voz a nivel sistema para ChatGPT

El flujo con la mayoría de apps locales de Mac:

  1. Abre ChatGPT (o Claude, Cursor, donde quieras promptear).
  2. Clic en el input de prompt.
  3. Mantén la hotkey de dictado (suele ser fn o right-shift).
  4. Habla tu prompt.
  5. Suelta la hotkey.
  6. Texto limpio aparece en el cursor.
  7. Pulsa enter para enviar.

El paso de limpieza es lo que hace buenos los prompts por voz. Transcripción cruda te da "ok básicamente quiero que como uh me escribas una función Python que um tome una lista y devuelva la suma pero solo de números pares". El paso de cleanup lo convierte en "Escribe una función Python que tome una lista y devuelva la suma solo de los números pares".

Ese segundo prompt produce mejor output. Filler words y false starts confunden a los modelos — son ruido para el LLM igual que para un lector humano.

Apps que lo hacen en Mac

  • Vext — $49 una vez, totalmente local, incluye limpieza IA. YOLO mode auto-envía prompts a herramientas IA sin pulsar enter.
  • Superwhisper — $249 una vez, dictado con prompts específicos por modo.
  • Wispr Flow — $15/mes, multiplataforma, cloud.
  • MacWhisper Pro — €64 una vez, archivo-first pero también dictado en vivo.
  • VoiceInk — open-source, más barato.

Para ChatGPT específicamente, el diferenciador es si la app puede auto-enviar. YOLO Mode de Vext lo hace — habla, suelta y el resultado se teclea y enter se pulsa solo. Promptear genuinamente sin manos.

Sin auto-envío, ahorras tecleo pero igual pulsas enter.

Por qué los prompts por voz dan mejor output

Tres razones por las que quien cambia no vuelve:

Prompts más largos, menos esfuerzo. Al teclear, mantienes prompts cortos porque teclear es trabajo. Con voz, los prompts naturalmente se alargan — más contexto, más detalle, mejores instrucciones. Los LLM responden bien a prompts específicos y detallados.

Lenguaje más natural. Los prompts hablados suenan como si hablaras a alguien. Los tecleados suelen sonar a comandos. Los del primer tipo producen respuestas mejor afinadas, sobre todo en tareas con matices.

Captura ideas más rápido. Cuando las ideas vienen rápido, el tecleo se queda atrás. La voz sigue el ritmo. No pierdes el hilo mientras tus dedos te alcanzan.

La pega es que los prompts por voz pueden divagar. El paso de cleanup en buenas apps lo arregla — quita filler, ajusta estructura, mantiene tu significado. Sin cleanup, o editas manualmente (anulando el propósito) o envías prompts desordenados.

Combinar voz con screenshots

Para coding específicamente, la killer combo es voz + screenshot. Ves algo en tu IDE, captura, prompt por voz al respecto, todo a Claude o GPT.

Hands-free de Vext te deja arrastrar y seleccionar una zona de pantalla mientras mantienes la hotkey — el screenshot se pega junto al texto transcrito en la app activa. Para AI coding, este flujo realmente sigue al pensamiento.

Eligiendo una

Si solo usas ChatGPT y solo en navegador: el voz integrado de OpenAI basta.

Si usas varias herramientas IA (ChatGPT, Claude, Cursor, Copilot Chat, Gemini): una app local a nivel sistema se paga sola en una semana.

Si tienes Windows en la mezcla: el soporte multiplataforma de Wispr Flow puede justificar la suscripción.

Para la mayoría en Mac que usa IA diariamente, una app local de pago único como Vext o Superwhisper es la respuesta. Setup una vez, pago una vez, y el flujo funciona en todos sitios.

Una vez que te acostumbras a hablar tus prompts, teclearlos empieza a sentirse como la forma lenta.