La voz encaja naturalmente con las herramientas de coding IA porque son conversacionales — describes lo que quieres, la IA responde, iteras. El cuello de botella no es la IA. Es la velocidad a la que le hablas.

Por qué la voz funciona mejor para prompts de IA

Cuando tecleas un prompt, comprimes. Una tarea que necesita 80 palabras de contexto acaba en 12 porque teclear es lento y te saltas lo "obvio". La IA adivina mal y gastas tres seguimientos corrigiéndola.

Al hablar, la compresión desaparece. Naturalmente incluyes antecedentes, restricciones y razonamiento. La IA lo entiende al primer intento.

Tecleado:

"Refactoriza el auth middleware"

Hablado:

"El auth middleware en middleware/auth.ts está haciendo demasiadas cosas — valida el JWT, comprueba permisos, carga el objeto de usuario y pone cabeceras de rate limit. Quiero separarlo en middlewares para componer por ruta. Mantén la validación de JWT como base y deja las otras opcionales."

Mismo desarrollador, misma intención. La versión hablada da a la IA suficiente para hacerlo bien sin preguntas.

Configurar Vext para coding

1. Instalar Vext

brew install muvon/tap/vext

Lanza la app y concede permiso de Accesibilidad. Permite que el sistema de atajos funcione globalmente.

2. Configurar el atajo

Por defecto es Shift — mantenlo medio segundo para iniciar el dictado. Funciona porque las pulsaciones cortas de Shift (mayúsculas) se ignoran.

Puedes cambiar atajo y umbral en Ajustes > Atajos.

3. Activar YOLO Mode

YOLO es lo que hace que funcione con herramientas IA. Al activarse, Vext pulsa Return automáticamente tras pegar la transcripción. Tu prompt va directo a la IA sin envío manual.

Es seguro con Claude Code y agentes terminal porque siempre puedes interrumpir. El tiempo ahorrado al no revisar cada prompt supera al ocasional reformulación.

4. Probar Enhance

Activa Enhance para limpiar muletillas y estructura antes de pegar. Las herramientas IA manejan habla desordenada bien, pero prompts limpios producen resultados marginalmente mejores y son más fáciles de releer en el historial.

Flujos que más se benefician de la voz

El dump de contexto inicial

El primer mensaje a una herramienta IA es el más importante. Marca toda la conversación. La voz brilla aquí porque naturalmente antepones contexto:

"Estoy en el flujo de checkout. Tenemos frontend React con backend Node. El estado del carrito se gestiona con Zustand. Ahora el paso de pago llama a Stripe directamente desde el frontend — inseguro — necesito moverlo a un endpoint del servidor. Crea un POST /api/checkout que reciba items del carrito, cree una sesión Stripe y devuelva la URL de sesión."

Eso son ~30 segundos hablados. Tecleado tardaría más de un minuto y la mayoría se saltaría la mitad del contexto.

Describir bugs

Los bugs son narrativos — qué pasó, qué debió pasar, qué probaste. Esto encaja con el habla:

"Cuando hago clic en guardar en la página de ajustes y la petición de red es lenta, aparece el spinner, pero si navego antes de que termine y vuelvo, se muestran los ajustes antiguos aunque el guardado funcionó en el backend. Creo que es porque leemos de una cache local obsoleta en vez de re-fetch tras navegar."

Comentarios de code review

Code review es donde muchos pasan de tipear comentarios escuetos a feedback más rico. La voz quita la fricción:

"Esta función está haciendo tres cosas — fetch del usuario, comprobación de permisos y formateo de respuesta. Yo separaría el check de permisos en su propio middleware para reusarlo en rutas admin. También en línea 42 el error handling traga el mensaje original — debug en prod es difícil."

Decisiones de arquitectura

Cuando necesitas pensar un enfoque, la voz es más rápida que teclear y más organizada que pensar en silencio:

"Estoy entre WebSockets y server-sent events para notificaciones en tiempo real. WebSockets dan bidi pero solo necesitamos server-to-client. SSE es más simple, atraviesa proxies y load balancers de forma fiable, y podemos usar EventSource simple en frontend. El trade-off es que si en el futuro el cliente necesita mandar mensajes, habría que añadir un endpoint aparte. ¿Qué opinas?"

Voz + screenshot, totalmente manos libres

Los prompts por voz funcionan solos, pero codificar a menudo necesita contexto visual — un mensaje de error, un bug de UI, un gráfico, un diagrama en la pantalla de un colega. Vext maneja esto con una función que ningún otro tool ofrece: capturar una screenshot durante el dictado manos libres y la imagen se pega en la herramienta IA junto a tu prompt transcrito.

El flujo:

  1. Inicia dictado manos libres
  2. Habla el prompt: "Mira este layout — la sidebar se solapa con el contenido en viewports estrechos. Arregla el flexbox para que colapse limpiamente."
  3. Arrastra para capturar el bug en pantalla
  4. Pulsa la tecla de dictado para parar

Tanto texto como screenshot caen en Claude Code (o Cursor o ChatGPT) en tu cursor. Con YOLO activo, el prompt se envía automáticamente. No tocas el teclado.

Casos donde gana a teclear:

  • Mostrar un error — captura el stack trace en vez de describirlo
  • Bugs de UI — muestra lo roto mientras explicas el comportamiento esperado
  • Revisar código de un colega — captura el diff mientras hablas de tu sugerencia
  • Analizar charts y diagramas — apunta Claude a un panel de Grafana o diagrama de arquitectura
  • Contexto entre apps — describe un mockup de Figma mientras implementas en tu editor

Combina las tres funciones que hacen a Vext útil para coding IA: hands-free, screenshot y YOLO. Juntas te dejan en flujo con la IA sin romper para teclear o pegar.

Consejos por herramienta

Claude Code (terminal)

Claude Code maneja lenguaje natural bien — sin necesidad de formatear prompts con cuidado. Para tareas multi-paso, usa voz para la descripción inicial, luego teclea seguimientos cortos ("sí", "prueba otra cosa", "revierte").

Cursor

Voz para el panel composer. Prompts largos con contexto completo funcionan mucho mejor que instrucciones cortas. Cursor usa el prompt para buscar contexto relevante en tu codebase — más detalle, mejor selección de archivos.

ChatGPT / Claude.ai

La voz brilla en interfaces conversacionales donde importa el flujo. Voz para mensajes sustanciales, teclear para respuestas rápidas.

Preocupaciones comunes

"¿Entenderá la IA mi habla desordenada?"

Sí. Los LLM manejan muletillas, reinicios y frases conversacionales sin problema. Un prompt hablado divagante de 100 palabras con contexto vence casi siempre a una instrucción escueta de 15.

"¿Y los snippets de código?"

Teclea esos. La voz es para lo natural — descripciones, contexto, requisitos. Cuando incluyas código, tecléalo o pégalo aparte.

"¿Es raro hablarle al ordenador?"

Unos 30 minutos. Después, teclear prompts empieza a sentirse como la forma lenta.

Empezar

Descarga Vext — prueba gratis, sin cuenta. Activa YOLO y prueba prompting por voz en tu próxima sesión.