Superwhisper y Vext son las dos apps de dictado local para Mac más mencionadas ahora mismo. Ambas ejecutan reconocimiento de voz enteramente en tu Mac, ambas son compra única en vez de suscripción, ambas apuntan a gente que quiere dictado pulido sin la nube.

Cada una apuesta por cosas distintas. Estas son esas apuestas y cómo decidir.

Aviso: nosotros hacemos Vext. Intentaremos ser honestos sobre las virtudes de Superwhisper de todas formas — fingir que no las tiene no le sirve a nadie que lea esto.

Resumen rápido

Superwhisper Vext
Precio $249 de por vida $49 de por vida (versión mayor actual)
Prueba gratis 100 dictados, 50 notas, 10 reuniones
Plataforma Mac (macOS 13+) Mac (macOS 14+), solo Apple Silicon
Motor de voz Whisper (varios tamaños) Parakeet por defecto, Whisper opcional
Procesamiento Local Local
Limpieza Prompts por modo Enhance (un solo pase de LLM)
Transcripción de reuniones No
Traducción en vivo No
Etiquetas de hablante No Sí (en reuniones)
Modos / contextos Sí (profundo) Tres modos fijos
Multiplataforma No No

En qué destaca cada una

Superwhisper es la mejor herramienta enfocada en dictado. El sistema de modos es lo que la diferencia. Defines distintos prompts para distintos contextos de escritura — emails, código, chat casual, escritura técnica — y cambias entre ellos con un hotkey. Cada modo tiene su propio prompt de LLM que moldea la limpieza. Si tu día implica mucho cambio de contexto ("escribe un mensaje de Slack", "redacta un email", "deja un comentario de código", "resume esto para un ejecutivo"), los modos de Superwhisper encajan mejor que nada.

El pulido de la experiencia de dictado en sí — la UI, el manejo del cursor, los casos límite poco comunes — es excelente. Se nota que son años de enfoque en una sola cosa.

Vext es la herramienta de flujo de trabajo más amplia. El dictado es uno de tres modos. Los otros dos son reuniones (grabar + transcribir + resumir, con etiquetas de hablante) y notas (notas de voz rápidas guardadas localmente). Más funciones que Superwhisper no tiene: traducción en vivo, captura de screenshots durante el dictado, YOLO Mode para herramientas de IA, dictado manos libres, ducking de audio del sistema.

Si quieres solo dictado, Superwhisper gana en enfoque. Si quieres dictado más reuniones más traducción en una sola app, Vext es lo que construimos para eso.

Donde se solapan

La experiencia de dictado base es genuinamente parecida:

  • Mantienes un hotkey, hablas, sueltas, el texto aparece en el cursor
  • Whisper o Parakeet local hace el reconocimiento de voz
  • Un LLM local limpia palabras de relleno y estructura
  • El audio nunca sale de tu Mac
  • Compra única, sin suscripción

Si lo único que haces es el flujo básico de dictado, ambas apps se sentirán familiares. La diferencia está en cómo cada una maneja los bordes.

Velocidad y precisión

Ambas apps usan los mismos modelos subyacentes (variantes de Whisper, Parakeet) así que la precisión de transcripción está limitada por el modelo, no por la app. Donde divergen:

Motor por defecto. Superwhisper usa por defecto una variante de Whisper (eliges durante la configuración). Vext usa Parakeet por defecto para dictado en inglés, que es más rápido (~150x en tiempo real en M2) y matchea la precisión de Whisper Small/Medium en inglés limpio. Para otros idiomas, Vext cambia a Whisper. Superwhisper se queda con Whisper para todo.

Latencia al primer token. Parakeet emite tokens mientras hablas; Whisper espera la ventana de 30 segundos. Para dictado corto, Parakeet se siente instantáneo (~80ms al primer token en M2). Whisper Small es ~350ms, Medium ~700ms, Large-v3 ~1.4s. Si la latencia importa y dictas mayormente en inglés, Vext gana por defecto. Ambas apps te permiten elegir el motor por tarea, así que esto es configurable en ambas.

Calidad de limpieza. Los prompts específicos por modo de Superwhisper producen salida mejor ajustada cuando cambias de contexto — un modo "mensaje casual de Slack" se lee distinto que un modo "email formal". Enhance de Vext es un prompt generalista con la opción de personalizar. Para un dictado generalista, ambas están bien. Para alguien a quien realmente le importa que el tono matchee el destino, el sistema de modos de Superwhisper es la respuesta correcta.

Transcripción de reuniones

Vext graba reuniones (micrófono + audio del sistema simultáneamente) y produce transcripciones con etiquetas de hablante, capturas de pantalla y resúmenes con IA. Funciona con Zoom, Meet, FaceTime — cualquier cosa que produzca audio en tu Mac.

Superwhisper no hace reuniones. Tendrías que combinarlo con una herramienta separada (Granola, MacWhisper para archivos a posteriori, etc.).

Si tomas reuniones regularmente y quieres una sola app para todo lo relacionado con voz, esta es la diferencia más grande entre los dos productos.

Traducción

Vext habla-en-cualquier-idioma, escribe-en-tu-idioma-destino: configuras un idioma destino en ajustes, dictas en el idioma origen, obtienes texto traducido en tu cursor. Útil si lees en un idioma que no es el nativo pero escribes en inglés (o viceversa), o para trabajo internacional.

Superwhisper tiene traducción a través del modo translate integrado de OpenAI Whisper (audio a inglés solamente), no un par de idiomas bidireccional completo.

Si la traducción es una necesidad real de flujo de trabajo, Vext está diseñado para eso. Si solo trabajas en un idioma, esto no importa.

Precio

Superwhisper cuesta $249 de por vida. Vext cuesta $49 para la versión mayor actual, con actualizaciones mayores al 50% de descuento para clientes existentes (así que probablemente $24.50 para la siguiente versión mayor).

Coste a cinco años:

  • Superwhisper: $249 una vez
  • Vext: ~$49 + ~$25 + ~$25 = aproximadamente $100 en cinco años (dependiendo de cuántas versiones mayores salgan)

De cualquier forma, ambas son dramáticamente más baratas que los $15/mes de Wispr Flow ($900 en cinco años).

La diferencia de $200 entre el precio de Superwhisper y el de Vext cubre la trayectoria más larga de Superwhisper y la profundidad del pulido en la experiencia de dictado. Si esa diferencia vale la pena depende de con qué frecuencia dictas y cuánto valor le das al sistema de modos.

Requisitos de hardware y sistema

Superwhisper: macOS 13+, Intel o Apple Silicon, pero Apple Silicon muy recomendado.

Vext: macOS 14+, solo Apple Silicon (M1–M4). Macs con Intel no soportados.

Si estás en Intel, Superwhisper es la única de las dos que funciona.

Flujos de trabajo que encajan con cada una

Superwhisper encaja si:

  • Dictas frecuentemente con distintos tonos según el destino
  • Quieres la herramienta de dictado más pulida y enfocada
  • Estás en Mac con Intel o macOS antiguo
  • Estás bien con combinarla con herramientas separadas para reuniones/traducción/notas

Vext encaja si:

  • Quieres dictado + reuniones + traducción en una sola app
  • Escribe mucho en herramientas de IA (YOLO Mode, captura de screenshots)
  • Estás en Apple Silicon con macOS 14+
  • El precio más bajo importa
  • Trabajas en varios idiomas

Donde ninguna de las dos es la opción correcta

Si quieres multiplataforma (Windows + Mac), ninguna sirve. Wispr Flow es la opción basada en la nube ahí.

Si quieres open-source, ninguna califica — ambas son closed-source. VoiceInk es la opción ahí.

Si quieres la transcripción de archivos más precisa con procesamiento por lotes de grabaciones, ninguna está diseñada para eso. MacWhisper Pro es la elección correcta.

Si solo dictas ocasionalmente y tus necesidades son básicas, Apple Dictation es gratis y suficientemente bueno — ninguna app de pago es necesaria.

El resumen honesto

Superwhisper está más pulida como app de dictado puro. El sistema de modos genuinely marca la diferencia si tu flujo de trabajo implica cambiar entre estilos de tono. El precio refleja ese enfoque.

Vext es más amplia — mismos principios local-first, cuatro veces más barata por versión mayor, pero con transcripción de reuniones, traducción, captura de screenshots, YOLO Mode y manos libres además de dictado. El trade-off por esa amplitud es menos profundidad en cada función individual.

Ambas tienen pruebas. La forma más rápida de decidir es usar cada una durante un día en tu trabajo real. La respuesta correcta es la primera que dejes de pelear con ella.