Vext 1.2.0 — Tu idioma. Tus interlocutores.

Las dos peticiones más frecuentes desde el lanzamiento de la 1.0: «¿Puedo usar Vext en español?» y «¿Por qué mi transcripción de reuniones sigue confundiendo a los interlocutores cuando la gente se interrumpe?»

La 1.2.0 responde a ambas.

Toda la interfaz ya está disponible en cinco idiomas. Y el motor de diarización de reuniones ha sufrido un cambio arquitectónico fundamental: una segunda pasada offline que reexamina tu grabación completa cuando termina y reasigna todas las etiquetas de interlocutor desde cero. Los resultados son notablemente mejores en conversaciones rápidas con superposiciones.

Esto es lo que cambió.

La interfaz es ahora multilingüe — y la web también

La dictación siempre ha funcionado en el idioma que hables: es Whisper haciendo lo suyo. Lo que no estaba localizado era la propia app: la barra lateral, los ajustes, el onboarding, los menús, las solicitudes de permiso. Todo lo que lees en lugar de decir.

La 1.2.0 lo corrige. La interfaz completa ya está disponible en inglés, español, ruso, hindi y tailandés. La app sigue la configuración regional de tu macOS automáticamente, o puedes fijar un idioma específico en Ajustes → General: cambia al instante, sin reiniciar.

La web se ha actualizado para igualarla. Si le has estado recomendando Vext a compañeros que no trabajan en inglés, ahora puedes enviarlos a un sitio que hable su idioma.

Vienen más idiomas. Esta era una versión de cimentación: la infraestructura de traducción ya está en marcha, y añadir un idioma nuevo es cuestión de traducir un archivo.

Una pestaña dedicada para los interlocutores

La gestión de interlocutores se ha trasladado de las transcripciones de reuniones a su propia sección en la barra lateral.

La pestaña Interlocutores muestra a todas las personas que Vext ha aprendido a reconocer por voz en todas tus reuniones. Puedes renombrar a cualquier interlocutor, elegir entre 8 colores de insignia o — la más útil — fusionar dos entradas en una. Si Vext trató a la misma persona como dos interlocutores distintos con el tiempo, puedes fusionarlos: gana el perfil de voz de mayor calidad, y cada reunión futura reconocerá correctamente la identidad fusionada.

Haz clic en cualquier interlocutor y el panel derecho filtra solo las reuniones en las que aparece. Haz clic en una fila de reunión para ir directamente allí. Para quienes graban muchas reuniones recurrentes — standups, llamadas con clientes, revisiones de equipo — esto hace viable gestionar quién es quién de verdad, en lugar de volver a etiquetar a los mismos rostros cada semana.

Diarización en dos pasadas: lo que realmente arregla las reuniones

La detección original de interlocutores funcionaba en una única pasada en streaming. Cada fragmento de audio se etiquetaba a medida que llegaba, un embedding por fragmento. Es rápido, pero tiene una debilidad estructural: el vaivén rápido y el habla superpuesta lo rompen. Un fragmento de 30 segundos con cuatro turnos de interlocutor recibía una sola etiqueta. Dos voces que suenan similares al principio de la llamada podían fusionarse antes de que el motor tuviera datos suficientes para distinguirlas.

La 1.2.0 añade una segunda pasada que se ejecuta cuando la reunión termina.

Una vez guardada la transcripción provisional, Vext vuelve a recorrer el audio completo por stream usando un pipeline más exhaustivo: pyannote Community-1 para segmentación, embeddings de WeSpeaker con enmascaramiento de fotogramas superpuestos y refinamiento bayesiano VBx. Reexamina cada fragmento y lo reasigna al mejor cluster global, luego escribe las etiquetas corregidas de vuelta en la transcripción. Si reconoce a un interlocutor conocido, actualiza su perfil de voz en la base de datos para que las reuniones futuras sean aún mejores.

No tienes que hacer nada. La transcripción corregida aparece sola. Los archivos de audio temporales se eliminan una vez terminado el refinamiento.

Esto importa sobre todo en las reuniones exactas donde la diarización solía fallar: revisiones de producto con iteración rápida, llamadas con clientes con tres personas de su parte, cualquier reunión donde dos personas tengan voces similares o se interrumpan habitualmente.

División de turnos dentro de un mismo fragmento

Hay una mejora relacionada en la propia pasada de grabación en vivo.

Antes, si un fragmento VAD contenía varios turnos de interlocutor, se transcribía como un solo bloque bajo una única etiqueta de interlocutor. La pasada offline acabaría corrigiendo la atribución, pero la transcripción salía con errores mientras aún estabas en la reunión.

La 1.2.0 detecta cambios de interlocutor dentro de un fragmento mientras graba. Cuando la línea temporal muestra dos interlocutores distintos en el mismo segmento de audio, Vext lo divide en el punto de cambio y transcribe cada turno por separado. Los parpadeos muy breves de menos de 300 ms se absorben en la secuencia adyacente: no quieres que la transcripción se fragmente por ruido de Sortformer — pero los turnos de interlocutor reales ahora aparecen correctamente en tiempo real, no solo después de que la pasada offline termine.

Mejoras de fiabilidad

Algunas cosas que estaban rotas en silencio y ya no lo están.

Los atajos de teclado vuelven tras el reposo. La captura global de teclado podía quedar obsoleta tras el reposo, el cambio rápido de usuario o ciertos tiempos de espera del sistema: seguía reportándose como activa pero descartaba eventos en silencio. Ahora se reinstala limpiamente al despertar y vigila los casos en los que macOS la desactiva automáticamente.

Cancelación de eco eliminada. Las versiones anteriores aplicaban VoiceProcessingIO de Apple a la entrada del micrófono. Esa API modifica el estado compartido del hardware y se filtran AGC y supresión de ruido en cualquier otra app que lea el mismo micrófono: videollamadas, software de grabación, cualquier otra cosa en ejecución. Las grabaciones de reuniones capturan el audio de los participantes a través de una captura de audio del sistema separada, así que el micrófono y el audio de la llamada ya están físicamente separados. La cancelación de eco nunca fue necesaria ahí, y eliminarla evita que Vext empeore inadvertidamente tu voz en otras apps mientras se graba una reunión.

Rediseño de Ajustes. La barra lateral de ajustes se ha sustituido por un selector segmentado: General, Atajos de teclado, Audio y STT, Idioma y LLM, Licencia, Acerca de. Más limpio y fácil de navegar en pantallas más pequeñas.

Actualización

brew upgrade muvon/tap/vext

O descarga Vext 1.2.0 directamente. Las reuniones existentes y los perfiles de interlocutor se conservan: la pasada offline de diarización se ejecutará automáticamente la próxima vez que abras una reunión grabada antes de esta actualización.

Si grabas reuniones con más de dos personas, abre algunas antiguas tras actualizar. Las transcripciones reatribuidas suelen suponer una mejora notable.

Descargar Vext 1.2.0