Los bots de reuniones están en todas partes ahora: Otter, Fireflies, Granola, Read y decenas más. Se unen a la llamada como un participante, lo graban todo y te entregan una transcripción. También aparecen como "Otter Bot is recording", lo cual resulta incómodo, a veces va en contra de la política de la empresa y, cada vez más, es algo que los asistentes rechazan activamente.
La alternativa es transcribir la llamada desde tu extremo: tu Mac graba el audio que ya está reproduciendo y el audio de tu micrófono, lo transcribe localmente y produce la transcripción sin ningún invitado en la reunión. Esta guía trata sobre cómo hacerlo específicamente para Zoom y Google Meet en Mac.
Por qué la gente se está alejando de los bots
Hay tres razones que aparecen una y otra vez:
Incomodidad. Un bot en una llamada de ventas, una entrevista de trabajo o una conversación interna delicada genera un ambiente distinto al de una herramienta de transcripción manejada por una persona. Algunos clientes lo rechazan de plano. Algunas empresas lo prohíben mediante su política.
Privacidad y residencia de datos. Los bots enrutan el audio a través de servidores de terceros. Si la llamada involucra datos de clientes, estrategia interna, conversaciones sobre propiedad intelectual o cualquier cosa regulada, tu equipo legal probablemente tenga opiniones al respecto. La transcripción local significa que el audio nunca sale del Mac que ya está en la llamada.
Fiabilidad. Algunos anfitriones de reuniones expulsan a los bots. No logran unirse cuando se refuerza la autenticación de la reunión. A veces se caen a mitad de la llamada. Un grabador local no tiene estos modos de fallo: si puedes oír el audio, el grabador puede capturarlo.
La desventaja de prescindir del bot: pierdes las funciones centralizadas que los bots suelen incluir (bibliotecas compartidas, búsqueda para todo el equipo, sincronización automática con el CRM). Para el trabajo individual y los equipos pequeños, esto rara vez importa. Para organizaciones más grandes con flujos de trabajo de Otter/Fireflies ya establecidos, el compromiso es real.
Cómo funciona realmente "transcribir sin un bot" en Mac
Hay tres fuentes de audio que podrías querer capturar:
- Tu micrófono — tu propia voz
- Audio del sistema — todo lo que sale de tus altavoces, incluidos los demás participantes de la llamada
- Ambos simultáneamente — lo que realmente quieres para transcribir reuniones
Capturar solo tu micrófono es fácil. Capturar el audio del sistema es la parte difícil, porque macOS deliberadamente no expone el audio del sistema a las apps por razones de privacidad.
La forma estándar de sortear esto es un dispositivo de audio virtual (Loopback, BlackHole, dispositivos agregados). La app de dictado/transcripción usa el dispositivo virtual como su entrada, y tú enrutas el audio del sistema hacia ese dispositivo virtual. Esto funciona, pero es engorroso.
Algunas apps de dictado para Mac gestionan esto automáticamente: integran la captura de audio del sistema y la presentan como un único botón de "grabar esta reunión". Esa es la experiencia que la mayoría de la gente realmente quiere.
Notas específicas sobre Zoom
Zoom tiene su propia grabación integrada que produce un archivo de vídeo y una transcripción (en Zoom Cloud Recording). Esto funciona bien y es gratis para los planes de pago de Zoom. El inconveniente:
- La transcripción se genera del lado del servidor después de la llamada, no en tiempo real ni localmente
- Solo está disponible para el anfitrión o el grabador asignado
- La calidad de la transcripción es aceptable, no excelente
- El almacenamiento está en la nube de Zoom, a menos que pagues más por la grabación local
Si eres el anfitrión en un plan de pago y no te importa que la transcripción viva en los servidores de Zoom, esta es la opción con menos fricción. Si alguna de esas limitaciones te afecta, necesitas otra cosa.
Notas específicas sobre Google Meet
Google Meet tiene transcripción integrada (solo en los planes de pago de Workspace) y produce un Google Doc con la transcripción después de la llamada. Los mismos compromisos que con Zoom: del lado del servidor, posterior a la llamada, vive en la nube de Google y, por lo general, solo el anfitrión puede activarla.
Si no tienes un plan de pago de Workspace, no dispones de transcripción nativa en Meet en absoluto. O usas un bot o capturas desde tu extremo.
Opciones locales en Mac, tanto para Zoom como para Meet
Apps que capturan el micrófono + el audio del sistema en Mac y producen una transcripción:
Vext — 49 $ pago único. El modo reunión captura ambos flujos de audio simultáneamente, transcribe con Whisper, añade etiquetas de hablante mediante diarización local y genera un resumen con AI al final. Funciona con Zoom, Meet, FaceTime, Teams: cualquier cosa que produzca audio. El audio se queda en tu Mac. El resumen y la transcripción se almacenan en la app.
MacWhisper — la versión Pro (64 €) graba y transcribe. Menos integrada que Vext para reuniones (sin etiquetas de hablante integradas en algunas configuraciones), pero sólida para la transcripción basada en archivos si grabas con otra herramienta.
Audio Hijack + una pasada de transcripción — Audio Hijack (64 $) graba el audio del sistema de forma limpia. Pasa el archivo resultante a MacWhisper, al Whisper de OpenAI o a cualquier otra herramienta de transcripción. Más configuración, más flexibilidad.
Granola — un modelo distinto. Graba desde tu Mac, pero envía el audio a su nube para procesarlo. UX pulida, resúmenes rápidos, pero no es local. Vale la pena mencionarla porque la gente pregunta por ella; no entra en la categoría "sin nube" si ese es el requisito.
Notas de Voz integrada de Apple — graba solo el micrófono. No capturará a los demás participantes. Útil para grabar tu parte de la conversación, si eso es lo que quieres.
La división está entre "totalmente local" (Vext, MacWhisper, el flujo de trabajo con Audio Hijack) y "nube pulida" (Granola, Otter, Fireflies). Ambos tienen casos de uso válidos.
Configurar Vext para Zoom o Meet
El flujo para el que lo construimos:
- Instala Vext:
brew install muvon/tap/vext - Abre Vext y cambia al modo Reunión en la barra de menús
- Inicia tu llamada de Zoom o Meet como de costumbre
- En Vext, haz clic en Iniciar grabación: captura tu micrófono + el audio del sistema
- Desarrolla la reunión hablando
- Detén la grabación cuando termine la llamada
- Vext transcribe localmente (Whisper), produce las etiquetas de hablante y genera un resumen
Ningún bot se une a la llamada. Ningún participante salvo tú ve nada. La transcripción y el resumen se almacenan en Vext, en tu Mac.
Algunas notas prácticas:
- La primera vez que grabes, macOS te pedirá permiso para capturar el audio del sistema. Concédelo. (Esto usa la API de captura de audio de macOS, no un dispositivo de audio virtual: no se necesita Loopback ni BlackHole.)
- Las etiquetas de hablante funcionan mejor cuando los participantes toman turnos claros. El habla superpuesta es difícil para la diarización; obtendrás las palabras, pero las etiquetas pueden volverse imprecisas.
- El resumen usa un LLM local (Gemma 3 4B de forma predeterminada). La calidad es decente para reuniones típicas: tareas pendientes, decisiones clave, esquema de temas. No es tan pulido como GPT-4 haciendo el mismo trabajo, pero es privado y está libre de costes de API.
- Capturas de pantalla durante la reunión: puedes seleccionar arrastrando cualquier región de la pantalla mientras grabas, y la captura se adjunta a la transcripción en el momento exacto. Útil para diapositivas, código mostrado en la pantalla de un colega o revisiones de diseño.
Qué renuncias al prescindir del bot
Para ser honestos al respecto:
Transcripciones compartidas. Otter y Fireflies hacen que compartir una transcripción con el equipo sea trivial. Con una herramienta local, exportas a TXT/Markdown y lo pegas en Slack o lo subes a tu unidad compartida. La fricción es pequeña, pero real.
Sincronización automática con el CRM. Fireflies y Granola escriben los resúmenes de las transcripciones directamente en Salesforce, HubSpot, etc. Las herramientas locales no tienen estas integraciones. Puedes construirlas con Zapier y los archivos exportados, pero es todo un proyecto.
Búsqueda en equipo. El plan de equipo de Otter tiene una biblioteca compartida con búsqueda. Las herramientas locales almacenan las transcripciones en tu Mac, no en un índice para todo el equipo.
Subtítulos en tiempo real para accesibilidad. Los bots producen subtítulos en vivo durante la llamada. Las herramientas locales transcriben después. Si un participante necesita subtítulos en vivo por accesibilidad, usa los subtítulos en vivo integrados de Zoom o Meet, o combínalo con una herramienta de subtitulado independiente.
Para los flujos de trabajo individuales, ninguna de estas cosas suele importar. Para los flujos de trabajo en equipo, sopésalas.
Qué obtienes
Privacidad. Real, de extremo a extremo. El audio no sale de tu Mac.
Sin suscripción. 49 $ pago único frente a más de 20 $/mes de los servicios de bots.
Fiabilidad. Ningún bot al que expulsar, ningún límite de frecuencia de API, ninguna caída de servicio que afecte a tus transcripciones.
Señal de confianza. Algunos clientes y socios prefieren activamente que no haya habido ningún bot en la llamada. Especialmente cierto en el sector legal, sanitario, financiero y en negociaciones competitivas.
Archivos más limpios. Sin marcas de tiempo de "Otter Bot has joined the meeting". Solo la conversación.
Un árbol de decisión
- Zoom/Workspace de pago, anfitrión de la mayoría de las llamadas, te parece bien el procesamiento del lado del servidor: Usa la transcripción integrada. Ahórrate el dinero.
- Muchas llamadas, importa compartir con todo el equipo, te parece bien la nube: Otter, Fireflies, Granola: elige uno.
- Las llamadas involucran contenido sensible, prefieres que no haya bot, quieres una configuración sencilla: Vext o MacWhisper Pro.
- Usuario avanzado, quieres la máxima flexibilidad: Audio Hijack + Whisper.
- Solo necesitas tu parte de la llamada: Notas de Voz de Apple, gratis.
Cómo se ve esto en la práctica
Una semana típica de alguien que pasó de un bot a la transcripción local de reuniones:
- 6–10 llamadas a la semana, una mezcla de internas + externas
- Vext graba cada una; las transcripciones se generan automáticamente
- Echa un vistazo al resumen, copia las tareas pendientes en el gestor de tareas que sea
- Busca después una transcripción concreta por "qué decidimos sobre los precios"
- Tiempo total dedicado tras la llamada: 2 minutos por reunión
La versión con bot de esa semana era: invitar al bot, esperar que se uniera, recibir un correo con la transcripción, entrar en Otter, copiar las tareas pendientes. Más o menos el mismo tiempo total. Las diferencias están en quién vio al bot en la llamada, adónde fue a parar el audio y si la política de residencia de datos del equipo quedó satisfecha.
Para la mayoría de los usos individuales y de equipos pequeños, la opción local ahora es estrictamente mejor. Para organizaciones más grandes las cuentas se complican, y cualquiera de las dos opciones es defendible.