Qué significa el Apple Intelligence de la WWDC 2026 para el dictado por voz en Mac

Apple celebró la WWDC 2026 el 8 y el 9 de junio, y el titular fue la IA: un Siri reconstruido, una nueva generación de Foundation Models en el dispositivo y —dicho en voz alta sobre el escenario— «dictado con mayor precisión». Si dictas en tu Mac, esa última parte es la frase que merece tu atención.

Así que aquí está la pregunta honesta que responde esta publicación: ¿acaba Apple de hacer inútil una app de dictado dedicada? Versión corta: no. Subió el suelo. La base integrada mejoró, lo cual es bueno para todos, pero las cosas que llevan a la gente a buscar una herramienta dedicada en primer lugar casi no aparecieron en el escenario. Esto es lo que cambió y lo que no.

Qué anunció Apple realmente

Hay varias cosas que son reales y están confirmadas, aparte del barniz del marketing.

Siri AI. Apple presentó «una versión completamente nueva de Siri profundamente integrada en iPhone, iPad, Mac, Apple Watch y Apple Vision Pro». Es conversacional, tiene su propia app independiente que sincroniza tu historial a través de iCloud, puede responder preguntas sobre lo que hay en tu pantalla, extraer contexto de tus mensajes, correos y fotos, y ejecutar acciones entre apps. Llega como beta más adelante en 2026, primero en inglés. Hay matices reales en el lanzamiento: en la UE llega a Mac y Vision Pro pero, en palabras de la propia Apple, «no inicialmente en la UE en iOS, iPadOS y watchOS», y no llega a China en el lanzamiento mientras Apple resuelve los requisitos regulatorios.

Modelos en el dispositivo de tercera generación. La mejora del dictado viene de aquí. La línea de Apple en el dispositivo es ahora AFM 3 Core, un modelo denso de 3000 millones de parámetros, y AFM 3 Core Advanced, un modelo disperso de 20 000 millones de parámetros que activa solo entre 1000 y 4000 millones de parámetros por petición y es multimodal de forma nativa. Apple atribuye a ese modelo Advanced en concreto «voces expresivas y dictado con mayor precisión», y reporta que los evaluadores humanos prefirieron su calidad general por un 44,7 % frente a un 17,6 % respecto al sistema anterior. Es un avance genuino, ejecutándose en el Neural Engine.

La nota al pie de Gemini. Esta se reporta mal a menudo, así que vale la pena ser preciso. Apple y Google anunciaron un acuerdo de varios años bajo el cual «la próxima generación de Apple Foundation Models se basará en los modelos Gemini y la tecnología en la nube de Google». Pero Apple fue igual de clara en que los modelos que llegan a tu dispositivo no contienen «ninguno de los modelos que despliega Google» —Gemini se usó para ayudar a entrenar y destilar los modelos de Apple, no para ejecutarse en tu Mac—. Conviene saberlo, porque la historia de privacidad de más abajo depende de ello.

Para los desarrolladores hay más: Apple abrió su framework de Foundation Models tras un nuevo protocolo LanguageModel de Swift para que las apps puedan alternar entre el modelo en el dispositivo de Apple, Gemini en la nube, Claude de Anthropic o modelos MLX de la comunidad con un cambio de una sola línea, y lanzó Core AI, un framework de inferencia local que se ejecuta en CPU, GPU y Neural Engine «sin servidor y sin coste por token». Esa dirección importa más que cualquier característica concreta, y volveremos a ello.

La buena noticia de verdad

Démosle a Apple el crédito que merece. Que la precisión del dictado en el dispositivo mejore, gratis, privado por defecto, sin configuración alguna, es una victoria real. Si dictas algún mensaje o nota suelta en un campo de texto y lo único que te molestaba era la palabra mal entendida de vez en cuando, macOS acaba de mejorar exactamente en eso, y puede que no necesites nada más. Esa es la base honesta.

La tranquilidad de la que trata buena parte de esta publicación no es «la actualización de Apple es floja». Es mejor que la del año pasado. Es que «mejor precisión de dictado» y «un asistente más inteligente» no son el mismo trabajo que el flujo para el que está construida una app dedicada.

Hasta dónde sigue sin llegar

Esto es lo que no estuvo en el escenario de la WWDC 2026, planteado con honestidad como lo que Apple anunció y lo que no.

Un asistente no es una herramienta de dictado. Siri AI es la gran apuesta, y es un asistente: le preguntas cosas, le pides que ejecute acciones, mantienes un ida y vuelta. Eso es un trabajo distinto al de escribir por voz —llevar tus palabras exactas a la app y el campo exactos donde está tu cursor, ya sea tu editor, Slack, un comentario de código o un ticket de soporte—. Apple mejoró mucho el asistente. No mostró una capa de escritura por voz a nivel de sistema que deje texto limpio dondequiera que estés trabajando.

Reuniones y hablantes. Nada en la WWDC 2026 capturó el audio del sistema de una llamada de Zoom o Google Meet y separó la transcripción según quién hablaba. Apple no anunció diarización de hablantes en el dispositivo. Si transcribes reuniones y necesitas etiquetas de «dijo Alice / dijo Bob» sin que un bot se una a la llamada, eso sigue siendo trabajo para una herramienta dedicada. Escribimos por separado sobre transcribir reuniones en Mac sin la nube.

Traducción mientras dictas. El dictado mejorado consiste en pasar tu habla a texto con precisión. Hablar en francés y obtener inglés limpio en tu cursor, en cualquier app que estés usando, es una canalización aparte que Apple no puso sobre el escenario. Más sobre cómo funciona esa canalización de traducción local si la necesitas.

Elección de motor y archivos. Las apps locales dedicadas te dejan elegir tu motor de voz —Whisper Large-v3 para precisión, Parakeet para velocidad— y transcribir archivos de audio existentes, no solo habla en vivo. Apple te da el modelo de Apple. Para la mayoría de la gente eso está bien. Para quienes les importa, no es una elección que tengan. Mira nuestra comparativa Whisper vs Parakeet para entender por qué importa el motor.

El matiz de privacidad que vale la pena leer dos veces

El modelo en el dispositivo de Apple es genuinamente privado —se ejecuta en tu Mac y el audio no sale—. Sin discusión ahí. El matiz son los niveles por encima. Las peticiones más pesadas van a Private Cloud Compute, que Apple este año extendió a las GPU NVIDIA Blackwell que se ejecutan en Google Cloud, y los modelos de próxima generación se entrenan con Gemini. Apple dice que tus datos no se almacenan ni quedan accesibles para Apple ni para nadie más, y que Google nunca los ve. Esas son afirmaciones de Apple y Google sobre sus propios sistemas, y cada cual razonable puede decidir cuánto valen.

Si tu listón es «todo se queda en esta máquina, sin nivel en la nube, sin necesidad de confiar», una herramienta totalmente local sigue cruzando una línea que la arquitectura por niveles de Apple, por diseño, no cruza. Esa es toda la razón por la que existe como categoría el texto por voz sin conexión, en el dispositivo, y la WWDC 2026 no cambió las cuentas al respecto.

Entonces, ¿sigues necesitando una app dedicada?

Respuesta honesta, en ambas direcciones:

Probablemente no, si dictas de vez en cuando en campos de texto y quieres algo gratis e integrado. El dictado en el dispositivo mejorado de macOS 27 es una mejora real y lo tienes ahí mismo. Úsalo.
Aún sí, si escribes por voz todo el día en cada app, transcribes reuniones con etiquetas de hablante, traduces mientras hablas, quieres elegir tu motor o necesitas una garantía firme de que nada sale de tu Mac. Esos son los trabajos que Apple no lanzó.

Para ese segundo grupo, Vext es una opción construida exactamente para eso: dictado a nivel de sistema en cualquier app, transcripción de reuniones con etiquetas de hablante, traducción en vivo y notas de voz, todo ejecutándose en Whisper o Parakeet local más un LLM local para la limpieza, 49 $ una vez, sin suscripción. Las concesiones honestas: no es gratis, es solo para Apple Silicon, y ahora que la base de Apple es mejor, los usuarios ocasionales puede que de verdad no la necesiten.

La señal más grande

Lo más interesante de la WWDC 2026 no fue ninguna característica concreta. Fue que Apple lanzara Core AI y abriera los modelos en el dispositivo a cada app, apostando a que el lugar correcto para ejecutar IA es el silicio que ya posees. Esa es exactamente la tesis sobre la que se construyeron las apps de voz locales dedicadas. Apple no acabó con esa categoría este año. La validó —y subió el suelo bajo ella—.