Was WWDC 2026 Apple Intelligence für die Sprachdiktierung auf dem Mac bedeutet

Apple veranstaltete die WWDC 2026 am 8. und 9. Juni, und die Schlagzeile lautete KI: eine neu gebaute Siri, eine neue Generation von Foundation Models auf dem Gerät und — auf der Bühne laut ausgesprochen — „genaueres Diktat". Wenn du auf deinem Mac diktierst, ist genau dieser letzte Punkt die Zeile, auf die es sich zu achten lohnt.

Also hier die ehrliche Frage, die dieser Beitrag beantwortet: Hat Apple eine dedizierte Diktier-App gerade überflüssig gemacht? Kurzfassung — nein. Apple hat den Boden angehoben. Die eingebaute Basis ist besser geworden, was für alle gut ist, aber die Dinge, wegen denen Leute überhaupt erst nach einem dedizierten Tool suchen, kamen größtenteils nicht auf die Bühne. Hier steht, was sich geändert hat und was nicht.

Was Apple tatsächlich angekündigt hat

Ein paar Dinge sind real und bestätigt, getrennt vom Marketing-Glanz.

Siri AI. Apple stellte „eine vollständig neue Version von Siri vor, tief integriert in iPhone, iPad, Mac, Apple Watch und Apple Vision Pro". Sie ist dialogfähig, hat ihre eigene eigenständige App, die deinen Verlauf über iCloud synchronisiert, kann Fragen zu dem beantworten, was auf deinem Bildschirm zu sehen ist, Kontext aus deinen Nachrichten, E-Mails und Fotos ziehen und Aktionen quer über Apps ausführen. Sie kommt später im Jahr 2026 als Beta, zuerst auf Englisch. Es gibt echte Einschränkungen zum Start: In der EU kommt sie auf Mac und Vision Pro, aber, in Apples eigenen Worten, „zunächst nicht in der EU unter iOS, iPadOS und watchOS", und nach China kommt sie zum Start nicht, während Apple die regulatorischen Anforderungen abarbeitet.

Modelle der dritten Generation auf dem Gerät. Daher kommt die Diktatverbesserung. Apples Reihe auf dem Gerät ist jetzt AFM 3 Core, ein dichtes Modell mit 3 Milliarden Parametern, und AFM 3 Core Advanced, ein dünnbesetztes Modell mit 20 Milliarden Parametern, das pro Anfrage nur 1 bis 4 Milliarden Parameter aktiviert und nativ multimodal ist. Apple schreibt diesem Advanced-Modell ausdrücklich „ausdrucksstarke Stimmen und genaueres Diktat" zu und berichtet, dass menschliche Bewerter seine Gesamtqualität mit 44,7 % zu 17,6 % gegenüber dem vorherigen System bevorzugten. Das ist ein echter Schritt nach vorn, der auf der Neural Engine läuft.

Die Gemini-Fußnote. Diese wird oft falsch wiedergegeben, deshalb lohnt sich Präzision. Apple und Google kündigten einen mehrjährigen Deal an, demzufolge „die nächste Generation der Apple Foundation Models auf Googles Gemini-Modellen und Cloud-Technologie basieren wird". Aber Apple war ebenso klar, dass die Modelle, die auf deinem Gerät ausgeliefert werden, „keines der Modelle enthalten, die Google einsetzt" — Gemini wurde genutzt, um Apples Modelle zu trainieren und zu destillieren, nicht um auf deinem Mac zu laufen. Gut zu wissen, denn die Datenschutz-Story weiter unten hängt davon ab.

Für Entwickler gibt es mehr: Apple öffnete sein Foundation Models Framework hinter einem neuen Swift-LanguageModel-Protokoll, sodass Apps mit einer einzeiligen Änderung zwischen Apples Modell auf dem Gerät, Cloud-Gemini, Anthropics Claude oder Community-MLX-Modellen wechseln können, und lieferte Core AI aus, ein lokales Inferenz-Framework, das über CPU, GPU und Neural Engine läuft „ohne Server und ohne Kosten pro Token". Diese Richtung zählt mehr als jedes einzelne Feature, und wir kommen darauf zurück.

Die wirklich gute Nachricht

Gib Apple die Anerkennung, die es verdient. Dass die Diktatgenauigkeit auf dem Gerät besser wird, kostenlos, standardmäßig privat, ohne jede Einrichtung, ist ein echter Gewinn. Wenn du ab und zu eine Nachricht oder Notiz in ein Textfeld diktierst und dich nur gelegentlich ein falsch verstandenes Wort gestört hat, ist macOS gerade genau darin besser geworden, und du brauchst vielleicht nichts anderes. Das ist die ehrliche Basis.

Die Beruhigung, um die es in diesem Beitrag größtenteils geht, ist nicht „Apples Update ist schwach". Es ist besser als das vom letzten Jahr. Es ist die, dass „bessere Diktatgenauigkeit" und „ein klügerer Assistent" nicht dieselbe Aufgabe sind wie der Workflow, für den eine dedizierte App gebaut ist.

Wo es immer noch nicht hinreicht

Hier steht, was nicht auf der WWDC-2026-Bühne war, ehrlich eingeordnet als das, was Apple angekündigt hat und was nicht.

Ein Assistent ist kein Diktier-Tool. Siri AI ist der große Wurf, und es ist ein Assistent: Du fragst ihn Dinge, lässt ihn Aktionen ausführen, führst ein Hin und Her. Das ist eine andere Aufgabe als das Tippen per Stimme — deine exakten Worte in die exakte App und das exakte Feld zu bringen, in dem dein Cursor steht, ob das nun dein Editor ist, Slack, ein Code-Kommentar oder ein Support-Ticket. Apple hat den Assistenten deutlich besser gemacht. Apple hat keine systemweite Schicht fürs Tippen per Stimme gezeigt, die sauberen Text genau dort ablegt, wo du gerade arbeitest.

Meetings und Sprecher. Nichts auf der WWDC 2026 hat das Systemaudio eines Zoom- oder Google-Meet-Calls erfasst und das Transkript danach aufgeteilt, wer gerade spricht. Apple hat keine Sprechertrennung (Speaker Diarization) auf dem Gerät angekündigt. Wenn du Meetings transkribierst und „Alice sagte / Bob sagte"-Labels brauchst, ohne dass ein Bot dem Call beitritt, ist das weiterhin eine Aufgabe für ein dediziertes Tool. Über das Transkribieren von Meetings auf dem Mac ohne Cloud haben wir separat geschrieben.

Übersetzung während du diktierst. Besseres Diktat dreht sich darum, deine Sprache genau in Text zu bringen. Französisch zu sprechen und sauberes Englisch an deinem Cursor zu bekommen, in welcher App du auch gerade bist, ist eine separate Pipeline, die Apple nicht auf die Bühne gebracht hat. Mehr dazu, wie diese lokale Übersetzungs-Pipeline funktioniert, falls du sie brauchst.

Engine-Wahl und Dateien. Dedizierte lokale Apps lassen dich deine Sprach-Engine wählen — Whisper Large-v3 für Genauigkeit, Parakeet für Geschwindigkeit — und vorhandene Audiodateien transkribieren, nicht nur Live-Sprache. Apple gibt dir Apples Modell. Für die meisten Leute ist das in Ordnung. Für die Leute, denen es wichtig ist, ist es keine Wahl, die sie haben. Sieh dir unseren Vergleich Whisper vs. Parakeet an, warum die Engine zählt.

Die Datenschutz-Nuance, die ein zweites Lesen wert ist

Apples Modell auf dem Gerät ist wirklich privat — es läuft auf deinem Mac und das Audio verlässt ihn nicht. Da gibt es nichts zu diskutieren. Die Nuance sind die Stufen darüber. Schwerere Anfragen gehen an Private Cloud Compute, das Apple dieses Jahr auf NVIDIA-Blackwell-GPUs in der Google Cloud ausgeweitet hat, und die Modelle der nächsten Generation werden mit Gemini trainiert. Apple sagt, deine Daten würden weder gespeichert noch Apple oder irgendwem sonst zugänglich gemacht, und Google sehe sie nie. Das sind Apples und Googles eigene Aussagen über ihre eigenen Systeme, und vernünftige Leute dürfen entscheiden, wie viel das wert ist.

Wenn deine Messlatte „alles bleibt auf dieser Maschine, keine Cloud-Stufe, kein Vertrauen nötig" ist, überspringt ein vollständig lokales Tool weiterhin eine Linie, die Apples gestufte Architektur per Design nicht überspringt. Genau deshalb existiert Offline-Spracherkennung auf dem Gerät als eigene Kategorie, und die WWDC 2026 hat an dieser Rechnung nichts geändert.

Brauchst du also weiterhin eine dedizierte App?

Ehrliche Antwort, in beide Richtungen:

Wahrscheinlich nicht, wenn du gelegentlich in Textfelder diktierst und etwas Kostenloses und Eingebautes willst. Das verbesserte Diktat auf dem Gerät in macOS 27 ist ein echtes Upgrade und es ist gleich da. Nutze es.
Trotzdem ja, wenn du den ganzen Tag quer über jede App per Stimme tippst, Meetings mit Sprecher-Labels transkribierst, übersetzt während du sprichst, deine Engine wählen willst oder eine harte Garantie brauchst, dass nichts deinen Mac verlässt. Das sind die Aufgaben, die Apple nicht ausgeliefert hat.

Für diese zweite Gruppe ist Vext eine Option, die genau dafür gebaut ist: systemweites Diktat in jede App, Meeting-Transkription mit Sprecher-Labels, Live-Übersetzung und Sprachnotizen, alles auf lokalem Whisper oder Parakeet plus einem lokalen LLM zur Bereinigung, einmalig 49 $, kein Abo. Die ehrlichen Abwägungen: Es ist nicht kostenlos, es läuft nur auf Apple Silicon, und jetzt, da Apples Basis besser ist, brauchen Gelegenheitsnutzer es womöglich tatsächlich nicht.

Das größere Signal

Das Interessanteste an der WWDC 2026 war kein einzelnes Feature. Es war Apple, das Core AI ausliefert und Modelle auf dem Gerät für jede App öffnet — mit der Wette, dass der richtige Ort, um KI laufen zu lassen, das Silizium ist, das du ohnehin schon besitzt. Das ist exakt die These, auf der dedizierte lokale Sprach-Apps gebaut wurden. Apple hat diese Kategorie dieses Jahr nicht beendet. Apple hat sie bestätigt — und den Boden darunter angehoben.