Apples eingebautes Diktat hat in macOS Tahoe ein stilles Upgrade erhalten. Das neue On-Device-Foundation-Modell ist schnell, bei alltäglicher Sprache genau und kostenlos im Betriebssystem enthalten. Für viele Menschen ist das die ganze Geschichte — sie brauchen nichts anderes.
Für andere reicht es innerhalb einer Woche nicht mehr aus. Hier ist die Grenze, und was man tut, wenn man sie überschreitet.
Was Apple Dictation gut macht
Hauptsächlich drei Dinge:
Es ist bereits auf dem Mac. Kein Download, kein Konto, keine Berechtigungstänze. Systemeinstellungen > Tastatur > Diktat, einschalten, Hotkey wählen, fertig.
Es ist On-Device. Audio verlässt den Rechner bei der On-Device-Variante nicht. Apples Datenschutzversprechen ist hier real — kein Cloud-Round-Trip und keine gespeicherte Aufnahme nach der Transkription.
Die Genauigkeit bei alltäglichem Englisch ist gut. Besser als die alte Engine. Besser als die meisten sich macOS-Diktat erinnern. Aus dem Sprachrhythmus abgeleitete Interpunktion funktioniert meistens. Gängige Tech-Begriffe („React", „TypeScript", „API") kommen korrekt heraus.
Für eine schnelle Slack-Nachricht, eine kurze Notiz oder eine einsätzige E-Mail-Antwort reicht Apple Dictation aus. Viele Nutzer müssen nie darüber hinausgehen.
Wo es an Grenzen stößt
Was passiert, wenn man es fordert:
Fachvokabular. Bibliotheksnamen, Funktionsnamen, CLI-Befehle, Dateipfade. „kubectl get pods" wird zu „cube control get pods". „useEffect" wird zu „you sufficed". „src/components/auth/AuthGuard" wird zu... irgendetwas. Wer mit benannten technischen Dingen arbeitet, verbringt mehr Zeit mit dem Korrigieren von Transkripten als mit dem Diktat selbst.
Füllwort-Bereinigung. Apple Dictation transkribiert genau das, was gesagt wurde, einschließlich „ähm", „äh", „also grundsätzlich", Versprecher und Schachtelsätze. Gesprochene Sprache ist unordentlicher als geschriebene. Ohne Bereinigungsdurchgang liest sich diktierter Text wie das Transkript eines laut Denkenden — weil es genau das ist.
Lange Passagen. Apple Dictation ist für kurze Eingaben konzipiert. Es gibt keine Transkript-Historie, keine Möglichkeit, mehr als ein paar Sätze sauber zu erfassen, keine Notizen zum Wiederkehren. Wer ein 300-Wörter-Dokument diktieren möchte, macht das in 30-Sekunden-Blöcken, die zusammengesetzt werden müssen.
Meetings. Apple Dictation ist kein Meeting-Tool. Es erfasst jeweils nur von einer Eingangsquelle, hat keine Sprecher-Labels und keine Zusammenfassung. Wer Meeting-Transkription möchte, ist hier falsch.
Übersetzung. Englisch rein, Englisch raus. Kein mehrsprachiger Ablauf.
Hotkey-Ergonomie. Der Doppelklick-Auslöser ist für gelegentliche Nutzung in Ordnung, für häufige Nutzung unhandlich. Es gibt keine Push-to-Talk- oder Halten-zum-Diktieren-Option, keine App-spezifischen Overrides.
Ein Test, der zeigt, zu welcher Gruppe man gehört
Einen Tag lang ausprobieren: Apple Dictation für alles verwenden, was länger als ein Satz ist. Slack, E-Mail, Notizen, Code-Kommentare, KI-Prompts.
Am Ende des Tages wird man entweder:
a) Feststellen, dass es überraschend gut funktioniert hat — weitermachen. b) Feststellen, dass man ständig mit technischen Begriffen kämpft, oder dass das Fehlen von Bereinigung Nachrichten holprig klingen lässt, oder dass man sich gewünscht hätte, längere Passagen diktieren zu können.
Wer bei (b) landet, gehört zur Gruppe, die mehr braucht als das, was Apple liefert.
Was Vext hinzufügt, und warum
Vext ist eine Mac-Diktat-App für einmalig 49 $, die wir entwickeln. Sie nutzt dasselbe On-Device-Prinzip wie Apple — nichts verlässt den Mac — behebt aber die spezifischen Einschränkungen von oben.
Hier sind die tatsächlichen Unterschiede:
Sprachengine. Vext verwendet standardmäßig NVIDIA Parakeet über CoreML. Auf M2 läuft sie mit etwa 150-facher Echtzeit und bewältigt Fachvokabular besser als Apples Foundation-Modell, besonders bei Code-nahen Begriffen. Man kann auch Whisper Small/Medium/Large für höhere Genauigkeit bei lautem Audio oder mehrsprachigen Inhalten wählen. Apple Dictation verwendet Apples Foundation-Modell ohne Wahlmöglichkeit.
Enhance (LLM-Bereinigung). Vext führt ein kleines lokales LLM (Standard: Gemma 3 4B, etwa 2,8 GB) über das Transkript aus, bevor es eingefügt wird. Füllwörter verschwinden. Satzstruktur wird gestrafft. Die Bedeutung bleibt erhalten. Das Rohtransskript wird dennoch gespeichert, wenn man es möchte. Apple Dictation hat nichts Vergleichbares.
Hotkey-Optionen. Halten-zum-Sprechen, freihändiges Umschalten, konfigurierbarer Schwellenwert. Apple Dictation bietet einen einzigen Auslösestil.
Meeting-Modus. Erfasst Mikrofon und Systemton gleichzeitig, fügt Sprecher-Labels über lokale Diarisierung hinzu, führt einen Zusammenfassungsdurchgang durch das LLM aus. Funktioniert mit Zoom, Meet, FaceTime — allem, was Audio auf dem Mac erzeugt.
Übersetzung. In einer von 99+ Sprachen sprechen, Text in der Zielsprache erhalten. Mit aktiviertem Enhance finden Bereinigung und Übersetzung in einem einzigen Durchgang statt.
YOLO Mode. Automatisches Absenden nach dem Einfügen. Speziell für KI-Coding-Tools entwickelt.
Screenshot-Erfassung während des Diktats. Einen Bildschirmbereich per Drag-Select auswählen, während man spricht — das Bild wird zusammen mit dem transkribierten Text eingefügt. Nützlich für das Prompten von KI-Tools zu etwas, das auf dem Bildschirm sichtbar ist.
Das ehrliche Argument für Apple Dictation
Wer so arbeitet, braucht nichts anderes:
- Kurze Nachrichten ein paarmal pro Stunde
- Allgemeines englisches Vokabular
- Ein Gerät, ein Workflow
- Der Doppelklick-Auslöser stört nicht
- Keine Meetings
Das On-Device-Foundation-Modell ist jetzt wirklich gut. Apple hat eine echte Verbesserung geliefert, und für die gelegentliche Nutzung reicht es.
Das ehrliche Argument für den Wechsel
Wer so arbeitet, wird echte Zeit sparen:
- Mehrere Diktate pro Stunde, auch längere Passagen
- Regelmäßiges Fachvokabular (Code, Bibliotheksnamen, CLI-Befehle)
- Bereinigung gewünscht, damit diktierter Text wie geschriebener Text klingt
- Meetings werden gehalten und Transkripte davon gewünscht
- Arbeit in mehr als einer Sprache
- Viele Prompts an KI-Tools
Für dieses Profil rechnet sich eine bezahlte lokale Diktat-App innerhalb weniger Wochen. Die Reibung, die Apple Dictation pro Anwendungsfall erzeugt, ist gering — aber sie summiert sich.
Gleichzeitige Nutzung ist problemlos
Dies ist keine Empfehlung zur vollständigen Umstellung. Viele Menschen nutzen beides: Apple Dictation für schnelle Einzelnachrichten, bei denen der Doppelklick-Auslöser praktisch ist, und Vext (oder Superwhisper oder welche lokale App auch immer) für die längere Arbeit, bei der Bereinigung und Genauigkeit zählen.
Die kostenlose Version von Vext gibt 100 Diktate, 50 Notizen und 10 Meetings, bevor 49 $ fällig werden. Das reicht, um zu sehen, auf welcher Seite der Grenze die eigene Nutzung liegt.
Was macOS wahrscheinlich als nächstes liefern wird
Apple bewegt sich in eine bestimmte Richtung. Das On-Device-Foundation-Modell in Tahoe ist ein bedeutendes Upgrade. Zukünftige Versionen werden wahrscheinlich bessere Bereinigung, längeren Kontext und möglicherweise einen Meeting-Modus in Notizen mitbringen. Der Abstand zwischen eingebautem und bezahltem lokalen App wird sich verringern.
Aber es wird langsam gehen. Apple wird kein Feature-für-Feature-Äquivalent zu Vext oder Superwhisper liefern — sie werden die häufigsten 80 % hinzufügen und den langen Schwanz Drittanbietern überlassen. Wer zum langen Schwanz gehört (Entwickler, mehrsprachige Nutzer, Meeting-intensive Workflows), für den bleiben die Drittanbieter-Apps auf absehbare Zeit relevant.
Für alle anderen: Apple Dictation ist gut. Wer es unter Tahoe noch nicht ausprobiert hat, sollte es tun. Vielleicht braucht man nichts anderes.