Im Jahr 2026 teilt sich die Spracheingabe auf dem Mac in drei Kategorien auf: Apples integriertes Diktat, Cloud-Dienste und lokale Apps, die Modelle auf der eigenen Hardware ausführen. Jede Kategorie macht unterschiedliche Kompromisse zwischen Datenschutz, Geschwindigkeit, Genauigkeit und Kosten. Dieser Leitfaden zeigt, was sich lohnt.
Apples integriertes Diktat
macOS Tahoe wird mit einem On-Device-Basismodell für das Diktat ausgeliefert. Es ist kostenlos, datenschutzfreundlich und erfordert keine Einrichtung außer dem Aktivieren in den Systemeinstellungen.
Stärken:
- Kostenlos — im Lieferumfang von macOS enthalten
- Vollständig auf dem Gerät — Audio verlässt den Mac nie
- Funktioniert in jedem Textfeld
- Annehmbare Genauigkeit für allgemeine Sprache
- Automatische Zeichensetzung anhand des Sprachrhythmus
Schwächen:
- Schwierigkeiten mit Fachvokabular — Bibliotheksnamen, CLI-Befehle und Jargon werden entstellt
- Keine Nachbearbeitung — man bekommt genau das, was man gesagt hat, inklusive Füllwörter
- Kein Transkriptionsverlauf
- Keine Meetingtranskription oder Sprecheridentifikation
- Keine Übersetzung
- Nur kurze Diktate — nicht für lange Aufnahmen konzipiert
Am besten für: Gelegentliches Diktieren in Alltags-Apps. Kurze Nachrichten, Notizen und kurze Texteingaben, bei denen es nicht auf die Genauigkeit bei Fachbegriffen ankommt.
Cloud-Dienste
Dienste wie Otter.ai, Rev und die Whisper API senden Audio zur Verarbeitung an externe Server. Einige bieten Echtzeit-Transkription, andere arbeiten stapelweise.
Stärken:
- Hohe Genauigkeit, besonders bei fachspezifischer Sprache
- Meetingtranskription mit Sprecheridentifikation
- Durchsuchbare Transkriptarchive
- Funktionen für die Teamzusammenarbeit
- Oft mit KI-Zusammenfassungen
Schwächen:
- Audio wird an Drittanbieter-Server gesendet und dort gespeichert
- Internetverbindung erforderlich
- Abonnementpreise — typischerweise 10–30 $/Monat (120–360 $/Jahr)
- Latenz durch Netzwerk-Round-Trips
- Vendor-Lock-in für den Transkriptionsverlauf
Am besten für: Teams, die gemeinsame Transkriptionen, kollaborative Meeting-Notizen oder branchenspezifische Genauigkeit benötigen und Cloud-Verarbeitung akzeptieren.
Lokale Apps auf Apple Silicon
Apple Silicon Macs (M1 und neuer) haben Neural Engines, die leistungsfähig genug sind, um Spracherkennung und Sprachmodelle lokal auszuführen. Alles wird auf dem eigenen Gerät verarbeitet.
Stärken:
- Vollständig privat — Audio bleibt auf dem Mac
- Keine Internetabhängigkeit
- Keine laufenden Abonnementkosten (meist Einmalkauf)
- Schnell — keine Netzwerklatenz
- Funktioniert offline (Flüge, eingeschränkte Netzwerke)
Schwächen:
- Erfordert Apple Silicon Mac
- Initialer Modell-Download (meist 600 MB–3 GB)
- Genauigkeit hängt vom Modell und der Hardware ab
- Kleineres Ökosystem als Cloud-Dienste
Am besten für: Entwickler, datenschutzbewusste Nutzer und alle, die schnelle, private Transkription ohne Abonnement wollen.
Funktionsvergleich
| Funktion | Apple Dictation | Cloud-Dienste | Lokale Apps |
|---|---|---|---|
| Datenschutz | Auf dem Gerät | Cloud-verarbeitet | Auf dem Gerät |
| Internet erforderlich | Nein | Ja | Nein |
| Genauigkeit (allgemein) | Gut | Sehr gut | Sehr gut |
| Genauigkeit (technisch) | Schlecht | Gut | Gut |
| Meetingtranskription | Nein | Ja | Ja |
| Sprecheridentifikation | Nein | Ja | Ja |
| KI-Bereinigung/Enhance | Nein | Teilweise | Ja |
| Übersetzung | Nein | Teilweise | Ja |
| Transkriptionsverlauf | Nein | Ja | Ja |
| Preis | Kostenlos | 10–30 $/Monat | 0–99 $ einmalig |
Worauf es ankommt
Wenn man sich für den lokalen Ansatz entscheidet, sind folgende Aspekte entscheidend:
Transkriptionsengine. Das Spracheingabemodell bestimmt Genauigkeit und Geschwindigkeit. NVIDIA Parakeet und OpenAI Whisper sind die führenden offenen Modelle. Parakeet ist auf Apple Silicon tendenziell schneller. Apps bevorzugen, die CoreML- oder Metal-Beschleunigung statt reiner CPU-Inferenz nutzen.
Nachbearbeitung. Rohe Transkription erfasst Füllwörter, Fehlstarts und endlose Sätze. Gute lokale Apps beinhalten eine KI-gestützte Bereinigung, die die Sprache in lesbaren Text umwandelt, ohne die Bedeutung zu verändern.
Workflow-Integration. Das beste Tool passt zur eigenen Arbeitsweise. Für Entwickler bedeutet das Terminals, Editoren und KI-Coding-Tools. Auf systemweite Hotkeys, Einfügen-am-Cursor-Verhalten und Kompatibilität mit den eigenen Apps achten.
Meeting-Unterstützung. Wenn Meetingtranskription benötigt wird, auf Dual-Audio-Aufnahme (Mikrofon plus Systemton), Sprecherbezeichnungen und Transkriptexport prüfen. Nicht alle lokalen Apps unterstützen das — manche konzentrieren sich nur auf das Diktieren.
Exportformate. TXT und Markdown sind der Standard. Für zeitgesteuerte Untertitel bei Videos nach SRT- und VTT-Export suchen. Einige Apps unterstützen auch PDF und DOCX.
Vext
Vext ist eine lokale Spracheingabe-App, die für macOS mit Apple Silicon entwickelt wurde. Es verwendet Parakeet für die Transkription (150-fache Echtzeit) und lokale LLMs für Textbereinigung, Übersetzung und Meeting-Zusammenfassungen.
Wichtige Funktionen:
- Drei Modi: Diktieren (Einfügen am Cursor), Meetings (Sprecherbezeichnungen + Zusammenfassungen), Notizen (in der App gespeichert)
- Enhance — KI-Bereinigung von Füllwörtern und Satzstruktur
- Live-Übersetzung in mehr als 99 Sprachen
- YOLO Mode — Prompts automatisch an KI-Coding-Tools übermitteln
- Screenshot-Aufnahme während Meetings
- Export in TXT, Markdown, SRT, VTT
Preise: Kostenlose Testversion (100 Diktate, 50 Notizen, 10 Meetings). 49 $ einmalig zum Freischalten.
Anforderungen: macOS 14+, Apple Silicon.
brew install muvon/tap/vext
Das Fazit
Wenn Datenschutz wichtig ist und man Apple Silicon verwendet, sind lokale Apps mittlerweile bei der Genauigkeit mit Cloud-Diensten vergleichbar und deutlich schneller dank fehlender Netzwerklatenz. Der Kompromiss ist, dass man einen einigermaßen aktuellen Mac und ausreichend Speicherplatz für die Modelle benötigt.
Apple Dictation ist ein solider Ausgangspunkt für gelegentliche Nutzung. Cloud-Dienste gewinnen bei der Teamzusammenarbeit und Nischenfachvokabular. Lokale Apps wie Vext liegen dazwischen — privat, schnell und funktionsreich genug für den täglichen professionellen Einsatz.