Im Jahr 2026 teilt sich die Spracheingabe auf dem Mac in drei Kategorien auf: Apples integriertes Diktat, Cloud-Dienste und lokale Apps, die Modelle auf der eigenen Hardware ausführen. Jede Kategorie macht unterschiedliche Kompromisse zwischen Datenschutz, Geschwindigkeit, Genauigkeit und Kosten. Dieser Leitfaden zeigt, was sich lohnt.

Apples integriertes Diktat

macOS Tahoe wird mit einem On-Device-Basismodell für das Diktat ausgeliefert. Es ist kostenlos, datenschutzfreundlich und erfordert keine Einrichtung außer dem Aktivieren in den Systemeinstellungen.

Stärken:

  • Kostenlos — im Lieferumfang von macOS enthalten
  • Vollständig auf dem Gerät — Audio verlässt den Mac nie
  • Funktioniert in jedem Textfeld
  • Annehmbare Genauigkeit für allgemeine Sprache
  • Automatische Zeichensetzung anhand des Sprachrhythmus

Schwächen:

  • Schwierigkeiten mit Fachvokabular — Bibliotheksnamen, CLI-Befehle und Jargon werden entstellt
  • Keine Nachbearbeitung — man bekommt genau das, was man gesagt hat, inklusive Füllwörter
  • Kein Transkriptionsverlauf
  • Keine Meetingtranskription oder Sprecheridentifikation
  • Keine Übersetzung
  • Nur kurze Diktate — nicht für lange Aufnahmen konzipiert

Am besten für: Gelegentliches Diktieren in Alltags-Apps. Kurze Nachrichten, Notizen und kurze Texteingaben, bei denen es nicht auf die Genauigkeit bei Fachbegriffen ankommt.

Cloud-Dienste

Dienste wie Otter.ai, Rev und die Whisper API senden Audio zur Verarbeitung an externe Server. Einige bieten Echtzeit-Transkription, andere arbeiten stapelweise.

Stärken:

  • Hohe Genauigkeit, besonders bei fachspezifischer Sprache
  • Meetingtranskription mit Sprecheridentifikation
  • Durchsuchbare Transkriptarchive
  • Funktionen für die Teamzusammenarbeit
  • Oft mit KI-Zusammenfassungen

Schwächen:

  • Audio wird an Drittanbieter-Server gesendet und dort gespeichert
  • Internetverbindung erforderlich
  • Abonnementpreise — typischerweise 10–30 $/Monat (120–360 $/Jahr)
  • Latenz durch Netzwerk-Round-Trips
  • Vendor-Lock-in für den Transkriptionsverlauf

Am besten für: Teams, die gemeinsame Transkriptionen, kollaborative Meeting-Notizen oder branchenspezifische Genauigkeit benötigen und Cloud-Verarbeitung akzeptieren.

Lokale Apps auf Apple Silicon

Apple Silicon Macs (M1 und neuer) haben Neural Engines, die leistungsfähig genug sind, um Spracherkennung und Sprachmodelle lokal auszuführen. Alles wird auf dem eigenen Gerät verarbeitet.

Stärken:

  • Vollständig privat — Audio bleibt auf dem Mac
  • Keine Internetabhängigkeit
  • Keine laufenden Abonnementkosten (meist Einmalkauf)
  • Schnell — keine Netzwerklatenz
  • Funktioniert offline (Flüge, eingeschränkte Netzwerke)

Schwächen:

  • Erfordert Apple Silicon Mac
  • Initialer Modell-Download (meist 600 MB–3 GB)
  • Genauigkeit hängt vom Modell und der Hardware ab
  • Kleineres Ökosystem als Cloud-Dienste

Am besten für: Entwickler, datenschutzbewusste Nutzer und alle, die schnelle, private Transkription ohne Abonnement wollen.

Funktionsvergleich

Funktion Apple Dictation Cloud-Dienste Lokale Apps
Datenschutz Auf dem Gerät Cloud-verarbeitet Auf dem Gerät
Internet erforderlich Nein Ja Nein
Genauigkeit (allgemein) Gut Sehr gut Sehr gut
Genauigkeit (technisch) Schlecht Gut Gut
Meetingtranskription Nein Ja Ja
Sprecheridentifikation Nein Ja Ja
KI-Bereinigung/Enhance Nein Teilweise Ja
Übersetzung Nein Teilweise Ja
Transkriptionsverlauf Nein Ja Ja
Preis Kostenlos 10–30 $/Monat 0–99 $ einmalig

Worauf es ankommt

Wenn man sich für den lokalen Ansatz entscheidet, sind folgende Aspekte entscheidend:

Transkriptionsengine. Das Spracheingabemodell bestimmt Genauigkeit und Geschwindigkeit. NVIDIA Parakeet und OpenAI Whisper sind die führenden offenen Modelle. Parakeet ist auf Apple Silicon tendenziell schneller. Apps bevorzugen, die CoreML- oder Metal-Beschleunigung statt reiner CPU-Inferenz nutzen.

Nachbearbeitung. Rohe Transkription erfasst Füllwörter, Fehlstarts und endlose Sätze. Gute lokale Apps beinhalten eine KI-gestützte Bereinigung, die die Sprache in lesbaren Text umwandelt, ohne die Bedeutung zu verändern.

Workflow-Integration. Das beste Tool passt zur eigenen Arbeitsweise. Für Entwickler bedeutet das Terminals, Editoren und KI-Coding-Tools. Auf systemweite Hotkeys, Einfügen-am-Cursor-Verhalten und Kompatibilität mit den eigenen Apps achten.

Meeting-Unterstützung. Wenn Meetingtranskription benötigt wird, auf Dual-Audio-Aufnahme (Mikrofon plus Systemton), Sprecherbezeichnungen und Transkriptexport prüfen. Nicht alle lokalen Apps unterstützen das — manche konzentrieren sich nur auf das Diktieren.

Exportformate. TXT und Markdown sind der Standard. Für zeitgesteuerte Untertitel bei Videos nach SRT- und VTT-Export suchen. Einige Apps unterstützen auch PDF und DOCX.

Vext

Vext ist eine lokale Spracheingabe-App, die für macOS mit Apple Silicon entwickelt wurde. Es verwendet Parakeet für die Transkription (150-fache Echtzeit) und lokale LLMs für Textbereinigung, Übersetzung und Meeting-Zusammenfassungen.

Wichtige Funktionen:

  • Drei Modi: Diktieren (Einfügen am Cursor), Meetings (Sprecherbezeichnungen + Zusammenfassungen), Notizen (in der App gespeichert)
  • Enhance — KI-Bereinigung von Füllwörtern und Satzstruktur
  • Live-Übersetzung in mehr als 99 Sprachen
  • YOLO Mode — Prompts automatisch an KI-Coding-Tools übermitteln
  • Screenshot-Aufnahme während Meetings
  • Export in TXT, Markdown, SRT, VTT

Preise: Kostenlose Testversion (100 Diktate, 50 Notizen, 10 Meetings). 49 $ einmalig zum Freischalten.

Anforderungen: macOS 14+, Apple Silicon.

brew install muvon/tap/vext

Das Fazit

Wenn Datenschutz wichtig ist und man Apple Silicon verwendet, sind lokale Apps mittlerweile bei der Genauigkeit mit Cloud-Diensten vergleichbar und deutlich schneller dank fehlender Netzwerklatenz. Der Kompromiss ist, dass man einen einigermaßen aktuellen Mac und ausreichend Speicherplatz für die Modelle benötigt.

Apple Dictation ist ein solider Ausgangspunkt für gelegentliche Nutzung. Cloud-Dienste gewinnen bei der Teamzusammenarbeit und Nischenfachvokabular. Lokale Apps wie Vext liegen dazwischen — privat, schnell und funktionsreich genug für den täglichen professionellen Einsatz.