Offline-Sprache-zu-Text auf dem Mac — So funktioniert lokale Spracherkennung

Bei der Sprachtranskription vollzieht sich ein stiller Wandel. Vor fünf Jahren lief alles Gute in der Cloud. Apple Silicon hat die Rechnung verändert — ab dem M1 wurde ein Neural Engine mitgeliefert, der schnell genug ist, um echte Spracherkennungsmodelle direkt auf dem Gerät auszuführen. Der Abstand zwischen Cloud und lokal hat sich für die meisten Anwendungsfälle auf nahezu null verringert.

Dieser Leitfaden erklärt, was Offline-Sprache-zu-Text auf dem Mac wirklich bedeutet, wie die zugrunde liegende Technik funktioniert und welche Tools es wert sind, genutzt zu werden.

Warum „offline" möglich wurde

Spracherkennung war früher ein Cloud-Problem, weil die Modelle zu groß waren, um auf Consumer-Hardware in Echtzeit zu laufen. Whisper-Large ist etwa 1,5 GB groß. Es mit Gesprächsgeschwindigkeit auszuführen, erfordert erhebliche Rechenleistung.

Was sich geändert hat:

Apples Neural Engine schafft beim M1 Base etwa 11–15 TOPS und skaliert beim M3 Pro auf 38 TOPS und darüber hinaus. Das reicht aus, damit Whisper-Medium oder Parakeet schneller als in Echtzeit laufen.
Kleinere Modelle wurden besser. Parakeet (NVIDIAs RNN-T-Modell) erreicht eine wettbewerbsfähige Genauigkeit bei einem Bruchteil der Größe von Whisper und läuft auf M-Series-Chips mit etwa 150-facher Echtzeit.
CoreML und Metal wurden reif genug, dass Whisper.cpp und ähnliche Implementierungen die Hardware wirklich nutzen, anstatt nur die CPU zu belasten.

Das Ergebnis: Man kann jetzt auf einem MacBook Air diktieren, ein Meeting transkribieren oder eine stundenlange Datei lokal verarbeiten — ohne dass die Lüfter auch nur anlaufen.

Was „offline" wirklich bringt

Datenschutz ist der offensichtliche Vorteil — Audiodaten gehen nirgendwo hin. Aber es gibt praktische Vorteile, die täglich zählen:

Keine Latenz. Cloud-Transkription hat einen Netzwerk-Round-Trip. Selbst bei einer schnellen Verbindung sind das 50–200 ms Overhead pro Anfrage. Lokale Inferenz liefert Ergebnisse so schnell, wie das Modell sie produzieren kann — auf Apple Silicon in der Regel unter 200 ms für eine kurze Äußerung.

Funktioniert offline. Flüge, Züge, Hotel-WLAN, gesicherte Einrichtungen, Konferenz-WLAN, das alles drosselt. Das spielt keine Rolle, wenn das Modell auf dem eigenen Gerät liegt.

Kein Abonnement. Cloud-Dienste berechnen pro Minute oder pro Monat. Lokale Apps sind in der Regel Einmalkäufe oder kostenlos.

Kein Vendor-Lock-in. Transkripte liegen im eigenen Dateisystem. Wenn das Unternehmen, das die App gemacht hat, schließt, sind die Daten sicher.

Vorhersehbar. Cloud-Dienste ändern Preise, stellen APIs ein und begrenzen Anfragen. Lokale Tools laufen einfach weiter.

Wie On-Device-Spracherkennung auf dem Mac funktioniert

Zwei Modellfamilien dominieren auf Apple Silicon:

OpenAI Whisper

Whisper ist ein Encoder-Decoder-Transformer, der mit 680.000 Stunden mehrsprachiger Sprache trainiert wurde. Er ist Open-Weight, in mehreren Größen verfügbar (Tiny, Base, Small, Medium, Large) und unterstützt 99+ Sprachen.

Größen und grobe Kompromisse auf M-Series-Macs:

Modell	Größe	RAM	Geschwindigkeit (M2)	WER (Englisch)
Tiny	75 MB	~400 MB	~30x Echtzeit	~9%
Base	142 MB	~500 MB	~20x Echtzeit	~7%
Small	466 MB	~1 GB	~10x Echtzeit	~5,5%
Medium	1,5 GB	~2,5 GB	~5x Echtzeit	~4,8%
Large-v3	3 GB	~5 GB	~2x Echtzeit	~4,2%

Größere Modelle sind genauer, verbrauchen aber mehr RAM und laufen langsamer. Für die meisten Diktate ist Small oder Medium der ideale Kompromiss. Für Meetings oder Dateien, bei denen maximale Genauigkeit gefragt ist, empfiehlt sich Large-v3.

NVIDIA Parakeet

Parakeet ist ein RNN-T-Modell (Recurrent Neural Network Transducer). Es ist schneller als Whisper bei vergleichbarer Genauigkeit, standardmäßig nur auf Englisch ausgelegt und läuft auf M2 mit etwa 150-facher Echtzeit.

Parakeet ist die bessere Standardwahl für englisches Diktat, weil der Latenzvorteil enorm ist — man merkt kaum, dass das Modell läuft. Der Nachteil ist die Unterstützung nur einer Sprache. Wer mehrsprachige Transkription braucht, greift zu Whisper.

Die meisten modernen Mac-Apps ermöglichen es, die Engine je nach Aufgabe auszuwählen.

Was lokal über die Transkription hinaus möglich ist

Spracherkennung ist nur die halbe Miete. Die vollständige Pipeline für Diktat sieht in der Regel so aus:

Audioaufnahme — Mikrofoneingabe oder Systemton.
Spracherkennung — Whisper oder Parakeet erzeugt Rohtext.
Nachbearbeitung — Interpunktion, Großschreibung, Entfernung von Füllwörtern.
Optional: LLM-Bereinigung — Ein lokales Sprachmodell schreibt den Text so um, dass er wie poliertes Schreiben klingt.
Optional: Übersetzung — Ausgabe in einer anderen Sprache als der Eingabe.

Schritte 4 und 5 nutzen kleine lokale LLMs (Gemma 3 4B, Qwen 3 4B, LLaMA 3.2 3B), die über llama.cpp oder MLX laufen. Diese sind jeweils etwa 2–4 GB groß und laufen auf M-Series-Chips mit Gesprächsgeschwindigkeit. Das Ergebnis liest sich wie redigierter Text statt wie ein Rohtransskript.

Meeting-Transkription fügt zwei weitere Komponenten hinzu:

Sprecherdiarisierung — Erkennung, wer was gesagt hat. Erfolgt durch neuronale Einbettungen von Stimmmerkmalen, alles lokal.
Zusammenfassung — Das Transkript wird mit einem „Fasse dieses Meeting zusammen"-Prompt an ein lokales LLM übergeben, um Aufgaben und wichtige Entscheidungen zu extrahieren.

Nichts davon braucht noch die Cloud.

Tools, die das gut beherrschen

Kostenlos oder günstig:

Apple Dictation — in macOS integriert, bei der On-Device-Variante lokal. Auf kurze Diktate beschränkt.
MacWhisper — kostenlos für Datei-Transkription, €64 Pro für Live-Diktat.
VoiceInk — Open-Source, einmalig 25–49 $.
FluidVoice — kostenlos, Open-Source, unterstützt Parakeet.

Kostenpflichtig mit breiterem Funktionsumfang:

Vext — einmalig 49 $, Diktat plus Meetings plus Übersetzung, alles lokal.
Superwhisper — 249 $ lebenslang, diktationsfokussiert mit benutzerdefinierten Modi.
Voibe — 198 $ lebenslang, datenschutzorientiertes Diktat.

Die Unterschiede liegen hauptsächlich im Funktionsumfang. Die Frage lokal vs. Cloud ist entschieden — Lokal ist bei Genauigkeit wirklich wettbewerbsfähig und bei Latenz schneller. Alles unterhalb der Spitzenklasse der Cloud-Dienste (Otter Premium, Rev) wird von dem erreicht oder übertroffen, was auf dem eigenen Laptop läuft.

Wann die Cloud noch die Nase vorn hat

Um ehrlich zu sein: Cloud-Dienste haben in bestimmten Fällen noch Vorteile.

Team-Zusammenarbeit. Otter, Fireflies, Granola — diese haben gemeinsame Transkript-Bibliotheken, Kommentare, Echtzeit-Co-Viewing. Wenn der Workflow mehrere Personen umfasst, die an denselben Transkripten arbeiten, ist die Cloud dafür gemacht.

Branchenspezifische Genauigkeit. Medizinische, rechtliche und technische Fachbereiche haben spezialisierte Cloud-Modelle, die auf Branchenvokabular trainiert wurden und die lokales Whisper oder Parakeet ohne Feinabstimmung nicht erreicht.

Plattformübergreifend. Wer ständig zwischen Mac, Windows und iPhone wechselt, profitiert von einem Cloud-Dienst, der alles synchronisiert.

Für Einzelpersonen auf einem Mac ist keines davon normalerweise relevant. Für Teamarbeit in regulierten Branchen könnte es eine Rolle spielen.

Lokale Sprache-zu-Text einrichten

Drei Schritte:

Eine App wählen. Für die meisten ist die richtige Antwort MacWhisper (kostenlose Testversion), Vext (kostenlose Testversion) oder Superwhisper (kostenlose Testversion). Eine ausprobieren und schauen, ob sie passt.
Das Modell herunterladen. Beim ersten Start werden je nach gewähltem Modell 600 MB bis 3 GB heruntergeladen. Danach funktioniert es einfach.
Einen Hotkey festlegen. Die meisten Apps verwenden standardmäßig fn oder Right-Shift als Auslöser. Etwas wählen, das man ohne Nachdenken drücken kann.

Das ist die gesamte Einrichtung. Keine Konten, keine API-Schlüssel, keine Nutzungsstufen.

Das praktische Fazit

Offline-Sprache-zu-Text auf dem Mac hörte 2023 auf, ein Kompromiss zu sein, und übertraf Ende 2024 für die meisten Anwendungsfälle die Cloud. Die Latenz ist geringer, der Datenschutz ist real, und der Preis ist einmalig statt monatlich.

Wer Cloud-Diktat aus Gewohnheit nutzt, sollte eine lokale Alternative ausprobieren. Der Abstand, den man vielleicht noch aus früheren Jahren kennt, ist nicht mehr vorhanden.