Whisper vs. Parakeet auf Apple Silicon — Geschwindigkeit, Genauigkeit, RAM

Wer auf dem Mac eine lokale Spracherkennungs-Engine wählt, hat meist die Wahl zwischen zwei Optionen: OpenAI Whisper und NVIDIA Parakeet. Beide laufen gut auf Apple Silicon, beide sind offen. Sie gehen unterschiedliche Kompromisse ein, und die richtige Wahl hängt davon ab, was transkribiert werden soll.

Dies ist ein direkter Vergleich auf Basis von Benchmarks, die auf M2- und M3-Macs durchgeführt wurden.

Die Kurzfassung

Parakeet ist schneller und verbraucht weniger RAM, funktioniert aber nur auf Englisch.
Whisper Large-v3 ist bei schwierigem Audio genauer und unterstützt 99+ Sprachen.
Für englisches Diktat: Parakeet gewinnt.
Für Meetings, Dateien oder mehrsprachige Inhalte: Whisper.

Der Abstand ist kleiner als man denkt. Beide sind gut genug, dass die meisten Nutzer den Genauigkeitsunterschied bei sauberem Audio nicht bemerken werden.

Was die beiden sind

OpenAI Whisper ist ein Encoder-Decoder-Transformer, der mit 680.000 Stunden mehrsprachiger Sprache trainiert wurde. 2022 als Open-Weight-Modell veröffentlicht, gefolgt von v2 und v3. Die Größen reichen von Tiny (75 MB) bis Large-v3 (3 GB).

NVIDIA Parakeet ist ein RNN-T-Modell — Recurrent Neural Network Transducer. NVIDIA hat es über NeMo veröffentlicht. Es ist kleiner, schneller und standardmäßig nur auf Englisch ausgelegt (mehrsprachige Varianten existieren, sind aber weniger ausgereift).

Der architektonische Unterschied ist entscheidend: Whisper verarbeitet 30-Sekunden-Fenster mit einem Transformer, der aufwändig, aber flexibel ist. Parakeet streamt Audio durch ein RNN, das Text inkrementell und günstig produziert.

Geschwindigkeit

Geschwindigkeit wird als Real-Time-Faktor (RTF) gemessen. 1x bedeutet, das Modell braucht so lange wie das Audio selbst. 10x bedeutet, es verarbeitet eine 10-Minuten-Datei in 1 Minute. Höher ist schneller.

Benchmarks auf M2 (8-Core-GPU, 16 GB RAM), gemessen am LibriSpeech-Test-Clean-Set:

Engine	Modell	RTF (M2)	RTF (M3 Pro)
Whisper	Tiny	30x	45x
Whisper	Base	20x	32x
Whisper	Small	10x	18x
Whisper	Medium	5x	9x
Whisper	Large-v3	2x	4x
Parakeet	TDT-1.1B	150x	220x

Parakeet ist etwa 20–50x schneller als das Whisper-Modell mit vergleichbarer Genauigkeit. Beim Diktat ist das der Unterschied zwischen sofort erscheinendem Text und einer halben Sekunde Wartezeit.

Genauigkeit

Wortfehlerrate (WER) auf standardisierten englischen Benchmarks. Niedriger ist besser. Diese Werte variieren je nach Testset — die folgenden stammen aus LibriSpeech test-clean, einem relativ sauberen Korpus mit vorgelesener Sprache. Bei schwierigem Audio (laut, mit Akzent, fachsprachlich) steigen die Werte für beide.

Engine	WER (LibriSpeech)	WER (CommonVoice)
Whisper Tiny	9,0%	14%
Whisper Base	7,0%	11%
Whisper Small	5,5%	8%
Whisper Medium	4,8%	7%
Whisper Large-v3	4,2%	5,5%
Parakeet TDT-1.1B	4,5%	6,5%

Bei sauberem Englisch erreicht Parakeet das Niveau von Whisper Medium und kommt an Whisper Large-v3 heran. Der Abstand ist gering. Bei lautem oder akzentiertem Englisch behält Whisper Large-v3 seinen Vorsprung deutlicher.

Für mehrsprachige Inhalte ist Whisper die einzig sinnvolle Option. Parakeets mehrsprachige Varianten existieren, haben aber bei Sprachen außer Englisch nicht mit Whisper Large mitgehalten.

RAM

Apple Silicon Macs haben einheitlichen Arbeitsspeicher, und das Modell lädt in denselben Pool wie alles andere. RAM-Verbrauch ist relevant, wenn 8 oder 16 GB vorhanden sind und der Mac während der Transkription weiter genutzt werden soll.

Engine	Modell	RAM (geladen)
Whisper	Tiny	~400 MB
Whisper	Base	~500 MB
Whisper	Small	~1 GB
Whisper	Medium	~2,5 GB
Whisper	Large-v3	~5 GB
Parakeet	TDT-1.1B	~1,2 GB

Wer 8 GB hat und VS Code, einen Browser und Slack geöffnet lassen möchte, hat es mit Whisper Large-v3 schwer. Parakeet mit 1,2 GB oder Whisper Small mit 1 GB sind die praktischen Optionen auf dieser Speicherstufe.

Mit 16 GB läuft alles problemlos. Mit 32 GB und mehr muss man gar nicht darüber nachdenken.

Latenz beim Diktat

Geschwindigkeit und RTF beschreiben den Durchsatz bei langen Dateien. Beim Diktat kommt es darauf an, wie schnell das erste Wort erscheint, nachdem man aufgehört hat zu sprechen.

Gemessen auf M2, 5-Sekunden-Äußerung, Mikrofon bis Text:

Engine	Erste-Token-Latenz	Vollständiges Ergebnis
Whisper Tiny	180 ms	250 ms
Whisper Small	350 ms	500 ms
Whisper Medium	700 ms	1100 ms
Whisper Large-v3	1400 ms	2200 ms
Parakeet TDT-1.1B	80 ms	150 ms

Parakeets Streaming-Ausgabe fühlt sich sofortig an. Whisper Tiny und Small sind ebenfalls schnell genug, um reaktionsschnell zu wirken. Alles ab Medium aufwärts erzeugt eine spürbare Wartezeit — für Dateien in Ordnung, für Diktat weniger.

Wann welche Engine wählen

Parakeet verwenden, wenn:

Hauptsächlich auf Englisch diktiert wird
Die geringstmögliche Latenz gewünscht ist
Der Mac über begrenzten RAM verfügt
Lange Dateien schnell transkribiert werden sollen

Whisper Small oder Medium verwenden, wenn:

Mehrsprachige Unterstützung benötigt wird (99+ Sprachen)
Genauigkeit ohne den RAM-Aufwand von Large-v3 gewünscht ist
16 GB vorhanden sind und eine ausgewogene Wahl gefragt ist

Whisper Large-v3 verwenden, wenn:

Meetings oder wichtige Dateien transkribiert werden, bei denen jeder Fehler zählt
32 GB+ vorhanden sind und RAM keine Rolle spielt
Mit lautem Audio, starken Akzenten oder Fachvokabular gearbeitet wird
Die Verarbeitung ohnehin offline läuft und der RTF keine große Rolle spielt

Was ist mit Cloud-äquivalenter Genauigkeit?

Die Cloud-Dienste (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) berichten auf Standard-Benchmarks meist 3,5–4,5% WER. Das entspricht in etwa dem Bereich von Whisper Large-v3.

Der Genauigkeitsabstand zwischen lokal und Cloud ist real, aber klein — üblicherweise 0,5–1% WER bei sauberem Audio, mehr bei schwierigem Audio. Für die meisten Anwendungsfälle (Diktat, Meetings, Notizen) ist das nicht spürbar. Cloud-Dienste gewinnen bei Randfall: starke Akzente ohne Modellabdeckung, seltenes Fachvokabular, sehr schlechte Audioqualität.

Apps und welche Engines sie verwenden

Wer nicht über Engines nachdenken möchte, findet hier, was gängige Mac-Apps standardmäßig nutzen:

Vext — standardmäßig Parakeet, Whisper als Option verfügbar
MacWhisper — Whisper, Modell wählbar
Superwhisper — Whisper, Modell wählbar
VoiceInk — Whisper
FluidVoice — Parakeet-Unterstützung
Apple Dictation — Apples eigenes Foundation-Modell (weder Whisper noch Parakeet)

Die Unterscheidung zwischen „Parakeet als Standard" und „Whisper als Standard" spiegelt in der Regel wider, ob die App diktationsorientiert (Parakeet) oder datei-transkriptionsorientiert (Whisper) ist.

Das Fazit

Für die meisten Menschen, auf einem aktuellen Mac, mit Diktat auf Englisch: Parakeet. Die Latenz fühlt sich anders an — Text erscheint während des Sprechens, nicht danach.

Für Meetings, Dateien oder mehrsprachige Arbeit: Whisper Medium oder Large-v3.

Beides ist möglich. Die meisten Apps erlauben die Auswahl je nach Aufgabe.