Wer auf dem Mac eine lokale Spracherkennungs-Engine wählt, hat meist die Wahl zwischen zwei Optionen: OpenAI Whisper und NVIDIA Parakeet. Beide laufen gut auf Apple Silicon, beide sind offen. Sie gehen unterschiedliche Kompromisse ein, und die richtige Wahl hängt davon ab, was transkribiert werden soll.
Dies ist ein direkter Vergleich auf Basis von Benchmarks, die auf M2- und M3-Macs durchgeführt wurden.
Die Kurzfassung
- Parakeet ist schneller und verbraucht weniger RAM, funktioniert aber nur auf Englisch.
- Whisper Large-v3 ist bei schwierigem Audio genauer und unterstützt 99+ Sprachen.
- Für englisches Diktat: Parakeet gewinnt.
- Für Meetings, Dateien oder mehrsprachige Inhalte: Whisper.
Der Abstand ist kleiner als man denkt. Beide sind gut genug, dass die meisten Nutzer den Genauigkeitsunterschied bei sauberem Audio nicht bemerken werden.
Was die beiden sind
OpenAI Whisper ist ein Encoder-Decoder-Transformer, der mit 680.000 Stunden mehrsprachiger Sprache trainiert wurde. 2022 als Open-Weight-Modell veröffentlicht, gefolgt von v2 und v3. Die Größen reichen von Tiny (75 MB) bis Large-v3 (3 GB).
NVIDIA Parakeet ist ein RNN-T-Modell — Recurrent Neural Network Transducer. NVIDIA hat es über NeMo veröffentlicht. Es ist kleiner, schneller und standardmäßig nur auf Englisch ausgelegt (mehrsprachige Varianten existieren, sind aber weniger ausgereift).
Der architektonische Unterschied ist entscheidend: Whisper verarbeitet 30-Sekunden-Fenster mit einem Transformer, der aufwändig, aber flexibel ist. Parakeet streamt Audio durch ein RNN, das Text inkrementell und günstig produziert.
Geschwindigkeit
Geschwindigkeit wird als Real-Time-Faktor (RTF) gemessen. 1x bedeutet, das Modell braucht so lange wie das Audio selbst. 10x bedeutet, es verarbeitet eine 10-Minuten-Datei in 1 Minute. Höher ist schneller.
Benchmarks auf M2 (8-Core-GPU, 16 GB RAM), gemessen am LibriSpeech-Test-Clean-Set:
| Engine | Modell | RTF (M2) | RTF (M3 Pro) |
|---|---|---|---|
| Whisper | Tiny | 30x | 45x |
| Whisper | Base | 20x | 32x |
| Whisper | Small | 10x | 18x |
| Whisper | Medium | 5x | 9x |
| Whisper | Large-v3 | 2x | 4x |
| Parakeet | TDT-1.1B | 150x | 220x |
Parakeet ist etwa 20–50x schneller als das Whisper-Modell mit vergleichbarer Genauigkeit. Beim Diktat ist das der Unterschied zwischen sofort erscheinendem Text und einer halben Sekunde Wartezeit.
Genauigkeit
Wortfehlerrate (WER) auf standardisierten englischen Benchmarks. Niedriger ist besser. Diese Werte variieren je nach Testset — die folgenden stammen aus LibriSpeech test-clean, einem relativ sauberen Korpus mit vorgelesener Sprache. Bei schwierigem Audio (laut, mit Akzent, fachsprachlich) steigen die Werte für beide.
| Engine | WER (LibriSpeech) | WER (CommonVoice) |
|---|---|---|
| Whisper Tiny | 9,0% | 14% |
| Whisper Base | 7,0% | 11% |
| Whisper Small | 5,5% | 8% |
| Whisper Medium | 4,8% | 7% |
| Whisper Large-v3 | 4,2% | 5,5% |
| Parakeet TDT-1.1B | 4,5% | 6,5% |
Bei sauberem Englisch erreicht Parakeet das Niveau von Whisper Medium und kommt an Whisper Large-v3 heran. Der Abstand ist gering. Bei lautem oder akzentiertem Englisch behält Whisper Large-v3 seinen Vorsprung deutlicher.
Für mehrsprachige Inhalte ist Whisper die einzig sinnvolle Option. Parakeets mehrsprachige Varianten existieren, haben aber bei Sprachen außer Englisch nicht mit Whisper Large mitgehalten.
RAM
Apple Silicon Macs haben einheitlichen Arbeitsspeicher, und das Modell lädt in denselben Pool wie alles andere. RAM-Verbrauch ist relevant, wenn 8 oder 16 GB vorhanden sind und der Mac während der Transkription weiter genutzt werden soll.
| Engine | Modell | RAM (geladen) |
|---|---|---|
| Whisper | Tiny | ~400 MB |
| Whisper | Base | ~500 MB |
| Whisper | Small | ~1 GB |
| Whisper | Medium | ~2,5 GB |
| Whisper | Large-v3 | ~5 GB |
| Parakeet | TDT-1.1B | ~1,2 GB |
Wer 8 GB hat und VS Code, einen Browser und Slack geöffnet lassen möchte, hat es mit Whisper Large-v3 schwer. Parakeet mit 1,2 GB oder Whisper Small mit 1 GB sind die praktischen Optionen auf dieser Speicherstufe.
Mit 16 GB läuft alles problemlos. Mit 32 GB und mehr muss man gar nicht darüber nachdenken.
Latenz beim Diktat
Geschwindigkeit und RTF beschreiben den Durchsatz bei langen Dateien. Beim Diktat kommt es darauf an, wie schnell das erste Wort erscheint, nachdem man aufgehört hat zu sprechen.
Gemessen auf M2, 5-Sekunden-Äußerung, Mikrofon bis Text:
| Engine | Erste-Token-Latenz | Vollständiges Ergebnis |
|---|---|---|
| Whisper Tiny | 180 ms | 250 ms |
| Whisper Small | 350 ms | 500 ms |
| Whisper Medium | 700 ms | 1100 ms |
| Whisper Large-v3 | 1400 ms | 2200 ms |
| Parakeet TDT-1.1B | 80 ms | 150 ms |
Parakeets Streaming-Ausgabe fühlt sich sofortig an. Whisper Tiny und Small sind ebenfalls schnell genug, um reaktionsschnell zu wirken. Alles ab Medium aufwärts erzeugt eine spürbare Wartezeit — für Dateien in Ordnung, für Diktat weniger.
Wann welche Engine wählen
Parakeet verwenden, wenn:
- Hauptsächlich auf Englisch diktiert wird
- Die geringstmögliche Latenz gewünscht ist
- Der Mac über begrenzten RAM verfügt
- Lange Dateien schnell transkribiert werden sollen
Whisper Small oder Medium verwenden, wenn:
- Mehrsprachige Unterstützung benötigt wird (99+ Sprachen)
- Genauigkeit ohne den RAM-Aufwand von Large-v3 gewünscht ist
- 16 GB vorhanden sind und eine ausgewogene Wahl gefragt ist
Whisper Large-v3 verwenden, wenn:
- Meetings oder wichtige Dateien transkribiert werden, bei denen jeder Fehler zählt
- 32 GB+ vorhanden sind und RAM keine Rolle spielt
- Mit lautem Audio, starken Akzenten oder Fachvokabular gearbeitet wird
- Die Verarbeitung ohnehin offline läuft und der RTF keine große Rolle spielt
Was ist mit Cloud-äquivalenter Genauigkeit?
Die Cloud-Dienste (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) berichten auf Standard-Benchmarks meist 3,5–4,5% WER. Das entspricht in etwa dem Bereich von Whisper Large-v3.
Der Genauigkeitsabstand zwischen lokal und Cloud ist real, aber klein — üblicherweise 0,5–1% WER bei sauberem Audio, mehr bei schwierigem Audio. Für die meisten Anwendungsfälle (Diktat, Meetings, Notizen) ist das nicht spürbar. Cloud-Dienste gewinnen bei Randfall: starke Akzente ohne Modellabdeckung, seltenes Fachvokabular, sehr schlechte Audioqualität.
Apps und welche Engines sie verwenden
Wer nicht über Engines nachdenken möchte, findet hier, was gängige Mac-Apps standardmäßig nutzen:
- Vext — standardmäßig Parakeet, Whisper als Option verfügbar
- MacWhisper — Whisper, Modell wählbar
- Superwhisper — Whisper, Modell wählbar
- VoiceInk — Whisper
- FluidVoice — Parakeet-Unterstützung
- Apple Dictation — Apples eigenes Foundation-Modell (weder Whisper noch Parakeet)
Die Unterscheidung zwischen „Parakeet als Standard" und „Whisper als Standard" spiegelt in der Regel wider, ob die App diktationsorientiert (Parakeet) oder datei-transkriptionsorientiert (Whisper) ist.
Das Fazit
Für die meisten Menschen, auf einem aktuellen Mac, mit Diktat auf Englisch: Parakeet. Die Latenz fühlt sich anders an — Text erscheint während des Sprechens, nicht danach.
Für Meetings, Dateien oder mehrsprachige Arbeit: Whisper Medium oder Large-v3.
Beides ist möglich. Die meisten Apps erlauben die Auswahl je nach Aufgabe.