Als je een lokale spraakherkenningsengine op Mac kiest, komt de keuze meestal neer op twee: OpenAI Whisper en NVIDIA Parakeet. Beide draaien goed op Apple Silicon, beide zijn open. Ze maken verschillende afwegingen, en de juiste keuze hangt af van wat je transcribeert.
Dit is een rechtstreekse vergelijking gebaseerd op benchmarks die ik heb gedraaid op M2- en M3-Macs.
De korte versie
- Parakeet is sneller en gebruikt minder RAM, maar is alleen Engels.
- Whisper Large-v3 is nauwkeuriger op moeilijke audio en ondersteunt 99+ talen.
- Voor Engelse dictation: Parakeet wint.
- Voor vergaderingen, bestanden of meertalige content: Whisper.
De kloof is kleiner dan mensen denken. Beide zijn goed genoeg dat de meeste gebruikers het nauwkeurigheidsverschil op schone audio niet zullen merken.
Wat elk is
OpenAI Whisper is een encoder-decoder transformer getraind op 680.000 uur meertalige spraak. Uitgebracht als open-weight in 2022, met v2 en v3 daarna. Groottes variëren van Tiny (75 MB) tot Large-v3 (3 GB).
NVIDIA Parakeet is een RNN-T model — recurrent neural network transducer. NVIDIA bracht het uit via NeMo. Het is kleiner, sneller en standaard Engels-alleen (meertalige varianten bestaan maar zijn minder volwassen).
Het architecturale verschil is belangrijk: Whisper verwerkt vensters van 30 seconden met een transformer die duur maar flexibel is. Parakeet streamt audio door een RNN die incrementeel en goedkoop tekst produceert.
Snelheid
Snelheid wordt gemeten als real-time factor (RTF). 1x betekent dat het model net zolang duurt als de audio zelf. 10x betekent dat het een bestand van 10 minuten verwerkt in 1 minuut. Hoger is sneller.
Benchmarks op M2 (8-core GPU, 16 GB RAM), gemeten tegen de LibriSpeech test-clean set:
| Engine | Model | RTF (M2) | RTF (M3 Pro) |
|---|---|---|---|
| Whisper | Tiny | 30x | 45x |
| Whisper | Base | 20x | 32x |
| Whisper | Small | 10x | 18x |
| Whisper | Medium | 5x | 9x |
| Whisper | Large-v3 | 2x | 4x |
| Parakeet | TDT-1.1B | 150x | 220x |
Parakeet is ongeveer 20–50x sneller dan het Whisper-model met gelijkwaardige nauwkeurigheid. Voor dictation is dit het verschil tussen tekst die direct verschijnt en een halve seconde wachten.
Nauwkeurigheid
Word error rate (WER) op standaard Engelse benchmarks. Lager is beter. Deze cijfers variëren tussen testsets — wat volgt is van LibriSpeech test-clean, wat een relatief schoon read-speech corpus is. Op moeilijkere audio (lawaaierig, met accent, technisch) gaan de cijfers voor beide omhoog.
| Engine | WER (LibriSpeech) | WER (CommonVoice) |
|---|---|---|
| Whisper Tiny | 9,0% | 14% |
| Whisper Base | 7,0% | 11% |
| Whisper Small | 5,5% | 8% |
| Whisper Medium | 4,8% | 7% |
| Whisper Large-v3 | 4,2% | 5,5% |
| Parakeet TDT-1.1B | 4,5% | 6,5% |
Op schone Engelse spraak evenaart Parakeet Whisper Medium en benadert het Whisper Large-v3. De kloof is klein. Op lawaaierige of geaccentueerde Engelse spraak houdt Whisper Large-v3 zijn voorsprong duidelijker vast.
Voor meertalige content is Whisper de enige echte optie. Parakeet's meertalige varianten bestaan maar ik heb ze niet zien evenaren met Whisper Large op talen buiten het Engels.
RAM
Apple Silicon Macs hebben unified memory, en het model laadt in dezelfde pool als al het andere. RAM-gebruik is van belang als je 8 of 16 GB hebt en je machine wilt blijven gebruiken tijdens het transcriberen.
| Engine | Model | RAM (geladen) |
|---|---|---|
| Whisper | Tiny | ~400 MB |
| Whisper | Base | ~500 MB |
| Whisper | Small | ~1 GB |
| Whisper | Medium | ~2,5 GB |
| Whisper | Large-v3 | ~5 GB |
| Parakeet | TDT-1.1B | ~1,2 GB |
Als je op 8 GB zit en VS Code, een browser en Slack open wilt houden, is Whisper Large-v3 zwaar. Parakeet op 1,2 GB of Whisper Small op 1 GB zijn de praktische opties op die geheugenniveau.
Op 16 GB kun je alles comfortabel draaien. Op 32 GB en hoger denk je er niet eens over na.
Latentie voor dictation
Snelheid en RTF vertellen je over throughput bij lange bestanden. Voor dictation gaat het erom hoe snel het eerste woord verschijnt nadat je stopt met praten.
Gemeten op M2, 5-seconden uiting, microfoon naar tekst:
| Engine | First-token latentie | Volledig resultaat |
|---|---|---|
| Whisper Tiny | 180 ms | 250 ms |
| Whisper Small | 350 ms | 500 ms |
| Whisper Medium | 700 ms | 1100 ms |
| Whisper Large-v3 | 1400 ms | 2200 ms |
| Parakeet TDT-1.1B | 80 ms | 150 ms |
Parakeet's streaming output maakt dat het direct aanvoelt. Whisper Tiny en Small zijn ook snel genoeg om responsief aan te voelen. Alles vanaf Medium of groter introduceert een merkbare wachttijd — prima voor bestanden, minder prima voor dictation.
Wanneer welke kiezen
Gebruik Parakeet als:
- Je voornamelijk in het Engels dicteert
- Je de laagst mogelijke latentie wilt
- Je op een Mac zit met beperkt RAM
- Je lange bestanden transcribeert en ze snel afgewerkt wilt hebben
Gebruik Whisper Small of Medium als:
- Je meertalige ondersteuning nodig hebt (99+ talen)
- Je nauwkeurigheid wilt zonder de RAM-hit van Large-v3
- Je op 16 GB zit en een gebalanceerde keuze wilt
Gebruik Whisper Large-v3 als:
- Je vergaderingen of belangrijke bestanden transcribeert waar elke fout je iets kost
- Je 32 GB+ hebt en niet om RAM geeft
- Je werkt met lawaaierige audio, zware accenten of technische vocabulaire
- De taak toch offline draait, dus RTF doet er niet veel toe
Hoe zit het met cloud-equivalente nauwkeurigheid?
De clouddiensten (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) rapporteren meestal 3,5–4,5% WER op standaard benchmarks. Dat is ongeveer Whisper Large-v3 territorium.
De nauwkeurigheidskloof tussen lokaal en cloud is echt maar klein — meestal 0,5–1% WER op schone audio, meer op moeilijke audio. Voor de meeste use cases (dictation, vergaderingen, notities) is het niet merkbaar. Clouddiensten winnen bij edge cases: zware accenten waar je geen modeldekking voor hebt, zeldzame technische vocabulaire, audio van zeer lage kwaliteit.
Apps en welke engines ze gebruiken
Als je niet wilt nadenken over engines, hier is wat mainstream Mac-apps standaard gebruiken:
- Vext — Parakeet standaard, Whisper beschikbaar als optie
- MacWhisper — Whisper, model selecteerbaar
- Superwhisper — Whisper, model selecteerbaar
- VoiceInk — Whisper
- FluidVoice — Parakeet-ondersteuning
- Apple Dictation — Apple's eigen foundation model (geen Whisper of Parakeet)
De verdeling tussen "Parakeet standaard" en "Whisper standaard" weerspiegelt meestal of de app dictation-first (Parakeet) of bestandstranscriptie-first (Whisper) is.
De conclusie
Voor de meeste mensen, op een huidige Mac, die in het Engels dicteren: Parakeet. De latentie voelt anders — tekst verschijnt terwijl je spreekt in plaats van nadat je klaar bent.
Voor vergaderingen, bestanden of meertalig werk: Whisper Medium of Large-v3.
Je kunt beide hebben. De meeste apps laten je per taak kiezen.