Whisper vs Parakeet op Apple Silicon — Snelheid, nauwkeurigheid, RAM

Als je een lokale spraakherkenningsengine op Mac kiest, komt de keuze meestal neer op twee: OpenAI Whisper en NVIDIA Parakeet. Beide draaien goed op Apple Silicon, beide zijn open. Ze maken verschillende afwegingen, en de juiste keuze hangt af van wat je transcribeert.

Dit is een rechtstreekse vergelijking gebaseerd op benchmarks die ik heb gedraaid op M2- en M3-Macs.

De korte versie

Parakeet is sneller en gebruikt minder RAM, maar is alleen Engels.
Whisper Large-v3 is nauwkeuriger op moeilijke audio en ondersteunt 99+ talen.
Voor Engelse dictation: Parakeet wint.
Voor vergaderingen, bestanden of meertalige content: Whisper.

De kloof is kleiner dan mensen denken. Beide zijn goed genoeg dat de meeste gebruikers het nauwkeurigheidsverschil op schone audio niet zullen merken.

Wat elk is

OpenAI Whisper is een encoder-decoder transformer getraind op 680.000 uur meertalige spraak. Uitgebracht als open-weight in 2022, met v2 en v3 daarna. Groottes variëren van Tiny (75 MB) tot Large-v3 (3 GB).

NVIDIA Parakeet is een RNN-T model — recurrent neural network transducer. NVIDIA bracht het uit via NeMo. Het is kleiner, sneller en standaard Engels-alleen (meertalige varianten bestaan maar zijn minder volwassen).

Het architecturale verschil is belangrijk: Whisper verwerkt vensters van 30 seconden met een transformer die duur maar flexibel is. Parakeet streamt audio door een RNN die incrementeel en goedkoop tekst produceert.

Snelheid

Snelheid wordt gemeten als real-time factor (RTF). 1x betekent dat het model net zolang duurt als de audio zelf. 10x betekent dat het een bestand van 10 minuten verwerkt in 1 minuut. Hoger is sneller.

Benchmarks op M2 (8-core GPU, 16 GB RAM), gemeten tegen de LibriSpeech test-clean set:

Engine	Model	RTF (M2)	RTF (M3 Pro)
Whisper	Tiny	30x	45x
Whisper	Base	20x	32x
Whisper	Small	10x	18x
Whisper	Medium	5x	9x
Whisper	Large-v3	2x	4x
Parakeet	TDT-1.1B	150x	220x

Parakeet is ongeveer 20–50x sneller dan het Whisper-model met gelijkwaardige nauwkeurigheid. Voor dictation is dit het verschil tussen tekst die direct verschijnt en een halve seconde wachten.

Nauwkeurigheid

Word error rate (WER) op standaard Engelse benchmarks. Lager is beter. Deze cijfers variëren tussen testsets — wat volgt is van LibriSpeech test-clean, wat een relatief schoon read-speech corpus is. Op moeilijkere audio (lawaaierig, met accent, technisch) gaan de cijfers voor beide omhoog.

Engine	WER (LibriSpeech)	WER (CommonVoice)
Whisper Tiny	9,0%	14%
Whisper Base	7,0%	11%
Whisper Small	5,5%	8%
Whisper Medium	4,8%	7%
Whisper Large-v3	4,2%	5,5%
Parakeet TDT-1.1B	4,5%	6,5%

Op schone Engelse spraak evenaart Parakeet Whisper Medium en benadert het Whisper Large-v3. De kloof is klein. Op lawaaierige of geaccentueerde Engelse spraak houdt Whisper Large-v3 zijn voorsprong duidelijker vast.

Voor meertalige content is Whisper de enige echte optie. Parakeet's meertalige varianten bestaan maar ik heb ze niet zien evenaren met Whisper Large op talen buiten het Engels.

RAM

Apple Silicon Macs hebben unified memory, en het model laadt in dezelfde pool als al het andere. RAM-gebruik is van belang als je 8 of 16 GB hebt en je machine wilt blijven gebruiken tijdens het transcriberen.

Engine	Model	RAM (geladen)
Whisper	Tiny	~400 MB
Whisper	Base	~500 MB
Whisper	Small	~1 GB
Whisper	Medium	~2,5 GB
Whisper	Large-v3	~5 GB
Parakeet	TDT-1.1B	~1,2 GB

Als je op 8 GB zit en VS Code, een browser en Slack open wilt houden, is Whisper Large-v3 zwaar. Parakeet op 1,2 GB of Whisper Small op 1 GB zijn de praktische opties op die geheugenniveau.

Op 16 GB kun je alles comfortabel draaien. Op 32 GB en hoger denk je er niet eens over na.

Latentie voor dictation

Snelheid en RTF vertellen je over throughput bij lange bestanden. Voor dictation gaat het erom hoe snel het eerste woord verschijnt nadat je stopt met praten.

Gemeten op M2, 5-seconden uiting, microfoon naar tekst:

Engine	First-token latentie	Volledig resultaat
Whisper Tiny	180 ms	250 ms
Whisper Small	350 ms	500 ms
Whisper Medium	700 ms	1100 ms
Whisper Large-v3	1400 ms	2200 ms
Parakeet TDT-1.1B	80 ms	150 ms

Parakeet's streaming output maakt dat het direct aanvoelt. Whisper Tiny en Small zijn ook snel genoeg om responsief aan te voelen. Alles vanaf Medium of groter introduceert een merkbare wachttijd — prima voor bestanden, minder prima voor dictation.

Wanneer welke kiezen

Gebruik Parakeet als:

Je voornamelijk in het Engels dicteert
Je de laagst mogelijke latentie wilt
Je op een Mac zit met beperkt RAM
Je lange bestanden transcribeert en ze snel afgewerkt wilt hebben

Gebruik Whisper Small of Medium als:

Je meertalige ondersteuning nodig hebt (99+ talen)
Je nauwkeurigheid wilt zonder de RAM-hit van Large-v3
Je op 16 GB zit en een gebalanceerde keuze wilt

Gebruik Whisper Large-v3 als:

Je vergaderingen of belangrijke bestanden transcribeert waar elke fout je iets kost
Je 32 GB+ hebt en niet om RAM geeft
Je werkt met lawaaierige audio, zware accenten of technische vocabulaire
De taak toch offline draait, dus RTF doet er niet veel toe

Hoe zit het met cloud-equivalente nauwkeurigheid?

De clouddiensten (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) rapporteren meestal 3,5–4,5% WER op standaard benchmarks. Dat is ongeveer Whisper Large-v3 territorium.

De nauwkeurigheidskloof tussen lokaal en cloud is echt maar klein — meestal 0,5–1% WER op schone audio, meer op moeilijke audio. Voor de meeste use cases (dictation, vergaderingen, notities) is het niet merkbaar. Clouddiensten winnen bij edge cases: zware accenten waar je geen modeldekking voor hebt, zeldzame technische vocabulaire, audio van zeer lage kwaliteit.

Apps en welke engines ze gebruiken

Als je niet wilt nadenken over engines, hier is wat mainstream Mac-apps standaard gebruiken:

Vext — Parakeet standaard, Whisper beschikbaar als optie
MacWhisper — Whisper, model selecteerbaar
Superwhisper — Whisper, model selecteerbaar
VoiceInk — Whisper
FluidVoice — Parakeet-ondersteuning
Apple Dictation — Apple's eigen foundation model (geen Whisper of Parakeet)

De verdeling tussen "Parakeet standaard" en "Whisper standaard" weerspiegelt meestal of de app dictation-first (Parakeet) of bestandstranscriptie-first (Whisper) is.

De conclusie

Voor de meeste mensen, op een huidige Mac, die in het Engels dicteren: Parakeet. De latentie voelt anders — tekst verschijnt terwijl je spreekt in plaats van nadat je klaar bent.

Voor vergaderingen, bestanden of meertalig werk: Whisper Medium of Large-v3.

Je kunt beide hebben. De meeste apps laten je per taak kiezen.