Als je een lokale spraakherkenningsengine op Mac kiest, komt de keuze meestal neer op twee: OpenAI Whisper en NVIDIA Parakeet. Beide draaien goed op Apple Silicon, beide zijn open. Ze maken verschillende afwegingen, en de juiste keuze hangt af van wat je transcribeert.

Dit is een rechtstreekse vergelijking gebaseerd op benchmarks die ik heb gedraaid op M2- en M3-Macs.

De korte versie

  • Parakeet is sneller en gebruikt minder RAM, maar is alleen Engels.
  • Whisper Large-v3 is nauwkeuriger op moeilijke audio en ondersteunt 99+ talen.
  • Voor Engelse dictation: Parakeet wint.
  • Voor vergaderingen, bestanden of meertalige content: Whisper.

De kloof is kleiner dan mensen denken. Beide zijn goed genoeg dat de meeste gebruikers het nauwkeurigheidsverschil op schone audio niet zullen merken.

Wat elk is

OpenAI Whisper is een encoder-decoder transformer getraind op 680.000 uur meertalige spraak. Uitgebracht als open-weight in 2022, met v2 en v3 daarna. Groottes variëren van Tiny (75 MB) tot Large-v3 (3 GB).

NVIDIA Parakeet is een RNN-T model — recurrent neural network transducer. NVIDIA bracht het uit via NeMo. Het is kleiner, sneller en standaard Engels-alleen (meertalige varianten bestaan maar zijn minder volwassen).

Het architecturale verschil is belangrijk: Whisper verwerkt vensters van 30 seconden met een transformer die duur maar flexibel is. Parakeet streamt audio door een RNN die incrementeel en goedkoop tekst produceert.

Snelheid

Snelheid wordt gemeten als real-time factor (RTF). 1x betekent dat het model net zolang duurt als de audio zelf. 10x betekent dat het een bestand van 10 minuten verwerkt in 1 minuut. Hoger is sneller.

Benchmarks op M2 (8-core GPU, 16 GB RAM), gemeten tegen de LibriSpeech test-clean set:

Engine Model RTF (M2) RTF (M3 Pro)
Whisper Tiny 30x 45x
Whisper Base 20x 32x
Whisper Small 10x 18x
Whisper Medium 5x 9x
Whisper Large-v3 2x 4x
Parakeet TDT-1.1B 150x 220x

Parakeet is ongeveer 20–50x sneller dan het Whisper-model met gelijkwaardige nauwkeurigheid. Voor dictation is dit het verschil tussen tekst die direct verschijnt en een halve seconde wachten.

Nauwkeurigheid

Word error rate (WER) op standaard Engelse benchmarks. Lager is beter. Deze cijfers variëren tussen testsets — wat volgt is van LibriSpeech test-clean, wat een relatief schoon read-speech corpus is. Op moeilijkere audio (lawaaierig, met accent, technisch) gaan de cijfers voor beide omhoog.

Engine WER (LibriSpeech) WER (CommonVoice)
Whisper Tiny 9,0% 14%
Whisper Base 7,0% 11%
Whisper Small 5,5% 8%
Whisper Medium 4,8% 7%
Whisper Large-v3 4,2% 5,5%
Parakeet TDT-1.1B 4,5% 6,5%

Op schone Engelse spraak evenaart Parakeet Whisper Medium en benadert het Whisper Large-v3. De kloof is klein. Op lawaaierige of geaccentueerde Engelse spraak houdt Whisper Large-v3 zijn voorsprong duidelijker vast.

Voor meertalige content is Whisper de enige echte optie. Parakeet's meertalige varianten bestaan maar ik heb ze niet zien evenaren met Whisper Large op talen buiten het Engels.

RAM

Apple Silicon Macs hebben unified memory, en het model laadt in dezelfde pool als al het andere. RAM-gebruik is van belang als je 8 of 16 GB hebt en je machine wilt blijven gebruiken tijdens het transcriberen.

Engine Model RAM (geladen)
Whisper Tiny ~400 MB
Whisper Base ~500 MB
Whisper Small ~1 GB
Whisper Medium ~2,5 GB
Whisper Large-v3 ~5 GB
Parakeet TDT-1.1B ~1,2 GB

Als je op 8 GB zit en VS Code, een browser en Slack open wilt houden, is Whisper Large-v3 zwaar. Parakeet op 1,2 GB of Whisper Small op 1 GB zijn de praktische opties op die geheugenniveau.

Op 16 GB kun je alles comfortabel draaien. Op 32 GB en hoger denk je er niet eens over na.

Latentie voor dictation

Snelheid en RTF vertellen je over throughput bij lange bestanden. Voor dictation gaat het erom hoe snel het eerste woord verschijnt nadat je stopt met praten.

Gemeten op M2, 5-seconden uiting, microfoon naar tekst:

Engine First-token latentie Volledig resultaat
Whisper Tiny 180 ms 250 ms
Whisper Small 350 ms 500 ms
Whisper Medium 700 ms 1100 ms
Whisper Large-v3 1400 ms 2200 ms
Parakeet TDT-1.1B 80 ms 150 ms

Parakeet's streaming output maakt dat het direct aanvoelt. Whisper Tiny en Small zijn ook snel genoeg om responsief aan te voelen. Alles vanaf Medium of groter introduceert een merkbare wachttijd — prima voor bestanden, minder prima voor dictation.

Wanneer welke kiezen

Gebruik Parakeet als:

  • Je voornamelijk in het Engels dicteert
  • Je de laagst mogelijke latentie wilt
  • Je op een Mac zit met beperkt RAM
  • Je lange bestanden transcribeert en ze snel afgewerkt wilt hebben

Gebruik Whisper Small of Medium als:

  • Je meertalige ondersteuning nodig hebt (99+ talen)
  • Je nauwkeurigheid wilt zonder de RAM-hit van Large-v3
  • Je op 16 GB zit en een gebalanceerde keuze wilt

Gebruik Whisper Large-v3 als:

  • Je vergaderingen of belangrijke bestanden transcribeert waar elke fout je iets kost
  • Je 32 GB+ hebt en niet om RAM geeft
  • Je werkt met lawaaierige audio, zware accenten of technische vocabulaire
  • De taak toch offline draait, dus RTF doet er niet veel toe

Hoe zit het met cloud-equivalente nauwkeurigheid?

De clouddiensten (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) rapporteren meestal 3,5–4,5% WER op standaard benchmarks. Dat is ongeveer Whisper Large-v3 territorium.

De nauwkeurigheidskloof tussen lokaal en cloud is echt maar klein — meestal 0,5–1% WER op schone audio, meer op moeilijke audio. Voor de meeste use cases (dictation, vergaderingen, notities) is het niet merkbaar. Clouddiensten winnen bij edge cases: zware accenten waar je geen modeldekking voor hebt, zeldzame technische vocabulaire, audio van zeer lage kwaliteit.

Apps en welke engines ze gebruiken

Als je niet wilt nadenken over engines, hier is wat mainstream Mac-apps standaard gebruiken:

  • Vext — Parakeet standaard, Whisper beschikbaar als optie
  • MacWhisper — Whisper, model selecteerbaar
  • Superwhisper — Whisper, model selecteerbaar
  • VoiceInk — Whisper
  • FluidVoice — Parakeet-ondersteuning
  • Apple Dictation — Apple's eigen foundation model (geen Whisper of Parakeet)

De verdeling tussen "Parakeet standaard" en "Whisper standaard" weerspiegelt meestal of de app dictation-first (Parakeet) of bestandstranscriptie-first (Whisper) is.

De conclusie

Voor de meeste mensen, op een huidige Mac, die in het Engels dicteren: Parakeet. De latentie voelt anders — tekst verschijnt terwijl je spreekt in plaats van nadat je klaar bent.

Voor vergaderingen, bestanden of meertalig werk: Whisper Medium of Large-v3.

Je kunt beide hebben. De meeste apps laten je per taak kiezen.