Offline spraak-naar-tekst op Mac — Hoe lokale spraakherkenning werkt

Er vindt een stille verschuiving plaats in spraaktranscriptie. Vijf jaar geleden draaide alles wat goed was in de cloud. Apple Silicon veranderde de rekensom — vanaf de M1 werden er neural engines geleverd die snel genoeg waren om echte spraakherkenningsmodellen on-device te draaien, en de kloof tussen cloud en lokaal is voor de meeste werkbelastingen bijna nul geworden.

Deze gids behandelt wat offline spraak-naar-tekst op Mac eigenlijk betekent, hoe de onderliggende technologie werkt en welke tools het gebruiken waard zijn.

Waarom "offline" levensvatbaar werd

Spraakherkenning was vroeger een cloudprobleem omdat de modellen te groot waren om in real-time op consumentenhardware te draaien. Whisper-Large is ongeveer 1,5 GB. Het op gespreksnelheid draaien vereist serieuze rekenkracht.

Wat er veranderde:

Apple Silicon's neural engine kan ongeveer 11–15 TOPS doen op M1 base, oplopend tot 38 TOPS op M3 Pro en hoger. Dat is genoeg ruimte voor Whisper-Medium of Parakeet om sneller dan real-time te draaien.
Kleinere modellen werden beter. Parakeet (NVIDIA's RNN-T model) haalt competitieve nauwkeurigheid op een fractie van Whisper's grootte en draait op ongeveer 150x real-time op M-serie chips.
CoreML en Metal werden volwassen genoeg dat Whisper.cpp en vergelijkbare implementaties de hardware daadwerkelijk goed gebruiken in plaats van de CPU vol te zetten.

Het resultaat: je kunt nu dictation doen, een vergadering transcriberen of een bestand van een uur lokaal verwerken op een MacBook Air zonder dat de ventilatoren zelfs maar gaan draaien.

Wat "offline" je daadwerkelijk oplevert

Privacy is de voor de hand liggende — je audio gaat nergens heen. Maar er zijn praktische voordelen die dagelijks van belang zijn:

Latentie is weg. Cloud-transcriptie heeft een netwerk-round-trip. Zelfs op een snelle verbinding is dat 50–200ms overhead per verzoek. Lokale inferentie levert resultaten zo snel als het model ze kan produceren, wat op Apple Silicon meestal onder de 200ms totaal is voor een korte uiting.

Werkt offline. Vluchten, treinen, hotel-wifi, beveiligde faciliteiten, conferentie-wifi die alles throttelt. Niets van dit alles maakt uit als het model op je machine staat.

Geen abonnement. Clouddiensten rekenen per minuut of per maand. Lokale apps zijn meestal eenmalige aankopen of gratis.

Geen vendor lock-in. Je transcripten leven in je filesystem. Als het bedrijf dat de app heeft gemaakt sluit, is je data prima.

Voorspelbaar. Clouddiensten veranderen prijzen, beëindigen API's en rate-limiten. Lokale tools blijven gewoon werken.

Hoe on-device spraakherkenning werkt op Mac

Twee modelfamilies domineren op Apple Silicon:

OpenAI Whisper

Whisper is een encoder-decoder transformer getraind op 680.000 uur meertalige spraak. Het is open-weight, beschikbaar in meerdere groottes (Tiny, Base, Small, Medium, Large) en ondersteunt 99+ talen.

Groottes en ruwe afwegingen op M-serie Macs:

Model	Grootte	RAM	Snelheid (M2)	WER (Engels)
Tiny	75 MB	~400 MB	~30x realtime	~9%
Base	142 MB	~500 MB	~20x realtime	~7%
Small	466 MB	~1 GB	~10x realtime	~5,5%
Medium	1.5 GB	~2,5 GB	~5x realtime	~4,8%
Large-v3	3 GB	~5 GB	~2x realtime	~4,2%

Grotere modellen zijn nauwkeuriger maar gebruiken meer RAM en draaien trager. Voor de meeste dictation is Small of Medium de sweet spot. Voor vergaderingen of bestanden waar je de beste nauwkeurigheid wilt, Large-v3.

NVIDIA Parakeet

Parakeet is een RNN-T model (recurrent neural network transducer). Het is sneller dan Whisper bij vergelijkbare nauwkeurigheid, standaard Engels-alleen, en draait op ongeveer 150x real-time op M2.

Parakeet is de betere standaard voor Engelse dictation omdat het latentievoordeel enorm is — je merkt nauwelijks dat het model draait. Het nadeel is ondersteuning voor één taal. Als je meertalige transcriptie nodig hebt, is Whisper de keuze.

De meeste moderne Mac-apps laten je per taak kiezen welke engine je wilt gebruiken.

Wat lokaal draait naast transcriptie

Spraakherkenning is slechts de helft van het verhaal. De volledige pipeline voor dictation ziet er meestal zo uit:

Audio-opname — microfooninvoer of systeemaudio.
Spraakherkenning — Whisper of Parakeet produceert ruwe tekst.
Post-processing — interpunctie, hoofdletters, verwijdering van stopwoorden.
Optioneel: LLM cleanup — een lokaal taalmodel herschrijft de tekst zodat die leest als gepolijst schrijfwerk.
Optioneel: Vertaling — uitvoer in een andere taal dan de invoer.

Stappen 4 en 5 gebruiken kleine lokale LLMs (Gemma 3 4B, Qwen 3 4B, LLaMA 3.2 3B) die draaien via llama.cpp of MLX. Deze zijn elk ongeveer 2–4 GB en draaien op gespreksnelheid op M-serie chips. De uitvoer leest als geredigeerd schrijfwerk in plaats van een ruw transcript.

Vergadertranscriptie voegt twee componenten toe:

Spreker-diarisatie — uitzoeken wie wat zei. Gedaan met neurale embeddings van stemkenmerken, allemaal lokaal.
Samenvatting — het transcript voeden aan een lokale LLM met een "vat deze vergadering samen" prompt om actiepunten en kernbeslissingen te extraheren.

Niets daarvan heeft de cloud meer nodig.

Tools die dit goed doen

Gratis of goedkoop:

Apple Dictation — ingebouwd in macOS, on-device voor de on-device variant. Beperkt tot korte dictation.
MacWhisper — gratis voor bestandstranscriptie, €64 Pro voor live dictation.
VoiceInk — open-source, $25–49 eenmalig.
FluidVoice — gratis, open-source, ondersteunt Parakeet.

Betaald met bredere scope:

Vext — $49 eenmalig, dictation plus vergaderingen plus vertaling, allemaal lokaal.
Superwhisper — $249 lifetime, dictation-gericht met custom modes.
Voibe — $198 lifetime, privacy-gerichte dictation.

De verdeling tussen deze gaat vooral over functieomvang. De lokaal-vs-cloud trade-off is beslecht — lokaal is echt competitief qua nauwkeurigheid en sneller qua latentie. Alles onder de topklasse van clouddiensten (Otter Premium, Rev) wordt geëvenaard of overtroffen door wat op je laptop draait.

Wanneer cloud nog wint

Om er eerlijk over te zijn: clouddiensten hebben nog steeds voordelen in specifieke gevallen.

Teamsamenwerking. Otter, Fireflies, Granola — deze hebben gedeelde transcriptbibliotheken, opmerkingen, real-time co-watching. Als je workflow meerdere mensen omvat die aan dezelfde transcripten werken, is cloud daarvoor gebouwd.

Branchespecifieke nauwkeurigheid. Medische, juridische en technische domeinen hebben gespecialiseerde cloudmodellen die zijn getraind op branchevocabulaire die lokale Whisper of Parakeet niet zal evenaren zonder fine-tuning.

Cross-platform. Als je constant schakelt tussen Mac, Windows en iPhone, synct een clouddienst over al die platforms.

Voor solo-werk op een Mac doet niets daarvan meestal ertoe. Voor teamwerk in gereguleerde sectoren misschien wel.

Lokale spraak-naar-tekst instellen

Drie stappen:

Kies een app. Voor de meeste mensen is het juiste antwoord een van MacWhisper (gratis proefversie), Vext (gratis proefversie) of Superwhisper (gratis proefversie). Probeer er een, kijk of het past.
Download het model. De eerste run downloadt 600 MB tot 3 GB afhankelijk van welk model je kiest. Daarna werkt het gewoon.
Stel een hotkey in. De meeste apps standaardiseren op een fn- of right-shift trigger. Kies iets dat je zonder nadenken kunt indrukken.

Dat is de volledige setup. Geen accounts, geen API keys, geen gebruikslimieten.

De praktische uitkomst

Offline spraak-naar-tekst op Mac was geen compromis meer vanaf 2023 en stak in de "daadwerkelijk beter dan cloud" zone tegen eind 2024 voor de meeste use cases. De latentie is lager, de privacy is echt en de prijs is eenmalig in plaats van maandelijks.

Als je uit gewoonte cloud-dictation hebt gebruikt, is het de moeite waard om een lokaal alternatief te proberen. De kloof die je je misschien van een paar jaar geleden herinnert, is er niet meer.