Mac पर ऑफलाइन वॉइस टू टेक्स्ट — लोकल स्पीच रिकग्निशन कैसे काम करती है

वॉइस ट्रांसक्रिप्शन में एक शांत बदलाव हो रहा है। पाँच साल पहले, जो कुछ भी अच्छा था वह क्लाउड में चलता था। Apple Silicon ने गणित बदल दी — M1 के बाद से neural engine के साथ शिप होते हैं जो वास्तविक स्पीच रिकग्निशन मॉडल को ऑन-डिवाइस चलाने के लिए पर्याप्त तेज़ हैं, और अधिकांश कार्यभार के लिए क्लाउड और लोकल के बीच का अंतर लगभग शून्य हो गया है।

यह गाइड कवर करती है कि Mac पर ऑफलाइन वॉइस-टू-टेक्स्ट का वास्तव में क्या मतलब है, अंतर्निहित तकनीक कैसे काम करती है, और कौन से टूल उपयोग करने योग्य हैं।

"ऑफलाइन" व्यवहार्य क्यों बन गया

स्पीच रिकग्निशन एक क्लाउड समस्या हुआ करती थी क्योंकि मॉडल वास्तविक समय में उपभोक्ता हार्डवेयर पर चलाने के लिए बहुत बड़े थे। Whisper-Large लगभग 1.5 GB है। इसे संवादात्मक गति पर चलाने के लिए गंभीर कंप्यूट चाहिए।

क्या बदला:

Apple Silicon का neural engine M1 बेस पर लगभग 11–15 TOPS कर सकता है, M3 Pro और उससे आगे पर 38 TOPS तक स्केल। यह Whisper-Medium या Parakeet को वास्तविक समय से तेज़ चलाने के लिए पर्याप्त है।
छोटे मॉडल बेहतर हुए। Parakeet (NVIDIA का RNN-T मॉडल) Whisper के आकार के एक अंश पर प्रतिस्पर्धी सटीकता मारता है और M-series chips पर लगभग 150x वास्तविक समय पर चलता है।
CoreML और Metal इतने परिपक्व हुए कि Whisper.cpp और समान कार्यान्वयन वास्तव में हार्डवेयर का सही उपयोग करते हैं CPU को pin करने के बजाय।

परिणाम: अब आप एक MacBook Air पर डिक्टेशन कर सकते हैं, एक मीटिंग ट्रांसक्राइब कर सकते हैं, या एक घंटे की फ़ाइल को स्थानीय रूप से प्रोसेस कर सकते हैं बिना पंखे चालू हुए।

"ऑफलाइन" आपको वास्तव में क्या देता है

गोपनीयता स्पष्ट है — आपका ऑडियो कहीं नहीं जाता। लेकिन व्यावहारिक लाभ हैं जो दैनिक मायने रखते हैं:

लेटेंसी चली गई। क्लाउड ट्रांसक्रिप्शन में एक नेटवर्क राउंड-ट्रिप होती है। तेज़ कनेक्शन पर भी, यह प्रति अनुरोध 50–200ms ओवरहेड है। लोकल inference उतनी तेज़ी से परिणाम लौटाती है जितनी जल्दी मॉडल उन्हें उत्पन्न कर सकता है, जो Apple Silicon पर आमतौर पर एक छोटे उच्चारण के लिए कुल 200ms से कम है।

ऑफलाइन काम करता है। उड़ानें, ट्रेनें, होटल वाई-फ़ाई, सुरक्षित सुविधाएँ, कॉन्फ्रेंस वाई-फ़ाई जो सब कुछ throttle करती है। यदि मॉडल आपकी मशीन पर है तो इनमें से कुछ भी मायने नहीं रखता।

कोई सब्सक्रिप्शन नहीं। क्लाउड सेवाएँ मिनट या महीने के हिसाब से शुल्क लेती हैं। लोकल ऐप्स आमतौर पर एक बार की खरीद या मुफ़्त होते हैं।

कोई वेंडर लॉक-इन नहीं। आपके ट्रांसक्रिप्ट आपके फ़ाइल सिस्टम में रहते हैं। यदि ऐप बनाने वाली कंपनी बंद हो जाती है, आपका डेटा ठीक है।

अनुमानित। क्लाउड सेवाएँ कीमतें बदलती हैं, APIs deprecate करती हैं, और दर-सीमा लगाती हैं। लोकल टूल बस काम करते रहते हैं।

Mac पर ऑन-डिवाइस स्पीच रिकग्निशन कैसे काम करती है

Apple Silicon पर दो मॉडल फ़ैमिली का दबदबा है:

OpenAI Whisper

Whisper एक encoder-decoder transformer है जो 680,000 घंटे की बहुभाषी भाषण पर प्रशिक्षित है। यह ओपन-वेट है, कई आकारों (Tiny, Base, Small, Medium, Large) में आता है, और 99+ भाषाओं को संभालता है।

M-series Macs पर आकार और मोटे trade-off:

मॉडल	आकार	RAM	गति (M2)	WER (अंग्रेज़ी)
Tiny	75 MB	~400 MB	~30x रियलटाइम	~9%
Base	142 MB	~500 MB	~20x रियलटाइम	~7%
Small	466 MB	~1 GB	~10x रियलटाइम	~5.5%
Medium	1.5 GB	~2.5 GB	~5x रियलटाइम	~4.8%
Large-v3	3 GB	~5 GB	~2x रियलटाइम	~4.2%

बड़े मॉडल अधिक सटीक हैं लेकिन अधिक RAM का उपयोग करते हैं और धीरे चलते हैं। अधिकांश डिक्टेशन के लिए, Small या Medium sweet spot हैं। मीटिंग या फ़ाइलों के लिए जहाँ आप सर्वोत्तम सटीकता चाहते हैं, Large-v3।

NVIDIA Parakeet

Parakeet एक RNN-T मॉडल है (recurrent neural network transducer)। यह समान सटीकता पर Whisper से तेज़ है, डिफ़ॉल्ट रूप से केवल अंग्रेज़ी, और M2 पर लगभग 150x वास्तविक समय पर चलता है।

Parakeet अंग्रेज़ी डिक्टेशन के लिए बेहतर डिफ़ॉल्ट है क्योंकि लेटेंसी का लाभ बहुत बड़ा है — आप शायद ही ध्यान दें कि मॉडल चल रहा है। नुकसान एकल-भाषा समर्थन है। यदि आपको बहुभाषी ट्रांसक्रिप्शन चाहिए, Whisper विकल्प है।

अधिकांश आधुनिक Mac ऐप्स आपको प्रति कार्य उपयोग करने वाला engine चुनने देते हैं।

ट्रांसक्रिप्शन से परे क्या स्थानीय रूप से चलता है

स्पीच रिकग्निशन तस्वीर का केवल आधा है। डिक्टेशन के लिए पूरी पाइपलाइन आमतौर पर ऐसी दिखती है:

ऑडियो कैप्चर — माइक्रोफ़ोन इनपुट या सिस्टम ऑडियो।
स्पीच रिकग्निशन — Whisper या Parakeet कच्चा टेक्स्ट उत्पन्न करता है।
पोस्ट-प्रोसेसिंग — विराम चिह्न, कैपिटलाइज़ेशन, भराव शब्द हटाना।
वैकल्पिक: LLM सफ़ाई — एक लोकल भाषा मॉडल टेक्स्ट को पॉलिश किए हुए लेखन की तरह पढ़ने के लिए फिर से लिखता है।
वैकल्पिक: अनुवाद — इनपुट से अलग भाषा में आउटपुट।

चरण 4 और 5 छोटे लोकल LLM (Gemma 3 4B, Qwen 3 4B, LLaMA 3.2 3B) का उपयोग करते हैं जो llama.cpp या MLX के माध्यम से चलते हैं। ये प्रत्येक लगभग 2–4 GB हैं और M-series chips पर संवादात्मक गति पर चलते हैं। आउटपुट कच्चे ट्रांसक्रिप्ट के बजाय संपादित लेखन की तरह पढ़ता है।

मीटिंग ट्रांसक्रिप्शन दो और घटक जोड़ता है:

स्पीकर डायराइज़ेशन — किसने क्या कहा यह पता लगाना। आवाज़ विशेषताओं के neural embeddings के साथ किया जाता है, सब लोकल।
सारांश — एक्शन आइटम और मुख्य निर्णय निकालने के लिए "इस मीटिंग का सारांश दें" प्रॉम्प्ट के साथ ट्रांसक्रिप्ट को एक लोकल LLM को feed करना।

इनमें से किसी को अब क्लाउड की ज़रूरत नहीं है।

टूल जो यह अच्छी तरह करते हैं

मुफ़्त या कम-कीमत:

Apple Dictation — macOS में बिल्ट-इन, ऑन-डिवाइस वेरिएंट के लिए ऑन-डिवाइस। छोटे डिक्टेशन तक सीमित।
MacWhisper — फ़ाइल ट्रांसक्रिप्शन के लिए मुफ़्त, लाइव डिक्टेशन के लिए €64 Pro।
VoiceInk — ओपन-सोर्स, $25–49 एक बार।
FluidVoice — मुफ़्त, ओपन-सोर्स, Parakeet का समर्थन करता है।

व्यापक scope के साथ पेड:

Vext — $49 एक बार, डिक्टेशन प्लस मीटिंग प्लस अनुवाद, सब लोकल।
Superwhisper — $249 लाइफ़टाइम, कस्टम मोड के साथ डिक्टेशन-केंद्रित।
Voibe — $198 लाइफ़टाइम, गोपनीयता-केंद्रित डिक्टेशन।

इनके बीच विभाजन अधिकतर फ़ीचर scope के बारे में है। लोकल-बनाम-क्लाउड trade-off तय हो गया है — लोकल वास्तव में सटीकता पर प्रतिस्पर्धी है और लेटेंसी पर तेज़ है। क्लाउड सेवाओं की शीर्ष पंक्ति (Otter Premium, Rev) के नीचे जो कुछ भी है, उसे आपके laptop पर जो चलता है उसके द्वारा मिलाया या हराया जाता है।

क्लाउड अभी भी कब जीतता है

ईमानदार होने के लिए: क्लाउड सेवाओं के पास अभी भी विशिष्ट मामलों में फ़ायदे हैं।

टीम सहयोग। Otter, Fireflies, Granola — इनके पास साझा ट्रांसक्रिप्ट लाइब्रेरी, टिप्पणियाँ, रियल-टाइम co-watching हैं। यदि आपके वर्कफ़्लो में कई लोग समान ट्रांसक्रिप्ट पर काम करते हैं, क्लाउड उसके लिए बनाया गया है।

उद्योग-विशिष्ट सटीकता। चिकित्सा, कानूनी, और तकनीकी डोमेन में उद्योग शब्दावली पर प्रशिक्षित विशेष क्लाउड मॉडल हैं जो स्थानीय Whisper या Parakeet fine-tuning के बिना नहीं मिलाएँगे।

क्रॉस-प्लेटफ़ॉर्म। यदि आप लगातार Mac, Windows, और iPhone के बीच स्विच करते हैं, एक क्लाउड सेवा उन सभी के बीच sync करती है।

Mac पर एकल काम के लिए, इनमें से कोई भी आमतौर पर मायने नहीं रखता। विनियमित उद्योगों में टीम काम के लिए, हो सकता है।

लोकल वॉइस-टू-टेक्स्ट सेट अप करना

तीन चरण:

एक ऐप चुनें। अधिकांश लोगों के लिए, सही उत्तर MacWhisper (मुफ़्त ट्रायल), Vext (मुफ़्त ट्रायल), या Superwhisper (मुफ़्त ट्रायल) में से एक है। एक आज़माएं, देखें कि यह फ़िट होता है या नहीं।
मॉडल डाउनलोड करें। पहला रन 600 MB से 3 GB डाउनलोड करता है इस बात पर निर्भर करता है कि आप कौन सा मॉडल चुनते हैं। उसके बाद, यह बस काम करता है।
एक हॉटकी सेट करें। अधिकांश ऐप्स fn या right-shift ट्रिगर पर डिफ़ॉल्ट होते हैं। कुछ ऐसा चुनें जिसे आप बिना सोचे hit कर सकें।

यही पूरा सेटअप है। कोई अकाउंट नहीं, कोई API keys नहीं, कोई usage tier नहीं।

व्यावहारिक निष्कर्ष

Mac पर ऑफलाइन वॉइस-टू-टेक्स्ट ने 2023 में समझौता होना बंद कर दिया और अधिकांश use cases के लिए 2024 के अंत तक "वास्तव में क्लाउड से बेहतर" में पार कर गया। लेटेंसी कम है, गोपनीयता वास्तविक है, और कीमत मासिक के बजाय एक बार है।

यदि आप आदत से क्लाउड डिक्टेशन उपयोग कर रहे हैं, एक लोकल विकल्प आज़माना सार्थक है। आप कुछ साल पहले से जिस अंतर को याद कर सकते हैं वह अब वहाँ नहीं है।