यदि आप Mac पर एक लोकल स्पीच रिकग्निशन एंजिन चुन रहे हैं, चुनाव आमतौर पर दो में आता है: OpenAI Whisper और NVIDIA Parakeet। दोनों Apple Silicon पर अच्छी तरह चलते हैं, दोनों खुले हैं। वे अलग-अलग trade-off बनाते हैं, और सही चुनाव इस बात पर निर्भर करता है कि आप क्या ट्रांसक्राइब कर रहे हैं।
यह M2 और M3 Macs पर मेरे द्वारा चलाए गए बेंचमार्क पर आधारित एक सीधी तुलना है।
संक्षिप्त संस्करण
- Parakeet तेज़ है और कम RAM का उपयोग करता है, लेकिन केवल अंग्रेज़ी।
- Whisper Large-v3 कठिन ऑडियो पर अधिक सटीक है और 99+ भाषाओं को संभालता है।
- अंग्रेज़ी डिक्टेशन के लिए: Parakeet जीतता है।
- मीटिंग, फ़ाइलें, या बहुभाषी कंटेंट के लिए: Whisper।
अंतर लोगों के सोचने से छोटा है। दोनों इतने अच्छे हैं कि अधिकांश उपयोगकर्ता साफ़ ऑडियो पर सटीकता अंतर नहीं देखेंगे।
प्रत्येक क्या है
OpenAI Whisper एक encoder-decoder transformer है जो 680,000 घंटे की बहुभाषी भाषण पर प्रशिक्षित है। 2022 में ओपन-वेट जारी किया गया, बाद में v2 और v3 के साथ। आकार Tiny (75 MB) से Large-v3 (3 GB) तक।
NVIDIA Parakeet एक RNN-T मॉडल है — recurrent neural network transducer। NVIDIA ने इसे NeMo के माध्यम से जारी किया। यह छोटा, तेज़ है, और डिफ़ॉल्ट रूप से केवल अंग्रेज़ी (बहुभाषी variants हैं लेकिन कम परिपक्व)।
वास्तुकला अंतर मायने रखता है: Whisper 30-सेकंड विंडो को एक transformer के साथ प्रोसेस करता है जो महंगा लेकिन लचीला है। Parakeet ऑडियो को एक RNN के माध्यम से स्ट्रीम करता है जो वृद्धिशील और सस्ता पाठ उत्पन्न करता है।
गति
गति real-time factor (RTF) के रूप में मापी जाती है। 1x का अर्थ है मॉडल ऑडियो जितना ही समय लेता है। 10x का अर्थ है यह 1 मिनट में 10 मिनट की फ़ाइल प्रोसेस करता है। अधिक तेज़ है।
LibriSpeech test-clean सेट के विरुद्ध मापे गए M2 (8-कोर GPU, 16 GB RAM) पर बेंचमार्क:
| एंजिन | मॉडल | RTF (M2) | RTF (M3 Pro) |
|---|---|---|---|
| Whisper | Tiny | 30x | 45x |
| Whisper | Base | 20x | 32x |
| Whisper | Small | 10x | 18x |
| Whisper | Medium | 5x | 9x |
| Whisper | Large-v3 | 2x | 4x |
| Parakeet | TDT-1.1B | 150x | 220x |
Parakeet समकक्ष-सटीकता Whisper मॉडल से लगभग 20–50x तेज़ है। डिक्टेशन के लिए यह तत्काल टेक्स्ट दिखाई देने और आधा सेकंड प्रतीक्षा करने के बीच का अंतर है।
सटीकता
मानक अंग्रेज़ी बेंचमार्क पर Word error rate (WER)। कम बेहतर है। ये संख्याएँ टेस्ट सेट में भिन्न होती हैं — जो आगे आता है वह LibriSpeech test-clean से है, जो अपेक्षाकृत साफ़ पठन-भाषण corpus है। कठिन ऑडियो (शोरगुल, उच्चारित, तकनीकी) पर दोनों के लिए संख्याएँ ऊपर जाती हैं।
| एंजिन | WER (LibriSpeech) | WER (CommonVoice) |
|---|---|---|
| Whisper Tiny | 9.0% | 14% |
| Whisper Base | 7.0% | 11% |
| Whisper Small | 5.5% | 8% |
| Whisper Medium | 4.8% | 7% |
| Whisper Large-v3 | 4.2% | 5.5% |
| Parakeet TDT-1.1B | 4.5% | 6.5% |
साफ़ अंग्रेज़ी पर, Parakeet Whisper Medium को मिलाता है और Whisper Large-v3 के पास पहुँचता है। अंतर छोटा है। शोरगुल या उच्चारित अंग्रेज़ी पर, Whisper Large-v3 अपनी बढ़त को अधिक स्पष्ट रूप से धारण करता है।
बहुभाषी कंटेंट के लिए, Whisper एकमात्र वास्तविक विकल्प है। Parakeet के बहुभाषी variants मौजूद हैं लेकिन मैंने उन्हें अंग्रेज़ी के बाहर भाषाओं पर Whisper Large से मिलते नहीं देखा है।
RAM
Apple Silicon Macs में unified memory होती है, और मॉडल बाकी सब चीज़ों के समान पूल में लोड होता है। यदि आपके पास 8 या 16 GB है और ट्रांसक्राइब करते समय अपनी मशीन का उपयोग जारी रखना चाहते हैं तो RAM का उपयोग मायने रखता है।
| एंजिन | मॉडल | RAM (लोड) |
|---|---|---|
| Whisper | Tiny | ~400 MB |
| Whisper | Base | ~500 MB |
| Whisper | Small | ~1 GB |
| Whisper | Medium | ~2.5 GB |
| Whisper | Large-v3 | ~5 GB |
| Parakeet | TDT-1.1B | ~1.2 GB |
यदि आप 8 GB पर हैं और VS Code, एक ब्राउज़र, और Slack खुले रखना चाहते हैं, Whisper Large-v3 कठिन है। 1.2 GB पर Parakeet या 1 GB पर Whisper Small उस मेमोरी स्तर पर व्यावहारिक विकल्प हैं।
16 GB पर आप किसी भी चीज़ को आराम से चला सकते हैं। 32 GB और उससे ऊपर पर आप इसके बारे में सोचते भी नहीं।
डिक्टेशन के लिए लेटेंसी
गति और RTF आपको लंबी फ़ाइलों पर throughput बताते हैं। डिक्टेशन के लिए, जो मायने रखता है वह यह है कि बोलना बंद करने के बाद पहला शब्द कितनी जल्दी प्रकट होता है।
M2 पर मापा गया, 5-सेकंड उच्चारण, माइक से टेक्स्ट तक:
| एंजिन | पहला-टोकन लेटेंसी | पूर्ण परिणाम |
|---|---|---|
| Whisper Tiny | 180 ms | 250 ms |
| Whisper Small | 350 ms | 500 ms |
| Whisper Medium | 700 ms | 1100 ms |
| Whisper Large-v3 | 1400 ms | 2200 ms |
| Parakeet TDT-1.1B | 80 ms | 150 ms |
Parakeet का स्ट्रीमिंग आउटपुट इसे तत्काल महसूस कराता है। Whisper Tiny और Small भी प्रतिक्रियाशील महसूस होने के लिए पर्याप्त तेज़ हैं। Medium या बड़ा कुछ भी एक उल्लेखनीय प्रतीक्षा introduces करता है — फ़ाइलों के लिए ठीक, डिक्टेशन के लिए कम।
कब कौन सा चुनें
Parakeet उपयोग करें यदि:
- आप मुख्य रूप से अंग्रेज़ी में डिक्टेट करते हैं
- आप संभव सबसे कम लेटेंसी चाहते हैं
- आप सीमित RAM वाले Mac पर हैं
- आप लंबी फ़ाइलें ट्रांसक्राइब कर रहे हैं और उन्हें जल्दी करना चाहते हैं
Whisper Small या Medium उपयोग करें यदि:
- आपको बहुभाषी समर्थन चाहिए (99+ भाषाएँ)
- आप Large-v3 के RAM हिट के बिना सटीकता चाहते हैं
- आप 16 GB पर हैं और एक संतुलित चुनाव चाहते हैं
Whisper Large-v3 उपयोग करें यदि:
- आप मीटिंग या महत्वपूर्ण फ़ाइलें ट्रांसक्राइब कर रहे हैं जहाँ हर त्रुटि आपको खर्च करती है
- आपके पास 32 GB+ है और RAM की परवाह नहीं है
- आप शोरगुल वाले ऑडियो, भारी उच्चारण, या तकनीकी शब्दावली के साथ काम कर रहे हैं
- काम वैसे भी ऑफलाइन चलता है, तो RTF मायने नहीं रखता
क्लाउड-समतुल्य सटीकता के बारे में क्या?
क्लाउड सेवाएँ (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) आमतौर पर मानक बेंचमार्क पर 3.5–4.5% WER रिपोर्ट करती हैं। यह लगभग Whisper Large-v3 का क्षेत्र है।
लोकल और क्लाउड के बीच सटीकता अंतर वास्तविक है लेकिन छोटा — आमतौर पर साफ़ ऑडियो पर 0.5–1% WER, कठिन ऑडियो पर अधिक। अधिकांश उपयोग मामलों (डिक्टेशन, मीटिंग, नोट्स) के लिए, यह ध्यान देने योग्य नहीं है। क्लाउड सेवाएँ किनारे के मामलों में जीतती हैं: भारी उच्चारण जिसके लिए आपके पास मॉडल कवरेज नहीं है, दुर्लभ तकनीकी शब्दावली, बहुत निम्न-गुणवत्ता वाला ऑडियो।
ऐप्स और वे कौन से एंजिन उपयोग करते हैं
यदि आप एंजिनों के बारे में सोचना नहीं चाहते, यहाँ है मुख्यधारा Mac ऐप्स डिफ़ॉल्ट रूप से क्या उपयोग करते हैं:
- Vext — डिफ़ॉल्ट रूप से Parakeet, Whisper विकल्प के रूप में उपलब्ध
- MacWhisper — Whisper, मॉडल चयन योग्य
- Superwhisper — Whisper, मॉडल चयन योग्य
- VoiceInk — Whisper
- FluidVoice — Parakeet समर्थन
- Apple Dictation — Apple का अपना फाउंडेशन मॉडल (Whisper या Parakeet नहीं)
"डिफ़ॉल्ट रूप से Parakeet" और "डिफ़ॉल्ट रूप से Whisper" के बीच विभाजन आमतौर पर इस बात को दर्शाता है कि ऐप डिक्टेशन-फ़र्स्ट (Parakeet) है या फ़ाइल-ट्रांसक्रिप्शन-फ़र्स्ट (Whisper)।
निचली पंक्ति
अधिकांश लोगों के लिए, वर्तमान Mac पर, अंग्रेज़ी में डिक्टेट करते हुए: Parakeet। लेटेंसी अलग महसूस होती है — टेक्स्ट आप जैसे बोलते हैं वैसे प्रकट होता है बजाय खत्म करने के बाद।
मीटिंग, फ़ाइलें, या बहुभाषी काम के लिए: Whisper Medium या Large-v3।
आप दोनों रख सकते हैं। अधिकांश ऐप्स आपको प्रति कार्य चुनने देते हैं।