Apple Silicon पर Whisper vs Parakeet — गति, सटीकता, RAM

यदि आप Mac पर एक लोकल स्पीच रिकग्निशन एंजिन चुन रहे हैं, चुनाव आमतौर पर दो में आता है: OpenAI Whisper और NVIDIA Parakeet। दोनों Apple Silicon पर अच्छी तरह चलते हैं, दोनों खुले हैं। वे अलग-अलग trade-off बनाते हैं, और सही चुनाव इस बात पर निर्भर करता है कि आप क्या ट्रांसक्राइब कर रहे हैं।

यह M2 और M3 Macs पर मेरे द्वारा चलाए गए बेंचमार्क पर आधारित एक सीधी तुलना है।

संक्षिप्त संस्करण

Parakeet तेज़ है और कम RAM का उपयोग करता है, लेकिन केवल अंग्रेज़ी।
Whisper Large-v3 कठिन ऑडियो पर अधिक सटीक है और 99+ भाषाओं को संभालता है।
अंग्रेज़ी डिक्टेशन के लिए: Parakeet जीतता है।
मीटिंग, फ़ाइलें, या बहुभाषी कंटेंट के लिए: Whisper।

अंतर लोगों के सोचने से छोटा है। दोनों इतने अच्छे हैं कि अधिकांश उपयोगकर्ता साफ़ ऑडियो पर सटीकता अंतर नहीं देखेंगे।

प्रत्येक क्या है

OpenAI Whisper एक encoder-decoder transformer है जो 680,000 घंटे की बहुभाषी भाषण पर प्रशिक्षित है। 2022 में ओपन-वेट जारी किया गया, बाद में v2 और v3 के साथ। आकार Tiny (75 MB) से Large-v3 (3 GB) तक।

NVIDIA Parakeet एक RNN-T मॉडल है — recurrent neural network transducer। NVIDIA ने इसे NeMo के माध्यम से जारी किया। यह छोटा, तेज़ है, और डिफ़ॉल्ट रूप से केवल अंग्रेज़ी (बहुभाषी variants हैं लेकिन कम परिपक्व)।

वास्तुकला अंतर मायने रखता है: Whisper 30-सेकंड विंडो को एक transformer के साथ प्रोसेस करता है जो महंगा लेकिन लचीला है। Parakeet ऑडियो को एक RNN के माध्यम से स्ट्रीम करता है जो वृद्धिशील और सस्ता पाठ उत्पन्न करता है।

गति

गति real-time factor (RTF) के रूप में मापी जाती है। 1x का अर्थ है मॉडल ऑडियो जितना ही समय लेता है। 10x का अर्थ है यह 1 मिनट में 10 मिनट की फ़ाइल प्रोसेस करता है। अधिक तेज़ है।

LibriSpeech test-clean सेट के विरुद्ध मापे गए M2 (8-कोर GPU, 16 GB RAM) पर बेंचमार्क:

एंजिन	मॉडल	RTF (M2)	RTF (M3 Pro)
Whisper	Tiny	30x	45x
Whisper	Base	20x	32x
Whisper	Small	10x	18x
Whisper	Medium	5x	9x
Whisper	Large-v3	2x	4x
Parakeet	TDT-1.1B	150x	220x

Parakeet समकक्ष-सटीकता Whisper मॉडल से लगभग 20–50x तेज़ है। डिक्टेशन के लिए यह तत्काल टेक्स्ट दिखाई देने और आधा सेकंड प्रतीक्षा करने के बीच का अंतर है।

सटीकता

मानक अंग्रेज़ी बेंचमार्क पर Word error rate (WER)। कम बेहतर है। ये संख्याएँ टेस्ट सेट में भिन्न होती हैं — जो आगे आता है वह LibriSpeech test-clean से है, जो अपेक्षाकृत साफ़ पठन-भाषण corpus है। कठिन ऑडियो (शोरगुल, उच्चारित, तकनीकी) पर दोनों के लिए संख्याएँ ऊपर जाती हैं।

एंजिन	WER (LibriSpeech)	WER (CommonVoice)
Whisper Tiny	9.0%	14%
Whisper Base	7.0%	11%
Whisper Small	5.5%	8%
Whisper Medium	4.8%	7%
Whisper Large-v3	4.2%	5.5%
Parakeet TDT-1.1B	4.5%	6.5%

साफ़ अंग्रेज़ी पर, Parakeet Whisper Medium को मिलाता है और Whisper Large-v3 के पास पहुँचता है। अंतर छोटा है। शोरगुल या उच्चारित अंग्रेज़ी पर, Whisper Large-v3 अपनी बढ़त को अधिक स्पष्ट रूप से धारण करता है।

बहुभाषी कंटेंट के लिए, Whisper एकमात्र वास्तविक विकल्प है। Parakeet के बहुभाषी variants मौजूद हैं लेकिन मैंने उन्हें अंग्रेज़ी के बाहर भाषाओं पर Whisper Large से मिलते नहीं देखा है।

RAM

Apple Silicon Macs में unified memory होती है, और मॉडल बाकी सब चीज़ों के समान पूल में लोड होता है। यदि आपके पास 8 या 16 GB है और ट्रांसक्राइब करते समय अपनी मशीन का उपयोग जारी रखना चाहते हैं तो RAM का उपयोग मायने रखता है।

एंजिन	मॉडल	RAM (लोड)
Whisper	Tiny	~400 MB
Whisper	Base	~500 MB
Whisper	Small	~1 GB
Whisper	Medium	~2.5 GB
Whisper	Large-v3	~5 GB
Parakeet	TDT-1.1B	~1.2 GB

यदि आप 8 GB पर हैं और VS Code, एक ब्राउज़र, और Slack खुले रखना चाहते हैं, Whisper Large-v3 कठिन है। 1.2 GB पर Parakeet या 1 GB पर Whisper Small उस मेमोरी स्तर पर व्यावहारिक विकल्प हैं।

16 GB पर आप किसी भी चीज़ को आराम से चला सकते हैं। 32 GB और उससे ऊपर पर आप इसके बारे में सोचते भी नहीं।

डिक्टेशन के लिए लेटेंसी

गति और RTF आपको लंबी फ़ाइलों पर throughput बताते हैं। डिक्टेशन के लिए, जो मायने रखता है वह यह है कि बोलना बंद करने के बाद पहला शब्द कितनी जल्दी प्रकट होता है।

M2 पर मापा गया, 5-सेकंड उच्चारण, माइक से टेक्स्ट तक:

एंजिन	पहला-टोकन लेटेंसी	पूर्ण परिणाम
Whisper Tiny	180 ms	250 ms
Whisper Small	350 ms	500 ms
Whisper Medium	700 ms	1100 ms
Whisper Large-v3	1400 ms	2200 ms
Parakeet TDT-1.1B	80 ms	150 ms

Parakeet का स्ट्रीमिंग आउटपुट इसे तत्काल महसूस कराता है। Whisper Tiny और Small भी प्रतिक्रियाशील महसूस होने के लिए पर्याप्त तेज़ हैं। Medium या बड़ा कुछ भी एक उल्लेखनीय प्रतीक्षा introduces करता है — फ़ाइलों के लिए ठीक, डिक्टेशन के लिए कम।

कब कौन सा चुनें

Parakeet उपयोग करें यदि:

आप मुख्य रूप से अंग्रेज़ी में डिक्टेट करते हैं
आप संभव सबसे कम लेटेंसी चाहते हैं
आप सीमित RAM वाले Mac पर हैं
आप लंबी फ़ाइलें ट्रांसक्राइब कर रहे हैं और उन्हें जल्दी करना चाहते हैं

Whisper Small या Medium उपयोग करें यदि:

आपको बहुभाषी समर्थन चाहिए (99+ भाषाएँ)
आप Large-v3 के RAM हिट के बिना सटीकता चाहते हैं
आप 16 GB पर हैं और एक संतुलित चुनाव चाहते हैं

Whisper Large-v3 उपयोग करें यदि:

आप मीटिंग या महत्वपूर्ण फ़ाइलें ट्रांसक्राइब कर रहे हैं जहाँ हर त्रुटि आपको खर्च करती है
आपके पास 32 GB+ है और RAM की परवाह नहीं है
आप शोरगुल वाले ऑडियो, भारी उच्चारण, या तकनीकी शब्दावली के साथ काम कर रहे हैं
काम वैसे भी ऑफलाइन चलता है, तो RTF मायने नहीं रखता

क्लाउड-समतुल्य सटीकता के बारे में क्या?

क्लाउड सेवाएँ (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) आमतौर पर मानक बेंचमार्क पर 3.5–4.5% WER रिपोर्ट करती हैं। यह लगभग Whisper Large-v3 का क्षेत्र है।

लोकल और क्लाउड के बीच सटीकता अंतर वास्तविक है लेकिन छोटा — आमतौर पर साफ़ ऑडियो पर 0.5–1% WER, कठिन ऑडियो पर अधिक। अधिकांश उपयोग मामलों (डिक्टेशन, मीटिंग, नोट्स) के लिए, यह ध्यान देने योग्य नहीं है। क्लाउड सेवाएँ किनारे के मामलों में जीतती हैं: भारी उच्चारण जिसके लिए आपके पास मॉडल कवरेज नहीं है, दुर्लभ तकनीकी शब्दावली, बहुत निम्न-गुणवत्ता वाला ऑडियो।

ऐप्स और वे कौन से एंजिन उपयोग करते हैं

यदि आप एंजिनों के बारे में सोचना नहीं चाहते, यहाँ है मुख्यधारा Mac ऐप्स डिफ़ॉल्ट रूप से क्या उपयोग करते हैं:

Vext — डिफ़ॉल्ट रूप से Parakeet, Whisper विकल्प के रूप में उपलब्ध
MacWhisper — Whisper, मॉडल चयन योग्य
Superwhisper — Whisper, मॉडल चयन योग्य
VoiceInk — Whisper
FluidVoice — Parakeet समर्थन
Apple Dictation — Apple का अपना फाउंडेशन मॉडल (Whisper या Parakeet नहीं)

"डिफ़ॉल्ट रूप से Parakeet" और "डिफ़ॉल्ट रूप से Whisper" के बीच विभाजन आमतौर पर इस बात को दर्शाता है कि ऐप डिक्टेशन-फ़र्स्ट (Parakeet) है या फ़ाइल-ट्रांसक्रिप्शन-फ़र्स्ट (Whisper)।

निचली पंक्ति

अधिकांश लोगों के लिए, वर्तमान Mac पर, अंग्रेज़ी में डिक्टेट करते हुए: Parakeet। लेटेंसी अलग महसूस होती है — टेक्स्ट आप जैसे बोलते हैं वैसे प्रकट होता है बजाय खत्म करने के बाद।

मीटिंग, फ़ाइलें, या बहुभाषी काम के लिए: Whisper Medium या Large-v3।

आप दोनों रख सकते हैं। अधिकांश ऐप्स आपको प्रति कार्य चुनने देते हैं।