यदि आप Mac पर एक लोकल स्पीच रिकग्निशन एंजिन चुन रहे हैं, चुनाव आमतौर पर दो में आता है: OpenAI Whisper और NVIDIA Parakeet। दोनों Apple Silicon पर अच्छी तरह चलते हैं, दोनों खुले हैं। वे अलग-अलग trade-off बनाते हैं, और सही चुनाव इस बात पर निर्भर करता है कि आप क्या ट्रांसक्राइब कर रहे हैं।

यह M2 और M3 Macs पर मेरे द्वारा चलाए गए बेंचमार्क पर आधारित एक सीधी तुलना है।

संक्षिप्त संस्करण

  • Parakeet तेज़ है और कम RAM का उपयोग करता है, लेकिन केवल अंग्रेज़ी।
  • Whisper Large-v3 कठिन ऑडियो पर अधिक सटीक है और 99+ भाषाओं को संभालता है।
  • अंग्रेज़ी डिक्टेशन के लिए: Parakeet जीतता है।
  • मीटिंग, फ़ाइलें, या बहुभाषी कंटेंट के लिए: Whisper।

अंतर लोगों के सोचने से छोटा है। दोनों इतने अच्छे हैं कि अधिकांश उपयोगकर्ता साफ़ ऑडियो पर सटीकता अंतर नहीं देखेंगे।

प्रत्येक क्या है

OpenAI Whisper एक encoder-decoder transformer है जो 680,000 घंटे की बहुभाषी भाषण पर प्रशिक्षित है। 2022 में ओपन-वेट जारी किया गया, बाद में v2 और v3 के साथ। आकार Tiny (75 MB) से Large-v3 (3 GB) तक।

NVIDIA Parakeet एक RNN-T मॉडल है — recurrent neural network transducer। NVIDIA ने इसे NeMo के माध्यम से जारी किया। यह छोटा, तेज़ है, और डिफ़ॉल्ट रूप से केवल अंग्रेज़ी (बहुभाषी variants हैं लेकिन कम परिपक्व)।

वास्तुकला अंतर मायने रखता है: Whisper 30-सेकंड विंडो को एक transformer के साथ प्रोसेस करता है जो महंगा लेकिन लचीला है। Parakeet ऑडियो को एक RNN के माध्यम से स्ट्रीम करता है जो वृद्धिशील और सस्ता पाठ उत्पन्न करता है।

गति

गति real-time factor (RTF) के रूप में मापी जाती है। 1x का अर्थ है मॉडल ऑडियो जितना ही समय लेता है। 10x का अर्थ है यह 1 मिनट में 10 मिनट की फ़ाइल प्रोसेस करता है। अधिक तेज़ है।

LibriSpeech test-clean सेट के विरुद्ध मापे गए M2 (8-कोर GPU, 16 GB RAM) पर बेंचमार्क:

एंजिन मॉडल RTF (M2) RTF (M3 Pro)
Whisper Tiny 30x 45x
Whisper Base 20x 32x
Whisper Small 10x 18x
Whisper Medium 5x 9x
Whisper Large-v3 2x 4x
Parakeet TDT-1.1B 150x 220x

Parakeet समकक्ष-सटीकता Whisper मॉडल से लगभग 20–50x तेज़ है। डिक्टेशन के लिए यह तत्काल टेक्स्ट दिखाई देने और आधा सेकंड प्रतीक्षा करने के बीच का अंतर है।

सटीकता

मानक अंग्रेज़ी बेंचमार्क पर Word error rate (WER)। कम बेहतर है। ये संख्याएँ टेस्ट सेट में भिन्न होती हैं — जो आगे आता है वह LibriSpeech test-clean से है, जो अपेक्षाकृत साफ़ पठन-भाषण corpus है। कठिन ऑडियो (शोरगुल, उच्चारित, तकनीकी) पर दोनों के लिए संख्याएँ ऊपर जाती हैं।

एंजिन WER (LibriSpeech) WER (CommonVoice)
Whisper Tiny 9.0% 14%
Whisper Base 7.0% 11%
Whisper Small 5.5% 8%
Whisper Medium 4.8% 7%
Whisper Large-v3 4.2% 5.5%
Parakeet TDT-1.1B 4.5% 6.5%

साफ़ अंग्रेज़ी पर, Parakeet Whisper Medium को मिलाता है और Whisper Large-v3 के पास पहुँचता है। अंतर छोटा है। शोरगुल या उच्चारित अंग्रेज़ी पर, Whisper Large-v3 अपनी बढ़त को अधिक स्पष्ट रूप से धारण करता है।

बहुभाषी कंटेंट के लिए, Whisper एकमात्र वास्तविक विकल्प है। Parakeet के बहुभाषी variants मौजूद हैं लेकिन मैंने उन्हें अंग्रेज़ी के बाहर भाषाओं पर Whisper Large से मिलते नहीं देखा है।

RAM

Apple Silicon Macs में unified memory होती है, और मॉडल बाकी सब चीज़ों के समान पूल में लोड होता है। यदि आपके पास 8 या 16 GB है और ट्रांसक्राइब करते समय अपनी मशीन का उपयोग जारी रखना चाहते हैं तो RAM का उपयोग मायने रखता है।

एंजिन मॉडल RAM (लोड)
Whisper Tiny ~400 MB
Whisper Base ~500 MB
Whisper Small ~1 GB
Whisper Medium ~2.5 GB
Whisper Large-v3 ~5 GB
Parakeet TDT-1.1B ~1.2 GB

यदि आप 8 GB पर हैं और VS Code, एक ब्राउज़र, और Slack खुले रखना चाहते हैं, Whisper Large-v3 कठिन है। 1.2 GB पर Parakeet या 1 GB पर Whisper Small उस मेमोरी स्तर पर व्यावहारिक विकल्प हैं।

16 GB पर आप किसी भी चीज़ को आराम से चला सकते हैं। 32 GB और उससे ऊपर पर आप इसके बारे में सोचते भी नहीं।

डिक्टेशन के लिए लेटेंसी

गति और RTF आपको लंबी फ़ाइलों पर throughput बताते हैं। डिक्टेशन के लिए, जो मायने रखता है वह यह है कि बोलना बंद करने के बाद पहला शब्द कितनी जल्दी प्रकट होता है।

M2 पर मापा गया, 5-सेकंड उच्चारण, माइक से टेक्स्ट तक:

एंजिन पहला-टोकन लेटेंसी पूर्ण परिणाम
Whisper Tiny 180 ms 250 ms
Whisper Small 350 ms 500 ms
Whisper Medium 700 ms 1100 ms
Whisper Large-v3 1400 ms 2200 ms
Parakeet TDT-1.1B 80 ms 150 ms

Parakeet का स्ट्रीमिंग आउटपुट इसे तत्काल महसूस कराता है। Whisper Tiny और Small भी प्रतिक्रियाशील महसूस होने के लिए पर्याप्त तेज़ हैं। Medium या बड़ा कुछ भी एक उल्लेखनीय प्रतीक्षा introduces करता है — फ़ाइलों के लिए ठीक, डिक्टेशन के लिए कम।

कब कौन सा चुनें

Parakeet उपयोग करें यदि:

  • आप मुख्य रूप से अंग्रेज़ी में डिक्टेट करते हैं
  • आप संभव सबसे कम लेटेंसी चाहते हैं
  • आप सीमित RAM वाले Mac पर हैं
  • आप लंबी फ़ाइलें ट्रांसक्राइब कर रहे हैं और उन्हें जल्दी करना चाहते हैं

Whisper Small या Medium उपयोग करें यदि:

  • आपको बहुभाषी समर्थन चाहिए (99+ भाषाएँ)
  • आप Large-v3 के RAM हिट के बिना सटीकता चाहते हैं
  • आप 16 GB पर हैं और एक संतुलित चुनाव चाहते हैं

Whisper Large-v3 उपयोग करें यदि:

  • आप मीटिंग या महत्वपूर्ण फ़ाइलें ट्रांसक्राइब कर रहे हैं जहाँ हर त्रुटि आपको खर्च करती है
  • आपके पास 32 GB+ है और RAM की परवाह नहीं है
  • आप शोरगुल वाले ऑडियो, भारी उच्चारण, या तकनीकी शब्दावली के साथ काम कर रहे हैं
  • काम वैसे भी ऑफलाइन चलता है, तो RTF मायने नहीं रखता

क्लाउड-समतुल्य सटीकता के बारे में क्या?

क्लाउड सेवाएँ (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) आमतौर पर मानक बेंचमार्क पर 3.5–4.5% WER रिपोर्ट करती हैं। यह लगभग Whisper Large-v3 का क्षेत्र है।

लोकल और क्लाउड के बीच सटीकता अंतर वास्तविक है लेकिन छोटा — आमतौर पर साफ़ ऑडियो पर 0.5–1% WER, कठिन ऑडियो पर अधिक। अधिकांश उपयोग मामलों (डिक्टेशन, मीटिंग, नोट्स) के लिए, यह ध्यान देने योग्य नहीं है। क्लाउड सेवाएँ किनारे के मामलों में जीतती हैं: भारी उच्चारण जिसके लिए आपके पास मॉडल कवरेज नहीं है, दुर्लभ तकनीकी शब्दावली, बहुत निम्न-गुणवत्ता वाला ऑडियो।

ऐप्स और वे कौन से एंजिन उपयोग करते हैं

यदि आप एंजिनों के बारे में सोचना नहीं चाहते, यहाँ है मुख्यधारा Mac ऐप्स डिफ़ॉल्ट रूप से क्या उपयोग करते हैं:

  • Vext — डिफ़ॉल्ट रूप से Parakeet, Whisper विकल्प के रूप में उपलब्ध
  • MacWhisper — Whisper, मॉडल चयन योग्य
  • Superwhisper — Whisper, मॉडल चयन योग्य
  • VoiceInk — Whisper
  • FluidVoice — Parakeet समर्थन
  • Apple Dictation — Apple का अपना फाउंडेशन मॉडल (Whisper या Parakeet नहीं)

"डिफ़ॉल्ट रूप से Parakeet" और "डिफ़ॉल्ट रूप से Whisper" के बीच विभाजन आमतौर पर इस बात को दर्शाता है कि ऐप डिक्टेशन-फ़र्स्ट (Parakeet) है या फ़ाइल-ट्रांसक्रिप्शन-फ़र्स्ट (Whisper)।

निचली पंक्ति

अधिकांश लोगों के लिए, वर्तमान Mac पर, अंग्रेज़ी में डिक्टेट करते हुए: Parakeet। लेटेंसी अलग महसूस होती है — टेक्स्ट आप जैसे बोलते हैं वैसे प्रकट होता है बजाय खत्म करने के बाद।

मीटिंग, फ़ाइलें, या बहुभाषी काम के लिए: Whisper Medium या Large-v3।

आप दोनों रख सकते हैं। अधिकांश ऐप्स आपको प्रति कार्य चुनने देते हैं।