Apple की built-in Dictation को macOS Tahoe में एक चुपचाप अपग्रेड मिला। नया on-device foundation model तेज़ है, रोज़मर्रा की बोलचाल में accurate है, और OS के साथ मुफ़्त आता है। बहुत से लोगों के लिए बात यहीं खत्म हो जाती है — उन्हें कुछ और चाहिए ही नहीं।

लेकिन कुछ लोगों के लिए यह एक हफ्ते में ही नाकाफ़ी लगने लगती है। यहाँ जानें वो लाइन कहाँ है, और उसे cross करने पर क्या करें।

Apple Dictation क्या अच्छा करती है

मुख्यतः तीन चीज़ें:

यह पहले से आपके Mac पर है। कोई download नहीं, कोई account नहीं, कोई permission का झंझट नहीं। System Settings > Keyboard > Dictation, toggle on, hotkey चुनें, बस।

यह on-device है। On-device variant में audio आपकी मशीन नहीं छोड़ता। Apple की privacy कहानी यहाँ real है — कोई cloud round-trip नहीं और transcription के बाद कहीं कोई recording store नहीं होती।

Conversational English में accuracy अच्छी है। पुराने engine से बेहतर। उससे बेहतर जैसा ज़्यादातर लोग macOS dictation को याद करते हैं। Cadence से punctuation का अनुमान अधिकतर सही निकलता है। Common tech terms ("React", "TypeScript", "API") सही आते हैं।

एक Slack message लिखना, एक quick note dictate करना, या एक-वाक्य का email reply करना — Apple Dictation काफ़ी है। बहुत से users को इससे आगे जाने की ज़रूरत नहीं पड़ती।

कहाँ टूटती है

देखें क्या होता है जब आप इसे push करते हैं:

Technical vocabulary. Library के नाम, function के नाम, CLI commands, file paths। "kubectl get pods" बन जाता है "cube control get pods"। "useEffect" बन जाता है "you sufficed"। "src/components/auth/AuthGuard" बन जाता है... कुछ भी। अगर आपके काम में specific technical names हैं, तो transcripts ठीक करने में उतना ही वक्त लगता है जितना dictation से बचाते हैं।

Filler words की सफ़ाई। Apple Dictation ठीक वही transcribe करती है जो आपने कहा — "um", "uh", "तो basically", false starts, और run-ons सहित। बोली जाने वाली भाषा लिखित से ज़्यादा messy होती है। बिना cleanup के dictated text ऐसा पढ़ता है जैसे कोई ज़ोर से सोच रहा हो — क्योंकि वो है ही।

लंबे passages। Apple Dictation short bursts के लिए बनी है। कोई transcript history नहीं, कुछ sentences से ज़्यादा clean capture नहीं, वापस देखने के लिए कोई notes नहीं। 300-word document dictate करनी हो तो 30-second के टुकड़ों में करते हैं जिन्हें बाद में जोड़ते हैं।

Meetings। Apple Dictation meeting tool नहीं है। एक बार में सिर्फ एक input source capture करती है, speaker labels नहीं हैं, summarize नहीं करती। Meeting transcription चाहिए तो यह product नहीं है।

Translation। English अंदर, English बाहर। कोई multilingual flow नहीं।

Hotkey ergonomics। Double-quick press trigger occasional use के लिए ठीक है, frequent use के लिए awkward है। Push-to-talk या hold-to-dictate का option नहीं है, per-app overrides नहीं हैं।

एक test जो बताएगा आप किस group में हैं

यह एक दिन के लिए आज़माएं: Apple Dictation को हर उस चीज़ के लिए use करें जो एक sentence से लंबी है। Slack, email, notes, code comments, AI prompts।

दिन के अंत तक आप या तो:

a) Notice करेंगे कि यह surprisingly अच्छा काम किया — इसे use करते रहें। b) Notice करेंगे कि technical terms पर बार-बार लड़ रहे हैं, या cleanup की कमी से messages odd लग रहे हैं, या काश longer passages dictate कर पाते।

अगर (b) है, तो आप उस group में हैं जिन्हें Apple से ज़्यादा चाहिए।

Vext क्या add करता है और क्यों

Vext एक $49 one-time Mac dictation app है जो हम बनाते हैं। यह वही on-device principle use करता है जो Apple करती है — कुछ भी आपके Mac से बाहर नहीं जाता — लेकिन ऊपर बताई specific limitations को address करता है।

यहाँ actual differences हैं:

Speech engine। Vext default में CoreML के ज़रिए NVIDIA Parakeet use करता है। M2 पर यह लगभग 150x real-time पर चलता है और technical vocabulary को Apple के foundation model से बेहतर handle करता है, खासकर code-adjacent terms के लिए। Noisy audio या multilingual content पर ज़्यादा accuracy के लिए Whisper Small/Medium/Large भी चुन सकते हैं। Apple Dictation Apple का foundation model use करती है बिना किसी choice के।

Enhance (LLM cleanup)। Vext paste करने से पहले transcript पर एक छोटी local LLM चलाता है (default Gemma 3 4B, लगभग 2.8 GB)। Filler words जाते हैं। Sentence structure tight होती है। Meaning preserve रहती है। Raw transcript अभी भी save होता है अगर चाहिए। Apple Dictation में ऐसा कुछ नहीं है।

Hotkey options। Hold-to-talk, hands-free toggle, configurable threshold। Apple Dictation एक ही trigger style देती है।

Meeting mode। Microphone + system audio simultaneously capture करता है, local diarization से speaker labels add करता है, LLM से summary pass चलाता है। Zoom, Meet, FaceTime के साथ काम करता है — कुछ भी जो आपके Mac पर audio produce करे।

Translation। 99+ भाषाओं में से किसी में बोलें, अपनी target language में text मिलता है। Enhance on होने पर cleanup और translation एक ही pass में होते हैं।

YOLO Mode। Paste के बाद auto-submit। खासतौर पर AI coding tools के लिए बनाया।

Dictation के दौरान screenshot capture। बोलते हुए screen का एक region drag-select करें, image transcript के साथ paste हो जाती है। Screen पर दिखती किसी चीज़ के बारे में AI tools को prompt करने के लिए useful।

Apple Dictation पर रहने का honest case

अगर आपका usage ऐसा दिखता है, किसी और चीज़ से परेशान न हों:

  • घंटे में कुछ बार short messages
  • General English vocabulary
  • एक device, एक workflow
  • Double-press trigger से कोई दिक्कत नहीं
  • Meetings नहीं करते

On-device foundation model अब genuinely अच्छा है। Apple ने real improvement ship की है, और casual use के लिए यह काफ़ी है।

Switch करने का honest case

अगर आपका usage ऐसा दिखता है, तो real time बचेगा:

  • घंटे में multiple dictations, longer passages सहित
  • Technical vocabulary regularly (code, library names, CLI commands)
  • Cleanup चाहिए ताकि dictated text written text जैसा पढ़े
  • Meetings लेते हैं और उनके transcripts चाहिए
  • एक से ज़्यादा भाषा में काम करते हैं
  • AI tools पर बहुत लिखते हैं

उस profile के लिए, paid local dictation app की math कुछ हफ्तों में निकल आती है। Apple Dictation जो friction per use case बनाती है वो छोटी है, लेकिन compound होती है।

साथ-साथ use करना ठीक है

यह "पूरी तरह switch करो" की recommendation नहीं है। बहुत से लोग दोनों use करते हैं: Apple Dictation one-off quick messages के लिए जहाँ double-press trigger convenient है, Vext (या Superwhisper, या जो भी local app हो) longer-form काम के लिए जहाँ cleanup और accuracy matter करती है।

Vext का free version $49 माँगने से पहले 100 dictations, 50 notes, और 10 meetings देता है। यह देखने के लिए काफ़ी है कि आपका usage किस side of the line पर पड़ता है।

macOS अगला क्या probably ship करेगा

Apple कहीं specific जा रही है। Tahoe में on-device foundation model meaningful upgrade है। Future versions में better cleanup, longer context, और शायद Notes में meeting mode आने की संभावना है। Built-in और paid local apps के बीच का gap कम होगा।

लेकिन धीरे-धीरे होगा। Apple near-term में feature-for-feature Vext या Superwhisper ship नहीं करेगी — सबसे common 80% add करेगी और long tail को third parties पर छोड़ेगी। अगर आप long tail में हैं (developers, multilingual users, meeting-heavy workflows), तो third-party apps foreseeable future के लिए relevant रहती हैं।

बाकी सबके लिए: Apple Dictation ठीक है। अगर Tahoe पर कभी try नहीं किया, try करें। हो सकता है कुछ और चाहिए ही न।