WWDC 2026 की Apple Intelligence का Mac पर वॉइस डिक्टेशन के लिए क्या मतलब है

Apple ने WWDC 2026 का आयोजन 8 और 9 जून को किया, और सुर्खी थी AI: एक नए सिरे से बनी Siri, ऑन-डिवाइस Foundation Models की एक नई पीढ़ी, और — मंच पर खुलकर कहा गया — "ज़्यादा सटीक डिक्टेशन।" अगर आप अपने Mac पर डिक्टेट करते हैं, तो यह आख़िरी बात ही ध्यान देने लायक़ है।

तो यह पोस्ट जिस ईमानदार सवाल का जवाब देती है वह है: क्या Apple ने अभी-अभी एक समर्पित डिक्टेशन ऐप को बेमतलब बना दिया? छोटा जवाब — नहीं। उसने फ़र्श ऊँचा किया है। बिल्ट-इन बेसलाइन बेहतर हुई, जो सबके लिए अच्छा है, पर जो चीज़ें लोगों को पहली बार किसी समर्पित टूल की तलाश में भेजती हैं, वे ज़्यादातर मंच पर नहीं थीं। यहाँ बताते हैं कि क्या बदला और क्या नहीं।

Apple ने असल में क्या घोषणा की

मार्केटिंग की चमक से अलग, कुछ चीज़ें असली और पुष्ट हैं।

Siri AI. Apple ने "iPhone, iPad, Mac, Apple Watch, और Apple Vision Pro में गहराई से समाई हुई Siri का एक बिल्कुल नया संस्करण" पेश किया। यह संवादात्मक है, इसका अपना स्टैंडअलोन ऐप है जो आपकी हिस्ट्री को iCloud पर सिंक करता है, आपकी स्क्रीन पर क्या है इसके बारे में सवालों का जवाब दे सकता है, आपके मैसेज, ईमेल और फ़ोटो से संदर्भ खींच सकता है, और ऐप्स के बीच कार्रवाई कर सकता है। यह 2026 के बाद के हिस्से में बीटा के रूप में आता है, पहले अंग्रेज़ी में। लॉन्च की कुछ असली शर्तें हैं: EU में यह Mac और Vision Pro पर आता है पर, Apple के अपने शब्दों में, "शुरुआत में EU में iOS, iPadOS, और watchOS पर नहीं," और लॉन्च के समय यह China में नहीं आ रहा जबकि Apple नियामक आवश्यकताओं पर काम कर रहा है।

तीसरी पीढ़ी के ऑन-डिवाइस मॉडल। डिक्टेशन में सुधार यहीं से आता है। Apple की ऑन-डिवाइस लाइनअप अब है AFM 3 Core, एक 3-अरब-पैरामीटर वाला डेन्स मॉडल, और AFM 3 Core Advanced, एक 20-अरब-पैरामीटर वाला स्पार्स मॉडल जो हर अनुरोध पर सिर्फ़ 1 से 4 अरब पैरामीटर सक्रिय करता है और मूलतः मल्टीमॉडल है। Apple ख़ास तौर पर उस Advanced मॉडल को "अभिव्यंजक आवाज़ों और ज़्यादा सटीक डिक्टेशन" का श्रेय देता है, और बताता है कि मानव मूल्यांकनकर्ताओं ने इसकी समग्र गुणवत्ता को पिछली प्रणाली के मुक़ाबले 44.7% बनाम 17.6% पसंद किया। यह एक असली छलांग है, जो Neural Engine पर चलती है।

Gemini वाला फ़ुटनोट। इसकी अक्सर ग़लत रिपोर्टिंग होती है, इसलिए सटीक रहना ज़रूरी है। Apple और Google ने एक बहु-वर्षीय समझौते की घोषणा की जिसके तहत "Apple Foundation Models की अगली पीढ़ी Google के Gemini मॉडलों और क्लाउड तकनीक पर आधारित होगी।" पर Apple ने उतना ही साफ़ कहा कि आपके डिवाइस पर आने वाले मॉडलों में "Google द्वारा तैनात किए जाने वाले मॉडलों में से कोई नहीं" है — Gemini का इस्तेमाल Apple के मॉडलों को प्रशिक्षित और डिस्टिल करने में मदद के लिए हुआ, आपके Mac पर चलाने के लिए नहीं। जानना ज़रूरी है, क्योंकि नीचे की निजता वाली बात इसी पर टिकी है।

डेवलपर्स के लिए और भी है: Apple ने अपने Foundation Models फ़्रेमवर्क को एक नए Swift LanguageModel प्रोटोकॉल के पीछे खोल दिया ताकि ऐप्स एक-लाइन बदलाव के साथ Apple के ऑन-डिवाइस मॉडल, क्लाउड Gemini, Anthropic के Claude, या कम्युनिटी MLX मॉडलों के बीच अदला-बदली कर सकें, और Core AI जारी किया, एक लोकल इन्फ़रेंस फ़्रेमवर्क जो CPU, GPU, और Neural Engine पर "बिना किसी सर्वर और बिना प्रति-टोकन लागत के" चलता है। वह दिशा किसी एक फ़ीचर से ज़्यादा मायने रखती है, और हम उस पर लौटेंगे।

सचमुच की अच्छी ख़बर

Apple को उसका हक़ दीजिए। ऑन-डिवाइस डिक्टेशन की सटीकता का बेहतर होना, मुफ़्त में, डिफ़ॉल्ट रूप से निजी, बिना किसी सेटअप के — यह एक असली जीत है। अगर आप किसी टेक्स्ट फ़ील्ड में कभी-कभार कोई मैसेज या नोट डिक्टेट करते हैं और आपको कभी सिर्फ़ इक्का-दुक्का ग़लत सुना गया शब्द ही खटकता था, तो macOS ठीक उसी मामले में बेहतर हो गया है, और शायद आपको और कुछ चाहिए ही न हो। यह ईमानदार बेसलाइन है।

इस पोस्ट का ज़्यादातर हिस्सा जो आश्वस्ति देता है वह यह नहीं कि "Apple का अपडेट कमज़ोर है।" यह पिछले साल से बेहतर है। बात यह है कि "बेहतर डिक्टेशन सटीकता" और "एक होशियार असिस्टेंट" वह काम नहीं है जिसके लिए एक समर्पित ऐप बनाया जाता है।

जहाँ यह अब भी नहीं पहुँचता

यहाँ बताते हैं कि WWDC 2026 के मंच पर क्या नहीं था, ईमानदारी से इस रूप में रखा गया कि Apple ने क्या घोषणा की और क्या नहीं।

असिस्टेंट कोई डिक्टेशन टूल नहीं है। Siri AI बड़ा दाँव है, और यह एक असिस्टेंट है: इससे चीज़ें पूछें, इससे कार्रवाई करवाएँ, आगे-पीछे बातचीत करें। यह वॉइस टाइपिंग से अलग काम है — आपके ठीक-ठीक शब्दों को ठीक उसी ऐप और फ़ील्ड में पहुँचाना जहाँ आपका कर्सर है, चाहे वह आपका एडिटर हो, Slack हो, कोई कोड कमेंट हो, या कोई सपोर्ट टिकट। Apple ने असिस्टेंट को काफ़ी बेहतर बनाया। उसने ऐसी कोई सिस्टम-व्यापी वॉइस-टाइपिंग परत नहीं दिखाई जो साफ़ टेक्स्ट वहीं गिराए जहाँ आप काम कर रहे हैं।

मीटिंग और वक्ता। WWDC 2026 में किसी ने भी Zoom या Google Meet कॉल का सिस्टम ऑडियो कैप्चर करके ट्रांसक्रिप्ट को इस आधार पर नहीं बाँटा कि कौन बोल रहा था। Apple ने ऑन-डिवाइस स्पीकर डायराइज़ेशन की घोषणा नहीं की। अगर आप मीटिंग ट्रांसक्राइब करते हैं और बिना किसी बॉट के कॉल में शामिल हुए "Alice ने कहा / Bob ने कहा" लेबल चाहते हैं, तो वह अब भी एक समर्पित टूल का काम है। हमने अलग से Mac पर बिना क्लाउड मीटिंग ट्रांसक्राइब करने के बारे में लिखा है।

डिक्टेट करते समय ट्रांसलेशन। बेहतर डिक्टेशन का मतलब है आपकी बोली को सटीकता से टेक्स्ट में लाना। फ़्रेंच बोलना और अपने कर्सर पर साफ़ अंग्रेज़ी पाना, चाहे आप किसी भी ऐप में हों, एक अलग पाइपलाइन है जिसे Apple ने मंच पर नहीं रखा। ज़रूरत हो तो यह लोकल ट्रांसलेशन पाइपलाइन कैसे काम करती है इस पर और पढ़ें।

इंजन का चुनाव और फ़ाइलें। समर्पित लोकल ऐप्स आपको अपना स्पीच इंजन चुनने देते हैं — सटीकता के लिए Whisper Large-v3, स्पीड के लिए Parakeet — और मौजूदा ऑडियो फ़ाइलों को ट्रांसक्राइब करने देते हैं, सिर्फ़ लाइव स्पीच को नहीं। Apple आपको Apple का मॉडल देता है। ज़्यादातर लोगों के लिए यह ठीक है। जिन्हें परवाह है, उनके लिए यह कोई विकल्प नहीं जो उन्हें मिलता है। इंजन क्यों मायने रखता है, इसके लिए हमारी Whisper बनाम Parakeet तुलना देखें।

निजता की वह बारीकी जिसे दो बार पढ़ने लायक़ है

Apple का ऑन-डिवाइस मॉडल सचमुच निजी है — यह आपके Mac पर चलता है और ऑडियो बाहर नहीं जाता। उस पर कोई बहस नहीं। बारीकी इसके ऊपर की परतों में है। भारी अनुरोध Private Cloud Compute में जाते हैं, जिसे Apple ने इस साल Google Cloud में चलने वाले NVIDIA Blackwell GPU तक बढ़ाया, और अगली पीढ़ी के मॉडल Gemini के साथ प्रशिक्षित हैं। Apple कहता है कि आपका डेटा संग्रहीत नहीं होता या Apple या किसी और के लिए सुलभ नहीं बनाया जाता, और Google उसे कभी नहीं देखता। ये Apple और Google के अपने सिस्टम के बारे में उनके अपने दावे हैं, और समझदार लोग ख़ुद तय कर सकते हैं कि उसका कितना मोल है।

अगर आपका मानक है "सब कुछ इसी मशीन पर रहे, कोई क्लाउड परत नहीं, कोई भरोसा करने की ज़रूरत नहीं," तो एक पूरी तरह लोकल टूल अब भी वह रेखा पार करता है जो Apple का परत-आधारित आर्किटेक्चर, सोच-समझकर, नहीं करता। यही पूरी वजह है कि ऑफ़लाइन, ऑन-डिवाइस वॉइस टू टेक्स्ट एक श्रेणी के रूप में मौजूद है, और WWDC 2026 ने उस गणित को नहीं बदला।

तो क्या आपको अब भी एक समर्पित ऐप चाहिए?

ईमानदार जवाब, दोनों दिशाओं में:

शायद नहीं, अगर आप कभी-कभार टेक्स्ट फ़ील्ड में डिक्टेट करते हैं और कुछ मुफ़्त और बिल्ट-इन चाहते हैं। macOS 27 की बेहतर ऑन-डिवाइस डिक्टेशन एक असली अपग्रेड है और वह वहीं मौजूद है। उसका इस्तेमाल करें।
फिर भी हाँ, अगर आप पूरे दिन हर ऐप में वॉइस-टाइप करते हैं, वक्ता-लेबल के साथ मीटिंग ट्रांसक्राइब करते हैं, बोलते-बोलते ट्रांसलेट करते हैं, अपना इंजन चुनना चाहते हैं, या इसकी पक्की गारंटी चाहते हैं कि आपके Mac से कुछ बाहर न जाए। ये वे काम हैं जो Apple ने नहीं दिए।

उस दूसरे समूह के लिए, Vext ठीक उसी के लिए बना एक विकल्प है: किसी भी ऐप में सिस्टम-व्यापी डिक्टेशन, वक्ता-लेबल के साथ मीटिंग ट्रांसक्रिप्शन, लाइव ट्रांसलेशन, और वॉइस नोट्स, सब लोकल Whisper या Parakeet प्लस सफ़ाई के लिए एक लोकल LLM पर चलते हुए, एक बार $49, कोई सब्सक्रिप्शन नहीं। ईमानदार समझौते: यह मुफ़्त नहीं है, यह सिर्फ़ Apple Silicon पर है, और अब जब Apple की बेसलाइन बेहतर है, आम उपयोगकर्ताओं को सचमुच इसकी ज़रूरत न पड़े।

बड़ा संकेत

WWDC 2026 की सबसे दिलचस्प बात कोई एक फ़ीचर नहीं थी। बात थी Apple का Core AI जारी करना और हर ऐप के लिए ऑन-डिवाइस मॉडल खोलना, यह दाँव लगाते हुए कि AI चलाने की सही जगह वही सिलिकॉन है जो आपके पास पहले से है। यही ठीक वह थीसिस है जिस पर समर्पित लोकल वॉइस ऐप्स बनाए गए थे। Apple ने इस साल उस श्रेणी को ख़त्म नहीं किया। उसने उसकी पुष्टि की — और उसके नीचे का फ़र्श ऊँचा किया।