Vext की संपूर्ण गाइड: Mac के लिए वॉइस-टू-टेक्स्ट

हॉटकी दबाए रखें। बोलें। टेक्स्ट कर्सर पर आ जाता है। यही Vext है — एक वॉइस-टू-टेक्स्ट ऐप जो पूरी तरह आपके Mac पर चलती है। कोई क्लाउड नहीं। कोई अकाउंट नहीं। कोई सब्सक्रिप्शन नहीं।

यह गाइड सब कुछ कवर करती है: इंस्टॉलेशन, हॉटकी कॉन्फ़िग, तीन मोड (डिक्टेशन, मीटिंग, नोट्स), Enhance, लाइव अनुवाद और हर दूसरी सुविधा।

इंस्टॉलेशन

Homebrew से इंस्टॉल करें:

brew install muvon/tap/vext

या getvext.app से सीधे डाउनलोड करें। अकाउंट की ज़रूरत नहीं — इंस्टॉल करें और तुरंत इस्तेमाल करें।

आवश्यकताएँ: macOS 14 Sonoma या बाद का, Apple Silicon (M1–M4)।

आपका पहला डिक्टेशन

Applications से Vext खोलें
अपनी हॉटकी दबाए रखें
बोलें
छोड़ें — टेक्स्ट कर्सर पर आ जाता है

तीन कदम। कोई लॉगिन नहीं। टेक्स्ट वहीं जाता है जहाँ बोलना शुरू करते समय कर्सर था।

तीन मोड

Vext में अलग-अलग वर्कफ़्लो के लिए तीन मोड हैं।

डिक्टेशन

मुख्य अनुभव। हॉटकी दबाएं, बोलें, छोड़ें — टेक्स्ट कर्सर पर आ जाता है। किसी भी टेक्स्ट फ़ील्ड, किसी भी ऐप में काम करता है: ब्राउज़र, एडिटर, टर्मिनल, चैट, ईमेल, नोट्स।

डिक्टेशन कंप्यूटर में शब्द डालने का सबसे तेज़ तरीका है। आप 130–150 शब्द/मिनट बोलते हैं। टाइप 40–60 करते हैं। 100 शब्दों के संदेश के लिए डिक्टेशन ~40 सेकंड, टाइपिंग लगभग दो मिनट।

मीटिंग

स्पीकर पहचान के साथ मीटिंग रिकॉर्ड करें। Vext एक साथ माइक और सिस्टम ऑडियो दोनों कैप्चर करता है, तो Zoom, Google Meet, FaceTime और किसी भी वीडियो कॉल के साथ काम करता है।

मीटिंग खत्म होने पर मिलता है:

स्पीकर लेबल और टाइमस्टैम्प के साथ पूरा ट्रांसक्रिप्ट
मुख्य बिंदुओं और एक्शन आइटम के साथ AI सारांश
कॉल के दौरान लिए गए स्क्रीनशॉट

नोट्स

एक कीप्रेस से क्विक वॉइस मेमो। अपना विचार बोलें, Vext उसे ट्रांसक्राइब करता है, Enhance से गुज़ारता है, और स्थानीय रूप से सहेजता है।

नोट्स वही प्रोसेसिंग पाइपलाइन से गुज़रते हैं जो डिक्टेशन के लिए है — क्लीनअप, अनुवाद, पूरी चेन। फ़र्क सिर्फ़ मंज़िल का है। डिक्टेशन कर्सर पर पेस्ट होता है; नोट्स Vext में बाद के लिए सहेजे जाते हैं।

हैंड्स-फ्री डिक्टेशन

मानक डिक्टेशन में कुंजी दबाए रखनी पड़ती है। हैंड्स-फ्री मोड इसे बदलता है — एक बार दबाएँ शुरू करने के लिए, फिर दबाएँ रोकने के लिए। दबाए रखना नहीं।

लंबे पैसेज, हाथ व्यस्त होने पर, या टहलते हुए सोचने पर उपयोगी। कुंजी push-to-talk बटन के बजाय टॉगल की तरह काम करती है।

Enhance

Enhance एक AI-संचालित पोस्ट-प्रोसेसिंग है जो आपकी ट्रांसक्रिप्शन पर क्लिपबोर्ड तक पहुँचने से पहले चलती है। यह भराव शब्द हटाती है, वाक्य संरचना ठीक करती है, और बोली गई भाषा के खुरदरे किनारे चिकने करती है — आपने क्या कहा बदले बिना।

Enhance से पहले:

"तो बेसिकली मुझे लग रहा था कि उम हमें शायद API endpoint को अलग सर्विस में मूव करना चाहिए क्योंकि वह स्लो होती जा रही है"

Enhance के बाद:

"हमें API endpoint को एक अलग सर्विस में मूव करना चाहिए क्योंकि वह स्लो होती जा रही है।"

अर्थ बरकरार। टोन बरकरार। Enhance बस शोर हटाता है।

कच्चा ट्रांसक्रिप्शन हमेशा बेहतर वर्शन के साथ सहेजा जाता है। मूल कभी नहीं खोता।

लाइव अनुवाद

Vext में एक लक्ष्य भाषा सेट करें और किसी भी भाषा में बोलें। कर्सर पर जो टेक्स्ट आता है वह पहले से अनुवादित है।

जब Enhance भी चालू हो, क्लीनअप और अनुवाद एक ही पास में होते हैं। आप गन्दी फ्रेंच बोलते हैं, कर्सर पर साफ़ अंग्रेज़ी आती है।

Vext उन 99+ भाषाओं के किसी भी जोड़े के बीच अनुवाद का समर्थन करता है जिन्हें Whisper मॉडल समझते हैं।

स्क्रीनशॉट कैप्चर

मीटिंग रिकॉर्डिंग के दौरान आप स्क्रीन का कोई भी क्षेत्र कैप्चर कर सकते हैं। ड्रैग करके एक क्षेत्र चुनें — स्क्रीनशॉट अपने आप आपके ट्रांसक्रिप्ट से जुड़ जाता है।

प्रेज़ेंटेशन की स्लाइड पकड़ने, कोड या डिज़ाइन के लिए जिसकी चर्चा हो रही है, या साझा व्हाइटबोर्ड के डायग्राम के लिए उपयोगी। प्रति सेशन कई कैप्चर, सब ट्रांसक्रिप्ट के साथ सहेजे जाते हैं।

ऑडियो डकिंग

जब आप रिकॉर्डिंग शुरू करते हैं, Vext अपने आप सिस्टम ऑडियो को धीमा कर देता है ताकि आपकी आवाज़ साफ़ आए। कुंजी छोड़ें, वॉल्यूम वापस आ जाता है।

यह आपके कंप्यूटर ऑडियो को ट्रांसक्रिप्शन में हस्तक्षेप करने से रोकता है — चाहे संगीत, वीडियो, या कॉल।

YOLO मोड

YOLO मोड चालू करें और Vext ट्रांसक्रिप्शन पेस्ट करने के बाद अपने आप Return दबा देगा। बोलें, छोड़ें, और आपका प्रॉम्प्ट पहले से सबमिट है।

Claude Code, ChatGPT और Cursor जैसे AI कोडिंग टूल के लिए डिज़ाइन किया गया। प्रॉम्प्ट डिक्टेट करने, समीक्षा करने, संपादन करने और Enter दबाने की जगह — आप बस बोलते हैं और वह चला जाता है। LLM अधिकतर लोगों की अपेक्षा से बेहतर अपूर्ण भाषा को संभालते हैं।

ट्रांसक्रिप्शन एंजिन

Vext कई स्पीच-टू-टेक्स्ट एंजिनों के साथ शिप होता है:

एंजिन	प्रकार	गति
Parakeet	लोकल	150x रियलटाइम
Apple Dictation	लोकल	25x रियलटाइम
OpenAI-संगत	API	विभिन्न

Parakeet डिफ़ॉल्ट है। पूरी तरह आपके Apple Silicon GPU पर चलता है और 150x रियलटाइम पर ट्रांसक्राइब करता है — 60 सेकंड की रिकॉर्डिंग आधे सेकंड से कम में प्रोसेस होती है।

AI प्रोसेसिंग एंजिन

Enhance, अनुवाद और सारांश लोकल LLM द्वारा संचालित हैं:

मॉडल	प्रकार	आकार
Gemma 3 4B	लोकल (डिफ़ॉल्ट)	2.8 GB
Qwen 3 4B	लोकल	3.2 GB
LLaMA 3.2 3B	लोकल	2.4 GB
Gemma 3 1B	लोकल	0.8 GB
Phi-3.5 Mini	लोकल	2.8 GB
OpenAI-संगत	API	—

सभी लोकल मॉडल आपके Mac के GPU पर चलते हैं। इंटरनेट कनेक्शन की ज़रूरत नहीं।

गोपनीयता

आपकी आवाज़ कभी आपके Mac से बाहर नहीं जाती। कोई क्लाउड प्रोसेसिंग नहीं, कोई अकाउंट नहीं, कोई टेलीमेट्री नहीं, कोई एनालिटिक्स नहीं। ऑडियो डिवाइस पर प्रोसेस होता है और ट्रांसक्रिप्शन के बाद कभी नहीं संग्रहीत होता।

यदि आप API-आधारित एंजिन (OpenAI-संगत) का उपयोग करते हैं, तो आपका ऑडियो उस प्रदाता को भेजा जाता है — लेकिन यह वैकल्पिक है और डिफ़ॉल्ट रूप से बंद है।

मूल्य निर्धारण

Vext में मुफ़्त ट्रायल शामिल है: 100 डिक्टेशन, 50 नोट्स और 10 मीटिंग रिकॉर्डिंग। कोई क्रेडिट कार्ड नहीं, कोई अकाउंट नहीं।

जब तैयार हों, ऐप के अंदर से $49 के एक बार के भुगतान में असीमित उपयोग अनलॉक करें। आपके वर्शन के भीतर मुफ़्त अपडेट शामिल। मेजर नए वर्शन मौजूदा मालिकों के लिए 50% छूट पर उपलब्ध।

शुरुआत करें

brew install muvon/tap/vext से इंस्टॉल करें या getvext.app से डाउनलोड करें
ऐप खोलें और अपनी हॉटकी दबाए रखें
बोलना शुरू करें

टाइपिंग से वॉइस की ओर शिफ्ट लगभग 30 मिनट तक अजीब लगता है। उसके बाद, टाइप करना धीमा तरीका लगने लगता है।