1.0 लॉन्च होने के बाद से सबसे आम दो सवाल ये रहे: "क्या मैं Vext को स्पेनिश में इस्तेमाल कर सकता हूँ?" और "जब लोग एक-दूसरे पर बोलते हैं तो मेरी मीटिंग ट्रांसक्रिप्ट अभी भी स्पीकर क्यों मिक्स कर देती है?"

1.2.0 दोनों का जवाब देता है।

पूरा इंटरफ़ेस अब पाँच भाषाओं में उपलब्ध है। और मीटिंग डायराइज़ेशन इंजन में एक बुनियादी आर्किटेक्चरल बदलाव आया है — एक दूसरा ऑफ़लाइन पास जो रिकॉर्डिंग खत्म होने के बाद पूरी फाइल को दोबारा परखता है और हर स्पीकर लेबल को शुरू से फिर से तय करता है। तेज़ और ओवरलैपिंग बातचीत के लिए नतीजे काफ़ी बेहतर हैं।

आइए देखते हैं क्या बदला है।

इंटरफ़ेस अब बहुभाषी है — और वेबसाइट भी

डिक्टेशन हमेशा से आपकी भाषा में काम करता रहा — यह Whisper अपना काम कर रहा है। जो लोकलाइज़ नहीं था, वह था खुद ऐप: साइडबार, सेटिंग्स, ऑनबोर्डिंग, मेनू, परमिशन प्रॉम्प्ट। वह सब कुछ जो आप पढ़ते हैं, न कि बोलते हैं।

1.2.0 इसे ठीक करता है। पूरा इंटरफ़ेस अब अंग्रेज़ी, स्पेनिश, रूसी, हिंदी और थाई में उपलब्ध है। ऐप आपके macOS सिस्टम लोकेल को अपने आप फॉलो करता है, या फिर आप Settings → General में कोई खास भाषा चुन सकते हैं — तुरंत बदल जाती है, रीस्टार्ट की ज़रूरत नहीं।

वेबसाइट भी इसी के हिसाब से अपडेट हो गई है। अगर आप अब तक उन टीममेट्स को Vext रिकमेंड कर रहे थे जो अंग्रेज़ी में काम नहीं करते, तो अब आप उन्हें कहीं भेज सकते हैं जो उनकी भाषा बोलता हो।

और भाषाएँ आ रही हैं। यह एक फाउंडेशन रिलीज़ थी — ट्रांसलेशन इंफ्रास्ट्रक्चर अब तैयार है, और नई भाषा जोड़ना सिर्फ़ एक फाइल ट्रांसलेट करने जितना आसान है।

एक समर्पित Speakers टैब

स्पीकर मैनेजमेंट मीटिंग ट्रांसक्रिप्ट्स से बाहर निकलकर साइडबार में अपनी जगह बना ली है।

Speakers टैब में वो सभी लोग दिखते हैं जिन्हें Vext ने आपकी सभी मीटिंग्स में आवाज़ से पहचाना है। आप किसी भी स्पीकर का नाम बदल सकते हैं, 8 बैज रंगों में से चुन सकते हैं, या — सबसे काम की चीज़ — दो एंट्री को एक में मर्ज कर सकते हैं。 अगर Vext ने समय के साथ एक ही शख्स को दो अलग स्पीकर माना, तो आप उन्हें एक कर सकते हैं: बेहतर क्वालिटी वाली वॉइस प्रोफ़ाइल जीतती है, और हर आने वाली मीटिंग मर्ज की हुई पहचान को सही से पहचानेगी।

किसी भी स्पीकर पर क्लिक करें और राइट पैन सिर्फ़ उन्हीं मीटिंग्स को दिखाएगा जिनमें वो शामिल हैं। मीटिंग की किसी भी पंक्ति पर क्लिक करें और सीधे वहाँ पहुँच जाएँ। जो लोग बार-बार होने वाली मीटिंग्स रिकॉर्ड करते हैं — स्टैंडअप्स, क्लाइंट कॉल्स, टीम रिव्यू — उनके लिए यह काम आसान बना देता है। अब हर हफ़्ते एक ही चेहरों को फिर से लेबल करने की बजाय, असल में यह पता लगाना संभव हो गया है कि कौन कौन था।

टू-पास डायराइज़ेशन: वो चीज़ जो असल में मीटिंग्स ठीक करती है

पहले स्पीकर डिटेक्शन एक ही स्ट्रीमिंग पास में काम करता था। हर ऑडियो चंक आते ही लेबल हो जाता था, हर चंक के लिए एक एम्बेडिंग। यह तेज़ है, लेकिन इसमें एक स्ट्रक्चरल कमज़ोरी है: तेज़ आवाजाही और ओवरलैपिंग स्पीच इसे तोड़ देती है। 30 सेकंड का एक चंक जिसमें चार स्पीकर टर्न हों, उसे एक लेबल मिलता था। दो आवाज़ें जो कॉल की शुरुआत में एक जैसी लगती हैं, इंजन के पास पर्याप्त डेटा आने से पहले ही मर्ज हो सकती हैं।

1.2.0 मीटिंग खत्म होने के बाद चलने वाला एक दूसरा पास जोड़ता है।

जैसे ही प्रोविजनल ट्रांसक्रिप्ट सेव होती है, Vext पूरे पर-स्ट्रीम ऑडियो को एक और गहन पाइपलाइन से दोबारा परखता है — सेगमेंटेशन के लिए pyannote Community-1, ओवरलैप-फ्रेम मास्किंग के साथ WeSpeaker एम्बेडिंग्स, और VBx बेज़ियन रिफाइनमेंट। यह हर चंक को फिर से देखता है और उसे ग्लोबली बेस्ट क्लस्टर में फिर से जोड़ता है, फिर सही किए हुए लेबल्स को ट्रांसक्रिप्ट में वापस लिख देता है। अगर यह किसी जानी-पहचानी आवाज़ को पहचान लेता है, तो डेटाबेस में उनकी वॉइस प्रोफ़ाइल अपडेट कर देता है ताकि आने वाली मीटिंग्स और भी बेहतर हों।

आपको कुछ नहीं करना। सही ट्रांसक्रिप्ट अपने आप आ जाती है। रिफाइनमेंट खत्म होने के बाद टेंप ऑडियो आर्काइव्स मिटा दिए जाते हैं।

यह सबसे ज़्यादा उन्हीं मीटिंग्स में काम आता है जहाँ डायराइज़ेशन पहले मुश्किल में पड़ जाता था: तेज़ इटरेशन वाले प्रोडक्ट रिव्यू, उन तरफ़ से तीन लोगों वाले क्लाइंट कॉल्स, या कोई भी मीटिंग जहाँ दो लोगों की आवाज़ें मिलती-जुलती हों या जो नियमित रूप से एक-दूसरे पर बोलते हों।

एक ही चंक के अंदर स्पीकर टर्न को अलग करना

लाइव रिकॉर्डिंग पास में भी एक संबंधित सुधार है।

पहले, अगर किसी एक VAD चंक में कई स्पीकर टर्न होते, तो वह एक ही स्पीकर लेबल के नीचे एक ब्लॉक के तौर पर ट्रांसक्राइब होता था। ऑफ़लाइन पास आख़िरकार एट्रिब्यूशन ठीक कर देता, लेकिन जब तक आप मीटिंग में होते, ट्रांसक्रिप्ट गलत दिखती थी।

1.2.0 रिकॉर्डिंग के दौरान ही चंक के अंदर स्पीकर बदलाव को पकड़ लेता है। जब टाइमलाइन में एक ही ऑडियो सेगमेंट में दो अलग स्पीकर दिखते हैं, तो Vext उसे बदलाव के बिंदु पर काटता है और हर टर्न को अलग-अलग ट्रांसक्राइब करता है। 300ms से कम बहुत छोटे फ्लिकर्स पास वाले रन में समा जाते हैं — आप Sortformer नॉइज़ पर ट्रांसक्रिप्ट को टुकड़ों में नहीं देखना चाहते — लेकिन असली स्पीकर टर्न अब रियल टाइम में ही सही दिखते हैं, सिर्फ़ ऑफ़लाइन पास खत्म होने के बाद ही नहीं।

रिलायबिलिटी में सुधार

कुछ चीज़ें जो चुपचाप टूटी हुई थीं और अब ठीक हैं।

स्लीप के बाद हॉटकीज़ वापस आती हैं। ग्लोबल कीबोर्ड टैप स्लीप, तेज़ यूज़र स्विचिंग, या कुछ सिस्टम टाइमआउट्स के बाद खराब हो सकता था — स्टेटस में चालू दिखता लेकिन चुपचाप इवेंट्स गिरा देता। अब यह वेक पर खुद को साफ़ तरीके से रीइंस्टॉल करता है और उन मामलों पर नज़र रखता है जहाँ macOS इसे अपने आप बंद कर देता है।

इको कैंसलेशन हटा दिया गया है। पिछले वर्ज़न में Apple's VoiceProcessingIO माइक्रोफ़ोन इनपुट पर लगाया जाता था। वह API शेयर्ड हार्डवेयर स्टेट बदलती है और AGC और नॉइज़ सप्रेशन को हर दूसरे ऐप में लीक कर देती है जो उसी माइक पढ़ रहा हो — वीडियो कॉल्स, रिकॉर्डिंग सॉफ़्टवेयर, चल रहा कोई भी ऐप। मीटिंग रिकॉर्डिंग्स पार्टिसिपेंट ऑडियो को एक अलग सिस्टम-ऑडियो टैप से कैप्चर करती हैं, इसलिए माइक और कॉल ऑडियो पहले से ही फिज़िकली अलग हैं। वहाँ इको कैंसलेशन की कभी ज़रूरत नहीं थी, और इसे हटाने से Vext अब गलती से आपकी आवाज़ को दूसरे ऐप्स में खराब नहीं करता जबकि मीटिंग रिकॉर्ड हो रही हो।

सेटिंग्स का नया डिज़ाइन। सेटिंग्स साइडबार की जगह अब एक सेगमेंटेड पिकर है: General, Hotkeys, Audio & STT, Language & LLM, License, About। साफ़-सुथरा, और छोटी स्क्रीन पर नेविगेट करना आसान।

अपडेट करें

brew upgrade muvon/tap/vext

या सीधे Vext 1.2.0 डाउनलोड करें। पुरानी मीटिंग्स और स्पीकर प्रोफ़ाइल्स वैसी ही रहेंगी — इस अपडेट से पहले रिकॉर्ड की गई किसी भी मीटिंग को अगली बार खोलने पर ऑफ़लाइन डायराइज़ेशन पास अपने आप चलेगा।

अगर आप दो से ज़्यादा लोगों वाली मीटिंग्स रिकॉर्ड करते हैं, तो अपडेट के बाद कुछ पुरानी मीटिंग्स खोलकर देखें। फिर से जोड़ी गई ट्रांसक्रिप्ट्स में काफ़ी सुधार दिखता है।

Vext 1.2.0 डाउनलोड करें