Vext 1.2.0 — ภาษาของคุณ ผู้พูดของคุณ

คำขอสองอย่างที่ได้รับบ่อยที่สุดนับตั้งแต่เปิดตัวเวอร์ชัน 1.0: "ฉันใช้ Vext เป็นภาษาสเปนได้ไหม?" และ "ทำไม transcript การประชุมของฉันยังสับสนผู้พูดเวลาที่คุยทับกัน?"

1.2.0 ตอบสนองทั้งสองอย่างนั้น

ตอนนี้อินเทอร์เฟซทั้งหมดใช้ได้ใน 5 ภาษาแล้ว และเครื่องยนต์ระบุผู้พูดในการประชุมได้รับการเปลี่ยนแปลงโครงสร้างพื้นฐาน — ขั้นตอนออฟไลน์ครั้งที่สองที่กลับมาตรวจสอบการบันทึกทั้งหมดของคุณหลังจากจบ และกำหนดป้ายผู้พูดใหม่ตั้งแต่ต้น ผลลัพธ์ดีขึ้นอย่างเห็นได้ชัดสำหรับบทสนทนาที่ดำเนินเร็วและทับซ้อนกัน

นี่คือสิ่งที่เปลี่ยนไป

ตอนนี้อินเทอร์เฟซใช้หลายภาษาได้ — เว็บไซต์ก็เช่นกัน

การพิมพ์ด้วยเสียงทำงานได้ในทุกภาษาที่คุณพูดอยู่แล้ว — นั่นคือ Whisper ทำงานของมัน สิ่งที่ยังไม่ได้แปลเป็นภาษาท้องถิ่นคือตัวแอปเอง: แถบด้านข้าง การตั้งค่า การเริ่มต้นใช้งาน เมนู หน้าต่างขอสิทธิ์ ทุกอย่างที่คุณอ่านมากกว่าพูด

1.2.0 แก้ไขสิ่งนั้น ตอนนี้อินเทอร์เฟซเต็มรูปแบบใช้ได้ในภาษาอังกฤษ สเปน รัสเซีย ฮินดี และไทย แอปจะติดตามภาษาระบบ macOS ของคุณโดยอัตโนมัติ หรือคุณสามารถกำหนดภาษาเฉพาะได้ใน การตั้งค่า → ทั่วไป — สลับทันที ไม่ต้องรีสตาร์ท

เว็บไซต์ได้รับการอัปเดตให้ตรงกัน หากคุณเคยแนะนำ Vext ให้เพื่อนร่วมทีมที่ไม่ทำงานเป็นภาษาอังกฤษ ตอนนี้คุณสามารถส่งพวกเขาไปยังที่ที่พูดภาษาของพวกเขาได้แล้ว

ภาษาเพิ่มเติมกำลังจะมา นี่เป็นการเปิดตัวพื้นฐาน — โครงสร้างพื้นฐานการแปลติดตั้งเรียบร้อยแล้ว และการเพิ่มภาษาใหม่เป็นเพียงการแปลไฟล์เดียว

แท็บผู้พูดแบบเฉพาะทาง

การจัดการผู้พูดย้ายออกจาก transcript การประชุมและเข้าไปอยู่ในส่วนของตัวเองในแถบด้านข้าง

แท็บผู้พูดแสดงทุกคนที่ Vext เรียนรู้จากเสียงในทุกการประชุมของคุณ คุณสามารถเปลี่ยนชื่อผู้พูดใดก็ได้ เลือกจาก 8 สีป้าย หรือ — สิ่งที่มีประโยชน์ที่สุด — รวมสองรายการเป็นหนึ่ง หาก Vext ถือบุคคลเดียวกันเป็นผู้พูดสองคนในระยะเวลาต่างกัน คุณสามารถรวมพวกเขาได้: โปรไฟล์เสียงที่มีคุณภาพสูงกว่าชนะ และทุกการประชุมในอนาคตจะจดจำตัวตนที่รวมแล้วได้อย่างถูกต้อง

คลิกผู้พูดใดก็ได้และบานหน้าต่างด้านขวาจะกรองเฉพาะการประชุมที่พวกเขาปรากฏตัว คลิกแถวการประชุมเพื่อกระโดดไปที่นั่นโดยตรง สำหรับคนที่บันทึกการประชุมประจำจำนวนมาก — standups, สายลูกค้า, การทบทวนทีม — สิ่งนี้ทำให้การจัดการว่าใครเป็นใครใช้งานได้จริง แทนที่จะต้องติดป้ายใหม่ให้คนเดิมทุกสัปดาห์

การระบุผู้พูดแบบสองขั้นตอน: สิ่งที่แก้ไขการประชุมได้จริง

การตรวจจับผู้พูดดั้งเดิมทำงานในขั้นตอนสตรีมมิ่งเดียว แต่ละชิ้นเสียงได้รับป้ายขณะที่มันมาถึง หนึ่ง embedding ต่อชิ้น นั่นเร็ว แต่มีจุดอ่อนเชิงโครงสร้าง: การสนทนาไปมาอย่างรวดเร็วและเสียงทับซ้อนทำให้มันพัง ชิ้นเสียง 30 วินาทีที่มีผู้พูดสี่คนสลับกันได้ป้ายเดียว เสียงสองเสียงที่คล้ายกันช่วงต้นสายอาจถูกรวมก่อนที่เครื่องยนต์จะมีข้อมูลเพียงพอที่จะแยกความแตกต่าง

1.2.0 เพิ่มขั้นตอนที่สองที่ทำงานหลังจากการประชุมจบ

เมื่อ transcript ชั่วคราวถูกบันทึก Vext จะกลับไปตรวจสอบเสียงต่อสตรีมทั้งหมดอีกครั้งโดยใช้กระบวนการที่ละเอียดกว่า — pyannote Community-1 สำหรับการแบ่งส่วน WeSpeaker embeddings พร้อม overlap-frame masking และ VBx Bayesian refinement มันตรวจสอบชิ้นเสียงแต่ละชิ้นใหม่และกำหนดให้กับคลัสเตอร์ที่ดีที่สุดในระดับโลก จากนั้นเขียนป้ายที่แก้ไขแล้วกลับเข้าไปใน transcript หากมันจดจำผู้พูดที่รู้จัก มันจะอัปเดตโปรไฟล์เสียงของพวกเขาในฐานข้อมูลเพื่อให้การประชุมในอนาคตดีขึ้นอีก

คุณไม่ต้องทำอะไรเลย transcript ที่แก้ไขแล้วจะปรากฏขึ้นเอง ไฟล์เสียงชั่วคราวจะถูกลบเมื่อการปรับแต่งเสร็จสิ้น

สิ่งนี้สำคัญที่สุดสำหรับการประชุมที่การระบุผู้พูดเคยมีปัญหาพอดี: การทบทวนผลิตภัณฑ์ที่วนซ้ำเร็ว สายลูกค้าที่มีสามคนจากฝั่งพวกเขา การประชุมใดก็ตามที่สองคนมีเสียงคล้ายกันหรือคุยทับกันประจำ

การแบ่งการสลับผู้พูดภายในชิ้นเดียว

มีการปรับปรุงที่เกี่ยวข้องกับขั้นตอนการบันทึกสดเอง

ก่อนหน้านี้ หากชิ้นเสียง VAD เดียวมีการสลับผู้พูดหลายคน มันจะถอดความเป็นบล็อกเดียวภายใต้ป้ายผู้พูดเดียว ขั้นตอนออฟไลน์จะแก้ไขการกำหนดในที่สุด แต่ transcript ออกมาดูผิดอยู่ขณะที่คุณยังอยู่ในการประชุม

1.2.0 ตรวจจับการเปลี่ยนผู้พูดภายในชิ้นขณะที่บันทึก เมื่อไทม์ไลน์แสดงผู้พูดสองคนที่แตกต่างกันในส่วนเสียงเดียวกัน Vext จะตัดที่จุดเปลี่ยนและถอดความแต่ละการสลับแยกกัน การกระพริบสั้นมากภายใต้ 300ms จะถูกดูดซับเข้าไปในการสลับข้างเคียง — คุณไม่ต้องการให้ transcript แตกเป็นเสี่ยงจากเสียงรบกวนของ Sortformer — แต่การสลับผู้พูดที่แท้จริงจะปรากฏอย่างถูกต้องแบบเรียลไทม์ ไม่ใช่แค่หลังจากขั้นตอนออฟไลน์เสร็จสิ้น

การปรับปรุงความน่าเชื่อถือ

สิ่งต่างๆ ที่เคยพังอย่างเงียบๆ และตอนนี้ไม่เป็นเช่นนั้นแล้ว

ปุ่มลัดกลับมาทำงานหลังจาก Sleep การเฝ้าสังเกตแป้นพิมพ์ทั่วโลกอาจค้างหลังจาก Sleep, การสลับผู้ใช้อย่างรวดเร็ว หรือการหมดเวลาของระบบบางกรณี — ยังรายงานว่าเปิดใช้งานอยู่แต่เงียบๆ ทิ้งอีเวนต์ ตอนนี้มันติดตั้งตัวเองใหม่เรียบร้อยเมื่อตื่น และเฝ้าสังเกตกรณีที่ macOS ปิดใช้งานโดยอัตโนมัติ

เอาการตัดเสียงสะท้อนออก เวอร์ชันก่อนหน้านี้ใช้ VoiceProcessingIO ของ Apple กับอินพุตไมโครโฟน API นั้นเปลี่ยนสถานะฮาร์ดแวร์ที่ใช้ร่วมกันและรั่ว AGC และการลดเสียงรบกวนเข้าไปในแอปอื่นทุกแอปที่อ่านไมค์เดียวกัน — วิดีโอคอล ซอฟต์แวร์บันทึก อะไรก็ตามที่กำลังทำงาน การบันทึกการประชุมจับเสียงผู้เข้าร่วมผ่าน system-audio tap แยกต่างหาก ดังนั้นไมค์และเสียงสายจึงแยกกันอยู่แล้วในเชิงกายภาพ การตัดเสียงสะท้อนไม่เคยจำเป็นที่นั่น และการเอาออกทำให้ Vext ไม่ทำให้เสียงของคุณแย่ลงโดยไม่ตั้งใจในแอปอื่นขณะที่กำลังบันทึกการประชุม

ออกแบบการตั้งค่าใหม่ แถบด้านข้างการตั้งค่าถูกแทนที่ด้วยตัวเลือกแบบแบ่งส่วน: ทั่วไป, ปุ่มลัด, เสียงและ STT, ภาษาและ LLM, ใบอนุญาต, เกี่ยวกับ สะอาดขึ้น และนำทางง่ายขึ้นบนหน้าจอเล็ก

อัปเดต

brew upgrade muvon/tap/vext

หรือ ดาวน์โหลด Vext 1.2.0 โดยตรง การประชุมที่มีอยู่และโปรไฟล์ผู้พูดจะยังคงอยู่ — ขั้นตอนการระบุผู้พูดแบบออฟไลน์จะทำงานโดยอัตโนมัติครั้งถัดไปที่คุณเปิดการประชุมที่บันทึกก่อนการอัปเดตนี้

หากคุณบันทึกการประชุมที่มีมากกว่าสองคน เปิดการประชุมเก่าสองสามอันหลังจากอัปเดต transcript ที่กำหนดใหม่มักจะเป็นการปรับปรุงที่มีความหมาย

ดาวน์โหลด Vext 1.2.0