เครื่องมือถอดเสียงประชุมส่วนใหญ่ส่งเสียงของคุณไปยังเซิร์ฟเวอร์ การสนทนาของคุณ — การอภิปรายธุรกิจที่เป็นความลับ เรื่องบุคลากร การโทรลูกค้า — ถูกประมวลผลและเก็บบนโครงสร้างพื้นฐานของบุคคลที่สาม
หากสิ่งนั้นกังวลคุณ มีทางเลือก Mac Apple Silicon สามารถรันโมเดลรู้จำเสียงในเครื่องที่แข่งขันกับบริการคลาวด์ในด้านความแม่นยำได้ วิธีตั้งค่าการถอดเสียงประชุมในเครื่องบน macOS
สิ่งที่คุณต้องการ
- Mac Apple Silicon (M1, M2, M3, M4)
- macOS 14 Sonoma หรือใหม่กว่า
- แอปถอดเสียงในเครื่อง (คู่มือนี้ใช้ Vext)
มันทำงานอย่างไร
เมื่อคุณเริ่มบันทึกการประชุมใน Vext สตรีมเสียงสองตัวจะถูกจับพร้อมกัน:
- ไมโครโฟน — เสียงของคุณ ผ่าน AVAudioEngine มาตรฐาน
- เสียงระบบ — ทุกคนอื่นในการประชุม ผ่าน macOS Core Audio process tap (มีใน macOS 14.2+)
นี่หมายความว่า Vext ทำงานกับแอปประชุมใด ๆ — Zoom, Google Meet, FaceTime, Microsoft Teams, Discord หรือแอปอื่นใดที่ผลิตเอาต์พุตเสียง ไม่มีปลั๊กอิน ไม่มีบอทเข้าร่วมการโทร ไม่ต้องการการผสานรวมแอปประชุม
เมื่อคุณหยุดบันทึก:
- เสียงถูกแบ่งโดยใช้ Voice Activity Detection (VAD) — ช่องว่างเงียบถูกระบุเพื่อแยกเสียงเป็นช่วงการพูดธรรมชาติ
- แต่ละช่วงถูกถอดเสียงในเครื่องโดยใช้เอนจิน Parakeet ที่ 150x เรียลไทม์
- ป้ายผู้พูดถูกใช้ — "ฉัน" สำหรับเสียงไมโครโฟน "พวกเขา" สำหรับเสียงระบบ
- หากเปิด Enhance ข้อความถอดเสียงถูกทำความสะอาดและแปลตัวเลือก
- หากเปิด Summarize สรุป AI พร้อมประเด็นสำคัญและรายการที่ต้องทำถูกสร้าง
ทุกอย่างเกิดบน Mac ของคุณ ไม่มีอะไรออกจากอุปกรณ์
การตั้งค่า
ขั้นตอนที่ 1: ติดตั้ง Vext
brew install muvon/tap/vext
หรือดาวน์โหลดจาก getvext.app ทดลองฟรีรวม 10 บันทึกการประชุม
ขั้นตอนที่ 2: ให้สิทธิ์
เมื่อเปิดครั้งแรก Vext ร้องขอสามสิทธิ์:
- ไมโครโฟน — เพื่อจับเสียงของคุณ
- Accessibility — สำหรับระบบ hotkey สากล
- บันทึกหน้าจอ — macOS ต้องการสำหรับจับเสียงระบบ (process tap API ต้องการสิทธิ์นี้แม้ไม่มีการบันทึกเนื้อหาหน้าจอ)
ขั้นตอนที่ 3: เริ่มการบันทึก
กดปุ่ม Fn เพื่อสลับการบันทึกการประชุม จุดสีแดงเต้นปรากฏใกล้เคอร์เซอร์ของคุณและไอคอนแถบเมนูกระพริบสีแดงเพื่อบ่งบอกการบันทึกใช้งานอยู่
เข้าร่วม Zoom, Meet, หรือ FaceTime call ตามปกติ Vext จับทั้งสองด้านของการสนทนาในพื้นหลัง
ขั้นตอนที่ 4: หยุดและตรวจสอบ
กด Fn อีกครั้งเพื่อหยุด Vext ประมวลผลเสียง — โดยปกติไม่กี่วินาทีสำหรับการประชุม 30 นาทีที่ความเร็วถอดเสียง 150x เรียลไทม์
คุณได้:
- ข้อความถอดเสียงเต็มพร้อมป้ายผู้พูดและ timestamp
- สรุป AI พร้อมประเด็นสำคัญ (หากเปิด)
- รายการที่ต้องทำที่ดึงจากการอภิปราย (หากเปิด)
จับ screenshot ระหว่างการประชุม
ขณะบันทึกการประชุม คุณสามารถจับพื้นที่ใด ๆ ของหน้าจอ ลากเพื่อเลือกบริเวณ — screenshot จะถูกแนบกับข้อความถอดเสียงโดยอัตโนมัติ
มีประโยชน์สำหรับ:
- สไลด์จากการนำเสนอ
- โค้ดหรือดีไซน์ที่กำลังพูดถึง
- ไดอะแกรมบนไวท์บอร์ดที่แชร์
- บริบทเชิงภาพใด ๆ ที่เสริมเนื้อหาที่พูด
หลาย screenshot ต่อการประชุม ทั้งหมดบันทึกควบคู่กับข้อความถอดเสียง
ตัวเลือกการ export
ข้อความถอดเสียงสามารถ export เป็นหลายรูปแบบ:
| รูปแบบ | กรณีใช้ |
|---|---|
| TXT | ข้อความเรียบง่าย วางได้ทุกที่ |
| Markdown | จัดรูปแบบพร้อมป้ายผู้พูดและ timestamp |
| SRT | คำบรรยายสำหรับตัดต่อวิดีโอ |
| VTT | คำบรรยายเว็บ (HTML5 video) |
เคล็ดลับสำหรับคุณภาพการถอดเสียงดีขึ้น
ใช้ไมโครโฟนที่ดี ไมโครโฟน Mac ในตัวเพียงพอในสภาพแวดล้อมที่เงียบ แต่ไมโครโฟนหูฟังหรือภายนอกปรับปรุงความแม่นยำอย่างมาก — โดยเฉพาะเมื่อเสียงประชุมของคุณเล่นผ่านลำโพงและอาจสร้าง feedback
ลดเสียงรบกวนพื้นหลัง ปิดหน้าต่าง ปิดเสียงการแจ้งเตือน และหลีกเลี่ยงการพิมพ์ระหว่างส่วนสำคัญ ระบบ VAD จัดการความเงียบได้ดี แต่เสียงรบกวนพื้นหลังต่อเนื่องลดความแม่นยำการถอดเสียง
ปล่อยให้คนพูดจบ การพูดทับซ้อนเป็นสถานการณ์ที่ยากที่สุดสำหรับระบบถอดเสียงใด ๆ เมื่อผู้พูดผลัดกันอย่างชัดเจน ความแม่นยำดีขึ้นอย่างมีนัยสำคัญ
ตรวจสอบการตั้งค่าเสียงระบบ หากเสียงประชุมไม่ปรากฏในข้อความถอดเสียง ตรวจสอบว่าสิทธิ์การบันทึกหน้าจอได้รับและแอปประชุมของคุณส่งเอาต์พุตเสียงผ่านอุปกรณ์เอาต์พุตระบบเริ่มต้น
เปรียบเทียบความเป็นส่วนตัว
| ด้าน | การถอดเสียงคลาวด์ | การถอดเสียงในเครื่อง |
|---|---|---|
| เสียงส่งไป server | ใช่ | ไม่ |
| เก็บโดยบุคคลที่สาม | โดยปกติ | ไม่เคย |
| ทำงานออฟไลน์ | ไม่ | ใช่ |
| นโยบายข้อมูลบุคคลที่สาม | ใช้ | ไม่มี |
| การปฏิบัติตาม (HIPAA ฯลฯ) | แตกต่างกัน | อุปกรณ์ของคุณ การควบคุมของคุณ |
สำหรับองค์กรในอุตสาหกรรมที่ควบคุม — การดูแลสุขภาพ กฎหมาย การเงิน — การถอดเสียงในเครื่องขจัดทั้งหมวดความเสี่ยงการปฏิบัติตาม ข้อมูลไม่เคยออกจากอุปกรณ์ ดังนั้นจึงไม่มีข้อตกลงการประมวลผลข้อมูลของบุคคลที่สามให้เจรจา
ความแม่นยำ
โดยใช้เอนจิน Parakeet Vext ทำได้ word error rate เทียบเท่ากับบริการคลาวด์ชั้นนำ — ประมาณ 4–5% บนการพูดอังกฤษทั่วไป คำศัพท์เทคนิคและภาษาที่ไม่ใช่อังกฤษอาจมีอัตราข้อผิดพลาดสูงขึ้นขึ้นอยู่กับเนื้อหาต้นทาง
สำหรับการประชุมสำคัญที่ความแม่นยำสำคัญที่สุด ตรวจสอบข้อความถอดเสียงหลังการประชุม การรวมความเร็วการถอดเสียงในเครื่อง (เกือบทันที) และการทำความสะอาด AI (Enhance) หมายความว่ากระบวนการตรวจสอบรวดเร็ว — คุณกำลังตรวจสอบ ไม่ใช่ถอดเสียงจากศูนย์
ดาวน์โหลด Vext — 10 บันทึกการประชุมฟรี ไม่ต้องมีบัญชี ไม่ต้องใช้บัตรเครดิต ใช้ได้กับแอปประชุมใด ๆ บน macOS 14+