เครื่องมือถอดเสียงประชุมส่วนใหญ่ส่งเสียงของคุณไปยังเซิร์ฟเวอร์ การสนทนาของคุณ — การอภิปรายธุรกิจที่เป็นความลับ เรื่องบุคลากร การโทรลูกค้า — ถูกประมวลผลและเก็บบนโครงสร้างพื้นฐานของบุคคลที่สาม

หากสิ่งนั้นกังวลคุณ มีทางเลือก Mac Apple Silicon สามารถรันโมเดลรู้จำเสียงในเครื่องที่แข่งขันกับบริการคลาวด์ในด้านความแม่นยำได้ วิธีตั้งค่าการถอดเสียงประชุมในเครื่องบน macOS

สิ่งที่คุณต้องการ

  • Mac Apple Silicon (M1, M2, M3, M4)
  • macOS 14 Sonoma หรือใหม่กว่า
  • แอปถอดเสียงในเครื่อง (คู่มือนี้ใช้ Vext)

มันทำงานอย่างไร

เมื่อคุณเริ่มบันทึกการประชุมใน Vext สตรีมเสียงสองตัวจะถูกจับพร้อมกัน:

  1. ไมโครโฟน — เสียงของคุณ ผ่าน AVAudioEngine มาตรฐาน
  2. เสียงระบบ — ทุกคนอื่นในการประชุม ผ่าน macOS Core Audio process tap (มีใน macOS 14.2+)

นี่หมายความว่า Vext ทำงานกับแอปประชุมใด ๆ — Zoom, Google Meet, FaceTime, Microsoft Teams, Discord หรือแอปอื่นใดที่ผลิตเอาต์พุตเสียง ไม่มีปลั๊กอิน ไม่มีบอทเข้าร่วมการโทร ไม่ต้องการการผสานรวมแอปประชุม

เมื่อคุณหยุดบันทึก:

  1. เสียงถูกแบ่งโดยใช้ Voice Activity Detection (VAD) — ช่องว่างเงียบถูกระบุเพื่อแยกเสียงเป็นช่วงการพูดธรรมชาติ
  2. แต่ละช่วงถูกถอดเสียงในเครื่องโดยใช้เอนจิน Parakeet ที่ 150x เรียลไทม์
  3. ป้ายผู้พูดถูกใช้ — "ฉัน" สำหรับเสียงไมโครโฟน "พวกเขา" สำหรับเสียงระบบ
  4. หากเปิด Enhance ข้อความถอดเสียงถูกทำความสะอาดและแปลตัวเลือก
  5. หากเปิด Summarize สรุป AI พร้อมประเด็นสำคัญและรายการที่ต้องทำถูกสร้าง

ทุกอย่างเกิดบน Mac ของคุณ ไม่มีอะไรออกจากอุปกรณ์

การตั้งค่า

ขั้นตอนที่ 1: ติดตั้ง Vext

brew install muvon/tap/vext

หรือดาวน์โหลดจาก getvext.app ทดลองฟรีรวม 10 บันทึกการประชุม

ขั้นตอนที่ 2: ให้สิทธิ์

เมื่อเปิดครั้งแรก Vext ร้องขอสามสิทธิ์:

  • ไมโครโฟน — เพื่อจับเสียงของคุณ
  • Accessibility — สำหรับระบบ hotkey สากล
  • บันทึกหน้าจอ — macOS ต้องการสำหรับจับเสียงระบบ (process tap API ต้องการสิทธิ์นี้แม้ไม่มีการบันทึกเนื้อหาหน้าจอ)

ขั้นตอนที่ 3: เริ่มการบันทึก

กดปุ่ม Fn เพื่อสลับการบันทึกการประชุม จุดสีแดงเต้นปรากฏใกล้เคอร์เซอร์ของคุณและไอคอนแถบเมนูกระพริบสีแดงเพื่อบ่งบอกการบันทึกใช้งานอยู่

เข้าร่วม Zoom, Meet, หรือ FaceTime call ตามปกติ Vext จับทั้งสองด้านของการสนทนาในพื้นหลัง

ขั้นตอนที่ 4: หยุดและตรวจสอบ

กด Fn อีกครั้งเพื่อหยุด Vext ประมวลผลเสียง — โดยปกติไม่กี่วินาทีสำหรับการประชุม 30 นาทีที่ความเร็วถอดเสียง 150x เรียลไทม์

คุณได้:

  • ข้อความถอดเสียงเต็มพร้อมป้ายผู้พูดและ timestamp
  • สรุป AI พร้อมประเด็นสำคัญ (หากเปิด)
  • รายการที่ต้องทำที่ดึงจากการอภิปราย (หากเปิด)

จับ screenshot ระหว่างการประชุม

ขณะบันทึกการประชุม คุณสามารถจับพื้นที่ใด ๆ ของหน้าจอ ลากเพื่อเลือกบริเวณ — screenshot จะถูกแนบกับข้อความถอดเสียงโดยอัตโนมัติ

มีประโยชน์สำหรับ:

  • สไลด์จากการนำเสนอ
  • โค้ดหรือดีไซน์ที่กำลังพูดถึง
  • ไดอะแกรมบนไวท์บอร์ดที่แชร์
  • บริบทเชิงภาพใด ๆ ที่เสริมเนื้อหาที่พูด

หลาย screenshot ต่อการประชุม ทั้งหมดบันทึกควบคู่กับข้อความถอดเสียง

ตัวเลือกการ export

ข้อความถอดเสียงสามารถ export เป็นหลายรูปแบบ:

รูปแบบ กรณีใช้
TXT ข้อความเรียบง่าย วางได้ทุกที่
Markdown จัดรูปแบบพร้อมป้ายผู้พูดและ timestamp
SRT คำบรรยายสำหรับตัดต่อวิดีโอ
VTT คำบรรยายเว็บ (HTML5 video)

เคล็ดลับสำหรับคุณภาพการถอดเสียงดีขึ้น

ใช้ไมโครโฟนที่ดี ไมโครโฟน Mac ในตัวเพียงพอในสภาพแวดล้อมที่เงียบ แต่ไมโครโฟนหูฟังหรือภายนอกปรับปรุงความแม่นยำอย่างมาก — โดยเฉพาะเมื่อเสียงประชุมของคุณเล่นผ่านลำโพงและอาจสร้าง feedback

ลดเสียงรบกวนพื้นหลัง ปิดหน้าต่าง ปิดเสียงการแจ้งเตือน และหลีกเลี่ยงการพิมพ์ระหว่างส่วนสำคัญ ระบบ VAD จัดการความเงียบได้ดี แต่เสียงรบกวนพื้นหลังต่อเนื่องลดความแม่นยำการถอดเสียง

ปล่อยให้คนพูดจบ การพูดทับซ้อนเป็นสถานการณ์ที่ยากที่สุดสำหรับระบบถอดเสียงใด ๆ เมื่อผู้พูดผลัดกันอย่างชัดเจน ความแม่นยำดีขึ้นอย่างมีนัยสำคัญ

ตรวจสอบการตั้งค่าเสียงระบบ หากเสียงประชุมไม่ปรากฏในข้อความถอดเสียง ตรวจสอบว่าสิทธิ์การบันทึกหน้าจอได้รับและแอปประชุมของคุณส่งเอาต์พุตเสียงผ่านอุปกรณ์เอาต์พุตระบบเริ่มต้น

เปรียบเทียบความเป็นส่วนตัว

ด้าน การถอดเสียงคลาวด์ การถอดเสียงในเครื่อง
เสียงส่งไป server ใช่ ไม่
เก็บโดยบุคคลที่สาม โดยปกติ ไม่เคย
ทำงานออฟไลน์ ไม่ ใช่
นโยบายข้อมูลบุคคลที่สาม ใช้ ไม่มี
การปฏิบัติตาม (HIPAA ฯลฯ) แตกต่างกัน อุปกรณ์ของคุณ การควบคุมของคุณ

สำหรับองค์กรในอุตสาหกรรมที่ควบคุม — การดูแลสุขภาพ กฎหมาย การเงิน — การถอดเสียงในเครื่องขจัดทั้งหมวดความเสี่ยงการปฏิบัติตาม ข้อมูลไม่เคยออกจากอุปกรณ์ ดังนั้นจึงไม่มีข้อตกลงการประมวลผลข้อมูลของบุคคลที่สามให้เจรจา

ความแม่นยำ

โดยใช้เอนจิน Parakeet Vext ทำได้ word error rate เทียบเท่ากับบริการคลาวด์ชั้นนำ — ประมาณ 4–5% บนการพูดอังกฤษทั่วไป คำศัพท์เทคนิคและภาษาที่ไม่ใช่อังกฤษอาจมีอัตราข้อผิดพลาดสูงขึ้นขึ้นอยู่กับเนื้อหาต้นทาง

สำหรับการประชุมสำคัญที่ความแม่นยำสำคัญที่สุด ตรวจสอบข้อความถอดเสียงหลังการประชุม การรวมความเร็วการถอดเสียงในเครื่อง (เกือบทันที) และการทำความสะอาด AI (Enhance) หมายความว่ากระบวนการตรวจสอบรวดเร็ว — คุณกำลังตรวจสอบ ไม่ใช่ถอดเสียงจากศูนย์

ดาวน์โหลด Vext — 10 บันทึกการประชุมฟรี ไม่ต้องมีบัญชี ไม่ต้องใช้บัตรเครดิต ใช้ได้กับแอปประชุมใด ๆ บน macOS 14+