เครื่องมือแปลส่วนใหญ่ทำงานกับข้อความ: วางในภาษาหนึ่ง คัดลอกออกอีกภาษาหนึ่ง สำหรับเนื้อหาที่เขียนไว้แล้วก็โอเค แต่มันแย่ในจังหวะที่คุณต้องการการแปลจริง ๆ — กลางความคิด ขณะเขียนด้วยภาษาที่สอง สมองวิ่งเร็วกว่าที่นิ้วจะตามทันในภาษานั้น
การแปลเสียงข้ามขั้นกลางไป คุณพูดภาษา A ข้อความปรากฏที่เคอร์เซอร์ในภาษา B ไม่มีการวนคัดลอก-วาง ไม่มีแท็บแยก จังหวะที่คุณต้องการการแปลจริง ๆ — กลางประโยค กลางความคิด — มันเสร็จไปแล้ว
โพสต์นี้ว่าด้วยเรื่องที่ว่าไปป์ไลน์นี้ทำงานบน Mac อย่างไร ความแม่นยำที่สมจริงเป็นอย่างไร และมันคุ้มตรงไหน
การแปลเสียงบน Mac ทำงานอย่างไร
ไปป์ไลน์มีสองขั้น:
ขั้นที่ 1 — การรู้จำเสียงพูด เสียงพูดของคุณถูกถอดเป็นข้อความในภาษาต้นทาง OpenAI Whisper รองรับกว่า 99 ภาษาตั้งแต่แกะกล่อง และทำงานบน Apple Silicon ทั้งหมด
ขั้นที่ 2 — การแปล ข้อความที่ถอดแล้วถูกแปลเป็นภาษาปลายทาง ตรงนี้มีสองตัวเลือกย่อย:
- โหมดแปลในตัวของ Whisper (เสียงภาษาใดก็ได้ → ข้อความภาษาอังกฤษ) ฟรี เร็ว แต่ไปได้แค่ภาษาอังกฤษ
- รอบแปลแยกต่างหากผ่าน LLM โลคัลขนาดเล็ก (Gemma, Qwen, LLaMA) สองทิศทางระหว่างคู่ภาษาใดก็ได้
แอป Mac ส่วนใหญ่ที่ทำ "การแปลเสียง" ใช้แนวทางที่สอง เพราะมันใช้ได้ทุกทิศทาง ไม่ใช่แค่ไปอังกฤษ คุณจะได้การแปลสองทิศทางเต็มรูปแบบ ทั้งหมดทำงานแบบโลคัลบน Mac ของคุณ
"การแปลสองทิศทาง" หมายความว่าอย่างไรจริง ๆ
ถ้าคุณต้องแปลแค่สเปนเป็นอังกฤษ (เสียงเข้ามา ข้อความอังกฤษออกไป) โหมดแปลของ Whisper อย่างเดียวก็พอ มันเป็นโมเดลเดียว เร็ว แม่นสำหรับภาษาหลัก ๆ
ถ้าคุณต้องการคู่ใดก็ได้ — ฝรั่งเศสเป็นญี่ปุ่น เยอรมันเป็นเกาหลี สเปนเป็นฝรั่งเศส — คุณต้องมีรอบแปลหลังการถอดข้อความ LLM โลคัลขนาดเล็กรองรับเรื่องนี้ได้สำหรับภาษาใดก็ตามในกว่า 99 ภาษาที่ Whisper รู้จัก
กรณีใช้งานของแต่ละทิศทาง:
- ภาษาใดก็ได้ → อังกฤษ: คุณฟังเสียงประชุมที่ไม่ใช่ภาษาอังกฤษ (ทีมพาร์ตเนอร์ในเบอร์ลิน ลูกค้าในเซาเปาโล) แล้วอยากพูดบันทึกเป็นภาษาอังกฤษ โหมดแปลของ Whisper ก็พอ
- อังกฤษ → ภาษาใดก็ได้: คุณพูดภาษาอังกฤษและเขียนถึงผู้อ่านที่ไม่ใช่ภาษาอังกฤษ พูดเป็นอังกฤษ ได้ข้อความที่แปลแล้ว พบบ่อยในงานขายระหว่างประเทศ ทิกเก็ตซัพพอร์ต การสื่อสารกับพาร์ตเนอร์
- ไม่ใช่อังกฤษ → ไม่ใช่อังกฤษ: ผู้ใช้หลายภาษาที่เขียนข้ามคู่ภาษา พบน้อยกว่าแต่มีจริง — คนเม็กซิกันที่พูดสเปนเขียนอีเมลฝรั่งเศส คนพูดญี่ปุ่นเขียนข้อความ Slack เกาหลี ฯลฯ
ความคาดหวังเรื่องความแม่นยำ
สิ่งที่ยากที่สุดที่จะพูดตรง ๆ เกี่ยวกับการแปลคือ "แม่นยำ" มีความหมายต่างกันสำหรับงานต่างกัน
สำหรับการส่งข้อความทั่วไป สรุป และอีเมล: การแปลเสียงแบบโลคัลใช้งานได้จริง ผลลัพธ์ใกล้เคียงเจ้าของภาษาพอที่ผู้อ่านที่เป็นมนุษย์เข้าใจได้โดยไม่ต้องพยายาม และแทบไม่สังเกตเห็นข้อผิดพลาด
สำหรับเนื้อหาที่เผยแพร่ เอกสารกฎหมาย หรืออะไรก็ตามที่ถ้อยคำที่แน่นอนสำคัญ: มันเป็นฉบับร่าง ไม่ใช่ฉบับสุดท้าย คุณต้องมีเจ้าของภาษามาตรวจ
แยกตามคู่ภาษา:
- อังกฤษ ↔ สเปน ฝรั่งเศส เยอรมัน อิตาลี โปรตุเกส: ยอดเยี่ยม Whisper + LLM ขนาดเล็กสมัยใหม่ให้ผลลัพธ์ที่ใช้งานได้ ~95 %+
- อังกฤษ ↔ ญี่ปุ่น เกาหลี จีน: ดีสำหรับร้อยแก้ว สำนวนและถ้อยคำที่มีนัยทางวัฒนธรรมต้องตรวจ
- อังกฤษ ↔ อาหรับ ฮินดี ตุรกี รัสเซีย โปแลนด์: มั่นคงสำหรับเนื้อหาส่วนใหญ่ คำศัพท์เฉพาะทาง (กฎหมาย การแพทย์) มีโอกาสผิดมากกว่า
- ภาษาที่พบน้อยกว่า: ไม่แน่นอน Whisper Large-v3 ดีที่สุดสำหรับการถอดข้อความ คุณภาพการแปลขึ้นอยู่กับว่า LLM ได้รับการฝึกครอบคลุมแค่ไหน
ตัวเลขเหล่านี้เป็นค่าคร่าว ๆ — ความแม่นยำจริงขึ้นอยู่กับขนาดโมเดล คุณภาพเสียง และเนื้อหาของคุณเป็นเชิงเทคนิคแค่ไหน Whisper Large-v3 + LLM ขนาด 4 พันล้านพารามิเตอร์คือจุดลงตัวเชิงปฏิบัติบน Mac 16GB Whisper Small + LLM ตัวเดียวกันเร็วกว่าแต่เสียความแม่นยำไป 1–2 จุด
คลาวด์ vs โลคัล สำหรับการแปล
บริการคลาวด์ (Google Translate, DeepL, การแปลของ OpenAI, การแปลของ Apple ใน macOS) ทำการแปลเสียงได้ดีทั้งหมด ข้อแลกเปลี่ยน:
คลาวด์ชนะเรื่อง:
- ความแม่นยำดีที่สุดในทุกคู่ภาษา รวมถึงคู่ที่หายาก
- การแปลแบบเรียลไทม์ในโหมดสนทนา (ฟีเจอร์สองทางของ Google Translate)
- ไม่ต้องดาวน์โหลดโมเดล
โลคัลชนะเรื่อง:
- ความเป็นส่วนตัว เสียงไม่ออกจาก Mac ของคุณ
- ไม่มีค่าสมาชิก บริการแปลบนคลาวด์มักฟรีจนถึงขีดจำกัด แล้วจึงเสียเงิน
- ไม่พึ่งเครือข่าย ใช้ได้บนเครื่องบิน ใน Wi-Fi งานประชุม ในสถานที่ที่มีการรักษาความปลอดภัย
- ไม่มีโควตาหรือลิมิตอัตรา
- เวิร์กโฟลว์เดียวที่ใช้ได้ในทุกแอป แทนที่จะเป็นแอปแปลหรือแท็บเบราว์เซอร์
เฉพาะสำหรับผู้ใช้ Mac ช่องว่างระหว่างคุณภาพการแปลแบบโลคัลกับคลาวด์แคบลงมากในช่วงสองปีที่ผ่านมา Whisper โลคัล + LLM โลคัลขนาด 4B ให้ผลลัพธ์ใกล้เคียง DeepL พอที่ผู้ใช้ส่วนใหญ่แยกไม่ออกอย่างน่าเชื่อถือในคู่ภาษาทั่วไป ช่องว่างตามจริงในเนื้อหาเฉพาะทางอยู่ที่ราว 5 % มากกว่าจะเป็น 30 % แบบเมื่อก่อน
แอปที่ทำการแปลเสียงสดบน Mac
Vext (จ่ายครั้งเดียว $49) — ตั้งภาษาปลายทางในการตั้งค่า พูดด้วยภาษาใดก็ได้ ได้ข้อความที่แปลแล้วที่เคอร์เซอร์ การแปลทำผ่าน LLM โลคัลหลังการถอดข้อความด้วย Whisper เมื่อเปิด Enhance การจัดเก็บให้เรียบร้อยและการแปลเกิดขึ้นในรอบเดียว — คุณพูดฝรั่งเศสที่รก ๆ ภาษาอังกฤษที่สะอาดก็ปรากฏ
Apple Translate (มีในตัว) — การแปลเสียงระหว่างคู่ภาษาหลัก ฟรี บนเครื่อง ใช้ได้ในแอป Translate แต่ไม่วางที่เคอร์เซอร์ในแอปอื่น สำหรับการแปลข้ามแอปคุณต้องคัดลอก-วาง
MacWhisper — รองรับโหมดแปลของ Whisper (ภาษาใดก็ได้ → อังกฤษ) ไม่ทำการแปลสองทิศทางหรือปลายทางที่ไม่ใช่อังกฤษในรอบเดียว ดีสำหรับการถอดข้อความจากไฟล์พร้อมการแปล
ค่าสมาชิกแบบคลาวด์ — Wispr Flow, Otter ฯลฯ ล้วนมีฟีเจอร์การแปล เป็นแบบค่าสมาชิก ประมวลผลบนคลาวด์
DeepL desktop — การแปลข้อความที่ดีที่สุดในระดับเดียวกัน มีอินพุตเสียงบนบางแพลตฟอร์ม แต่ประสบการณ์บน macOS เอนไปทางพิมพ์ + เสียงเป็นส่วนเสริม ระดับฟรีจำกัด Pro ราคา $9/เดือน
การตั้งค่าใน Vext
การตั้งค่าเฉพาะสำหรับการแปลเสียงใน Vext:
- ติดตั้ง:
brew install muvon/tap/vext - เปิด Settings > Languages
- ตั้ง Source language เป็น "Auto" (Whisper ตรวจจับ) หรือปักไว้ที่ภาษาใดภาษาหนึ่งเพื่อความแม่นยำที่ดีกว่า
- ตั้ง Target language เป็นภาษาที่คุณต้องการให้เป็นผลลัพธ์
- เปิด Enhance — ทำให้การจัดเก็บให้เรียบร้อย + การแปลเกิดขึ้นในรอบ LLM เดียว
- ทางเลือก: ดาวน์โหลดโมเดล Whisper ที่ใหญ่ขึ้น (Large-v3) เพื่อความแม่นยำสูงสุดกับเสียงต้นทางที่ไม่ใช่ภาษาอังกฤษ
จากนั้น: คลิกในช่องข้อความใดก็ได้ กดปุ่มลัดค้างไว้ พูดในภาษาต้นทาง ปล่อย ข้อความที่แปลแล้วปรากฏที่เคอร์เซอร์
คำแนะนำสำหรับผู้ใช้ที่สลับคู่ภาษาบ่อย: อย่าพยายามให้ระบบตรวจจับภาษาต้นทางอัตโนมัติทุกครั้งที่พูด — ปักไว้ที่ภาษาที่คุณใช้อยู่ตอนนี้ แล้วเปลี่ยนเองเมื่อสลับ การตรวจจับอัตโนมัติมักถูกต้อง แต่บางครั้งเดาผิดในคำสองสามคำแรก แล้วทั้งคำพูดถูกถอดเป็นภาษาที่ผิด เวลา 2 วินาทีในการสลับภาษาต้นทางในการตั้งค่าช่วยลดความขัดข้องนั้น
เวิร์กโฟลว์ที่สิ่งนี้เปลี่ยนแปลง
ทิกเก็ตซัพพอร์ตเป็นภาษาอังกฤษที่ไม่ใช่ภาษาแม่ เจ้าหน้าที่ซัพพอร์ตที่ภาษาแม่ไม่ใช่อังกฤษมักเขียนช้ากว่าและแก้มากกว่าในภาษาอังกฤษ การพูดด้วยภาษาแม่แล้วได้ข้อความภาษาอังกฤษช่วยลดภาระการเขียน
การสื่อสารข้ามทีม ทีมวิศวกรเม็กซิกันเขียนถึงทีมผลิตภัณฑ์เกาหลี แต่ละฝ่ายเขียนด้วยภาษาแม่ของตน อีกฝ่ายอ่านในภาษาของตน การแปลเกิดขึ้นแบบโลคัลที่ปลายแต่ละฝั่ง
สายขายกับลูกค้าที่ไม่ใช่เจ้าของภาษา จดบันทึกระหว่างสายด้วยภาษาแม่ของคุณ ส่งออกเป็นภาษาของลูกค้าเพื่อติดตามผล
การฝึกภาษา พูดด้วยภาษาที่คุณกำลังเรียน ดูว่าออกมาเป็นอย่างไร เทียบกับสิ่งที่คุณตั้งใจ การแปลเสียงในฐานะตัวช่วยเขียนสำหรับผู้เรียนภาษา — เข้มข้นกว่าการพิมพ์เพราะคุณได้ยินตัวเอง
การเดินทาง ทำงานทางไกลจากประเทศที่คุณไม่พูดภาษานั้น พูดบันทึกด้วยภาษาแม่ของคุณ ได้มันเป็นภาษาท้องถิ่นเมื่อต้องสื่อสาร หรือกลับกัน
สิ่งที่มันไม่ได้แทนที่
การแปลเสียงในแอปพูดเป็นข้อความไม่เหมือนกับ:
การล่ามสนทนาแบบเรียลไทม์ ถ้าคุณพยายามคุยสด ๆ กับคนที่พูดภาษาต่างกัน คุณต้องใช้โหมดสนทนาของ Google Translate หรือโทรศัพท์ที่มีในตัว แอปพูดเป็นข้อความมีไว้สำหรับทำงานคนเดียว ไม่ใช่การล่าม
การแปลเอกสาร สำหรับการแปลเอกสารที่มีอยู่แล้ว โหมดข้อความ/ไฟล์ของ DeepL หรือ Google Translate มีประสิทธิภาพกว่า เสียงไม่ช่วยถ้าคุณมีข้อความต้นทางอยู่แล้ว
การทำซับไตเติล สำหรับซับไตเติลวิดีโอในอีกภาษา คุณต้องใช้เวิร์กโฟลว์เฉพาะที่มีโหมดแปลของ Whisper + เครื่องมือทำคำบรรยาย ทำได้กับ Vext ผ่านการส่งออกไฟล์เป็น SRT แต่ไม่ใช่กรณีใช้งานหลัก
ข้อสังเกตเรื่องความแม่นยำและความเชื่อใจ
ถ้าคุณใช้คำพูดที่แปลแล้วสำหรับอะไรที่มีผลตามมา — อีเมลลูกค้าที่ต้องอ่านดูเป็นมืออาชีพ ภาคผนวกสัญญา โพสต์สาธารณะ — อ่านก่อนส่ง การแปลเสียงแบบโลคัลดีพอที่คุณเชื่อใจได้สำหรับฉบับร่างแรก แต่ไม่ดีพอที่คุณควรเชื่อใจโดยไม่ตรวจ
รูปแบบที่ได้ผล:
- พูดด้วยภาษาแม่ของคุณ
- อ่านผลลัพธ์ที่แปลแล้ว
- แก้ตรงที่ฟังดูแปลก
- ส่ง
ขั้นแก้ไขนั้นไม่ค่อยมีสำหรับเนื้อหาทั่วไป (Slack อีเมลภายใน) และสำคัญสำหรับเนื้อหาที่ส่งออกภายนอกหรือที่ต้องแม่นยำ การแปลพาคุณไป 95 % ของทาง คุณคืออีก 5 %
สำหรับผู้ใช้ Mac ที่ทำงานหลายภาษา จุดปลดล็อกไม่ได้อยู่ที่เทคโนโลยีสมบูรณ์แบบแล้ว แต่อยู่ที่มันดีพอจนคุณเลิกเปิดแท็บแปล