มีการเปลี่ยนแปลงเงียบ ๆ ในการถอดเสียง ห้าปีก่อน อะไรที่ดีรันบนคลาวด์ Apple Silicon เปลี่ยนคณิตศาสตร์ — M1 เป็นต้นไปมาพร้อม neural engine ที่เร็วพอที่จะรันโมเดลรู้จำเสียงจริง ๆ บนเครื่อง และช่องว่างระหว่างคลาวด์และในเครื่องหดเหลือเกือบไม่มีสำหรับ workload ส่วนใหญ่
คู่มือนี้ครอบคลุมว่าเสียงเป็นข้อความออฟไลน์บน Mac หมายความว่าอย่างไรจริง ๆ เทคโนโลยีเบื้องหลังทำงานอย่างไร และเครื่องมือใดที่ควรใช้
ทำไม "ออฟไลน์" จึงเป็นไปได้
การรู้จำเสียงเคยเป็นปัญหาคลาวด์เพราะโมเดลใหญ่เกินกว่าจะรันบนฮาร์ดแวร์ผู้บริโภคในเวลาจริง Whisper-Large ประมาณ 1.5 GB การรันที่ความเร็วการสนทนาต้องใช้ compute มาก
สิ่งที่เปลี่ยน:
- neural engine ของ Apple Silicon ทำได้ประมาณ 11–15 TOPS บน M1 พื้นฐาน เพิ่มเป็น 38 TOPS บน M3 Pro และสูงกว่า นั่นเพียงพอสำหรับรัน Whisper-Medium หรือ Parakeet เร็วกว่าเวลาจริง
- โมเดลขนาดเล็กดีขึ้น Parakeet (โมเดล RNN-T ของ NVIDIA) ทำความแม่นยำที่แข่งขันได้ในเศษส่วนของขนาด Whisper และรันที่ประมาณ 150x เรียลไทม์บนชิป M-series
- CoreML และ Metal เป็นผู้ใหญ่พอที่ Whisper.cpp และการใช้งานที่คล้ายกันใช้ฮาร์ดแวร์อย่างเหมาะสมแทนการ pin CPU
ผล: ตอนนี้คุณสามารถ dictation ถอดเสียงการประชุม หรือประมวลผลไฟล์ความยาวหนึ่งชั่วโมงในเครื่องบน MacBook Air โดยพัดลมไม่หมุนด้วยซ้ำ
"ออฟไลน์" ให้อะไรคุณจริง ๆ
ความเป็นส่วนตัวเป็นสิ่งที่ชัดเจน — เสียงของคุณไม่ไปไหนเลย แต่ยังมีประโยชน์ปฏิบัติที่สำคัญในแต่ละวัน:
latency หายไป การถอดเสียงคลาวด์มี round-trip เครือข่าย แม้บนการเชื่อมต่อที่รวดเร็ว นั่นเป็น overhead 50–200ms ต่อคำขอ inference ในเครื่องคืนผลเร็วเท่าที่โมเดลผลิตได้ ซึ่งบน Apple Silicon โดยปกติแล้วต่ำกว่า 200ms รวมสำหรับการพูดสั้น
ทำงานออฟไลน์ เที่ยวบิน รถไฟ Wi-Fi โรงแรม สถานที่ที่ปลอดภัย Wi-Fi การประชุมที่ throttle ทุกอย่าง ไม่มีอะไรเหล่านี้สำคัญถ้าโมเดลอยู่บนเครื่องของคุณ
ไม่มีค่าสมาชิก บริการคลาวด์คิดเงินตามนาทีหรือเดือน แอปในเครื่องโดยปกติเป็นการซื้อครั้งเดียวหรือฟรี
ไม่มี vendor lock-in ข้อความถอดเสียงของคุณอยู่ใน filesystem ของคุณ หากบริษัทที่สร้างแอปปิดตัวลง ข้อมูลของคุณยังอยู่
คาดเดาได้ บริการคลาวด์เปลี่ยนราคา deprecate APIs และจำกัดอัตรา เครื่องมือในเครื่องแค่ทำงานต่อไป
การรู้จำเสียงบนเครื่อง Mac ทำงานอย่างไร
ครอบครัวโมเดลสองตัวครอบงำบน Apple Silicon:
OpenAI Whisper
Whisper เป็น encoder-decoder transformer ที่ฝึกจาก 680,000 ชั่วโมงของคำพูดหลายภาษา open-weight มีหลายขนาด (Tiny, Base, Small, Medium, Large) และจัดการมากกว่า 99 ภาษา
ขนาดและ trade-off คร่าว ๆ บน Mac M-series:
| โมเดล | ขนาด | RAM | ความเร็ว (M2) | WER (อังกฤษ) |
|---|---|---|---|---|
| Tiny | 75 MB | ~400 MB | ~30x เรียลไทม์ | ~9% |
| Base | 142 MB | ~500 MB | ~20x เรียลไทม์ | ~7% |
| Small | 466 MB | ~1 GB | ~10x เรียลไทม์ | ~5.5% |
| Medium | 1.5 GB | ~2.5 GB | ~5x เรียลไทม์ | ~4.8% |
| Large-v3 | 3 GB | ~5 GB | ~2x เรียลไทม์ | ~4.2% |
โมเดลใหญ่กว่าแม่นยำกว่าแต่ใช้ RAM มากกว่าและรันช้ากว่า สำหรับ dictation ส่วนใหญ่ Small หรือ Medium คือจุด sweet spot สำหรับการประชุมหรือไฟล์ที่คุณต้องการความแม่นยำสูงสุด Large-v3
NVIDIA Parakeet
Parakeet เป็นโมเดล RNN-T (recurrent neural network transducer) มันเร็วกว่า Whisper ที่ความแม่นยำใกล้เคียง อังกฤษเท่านั้นโดยค่าเริ่มต้น และรันที่ประมาณ 150x เรียลไทม์บน M2
Parakeet เป็นค่าเริ่มต้นที่ดีกว่าสำหรับ dictation อังกฤษเพราะข้อได้เปรียบของ latency ใหญ่ — คุณแทบจะไม่สังเกตเห็นว่าโมเดลกำลังรันอยู่ ข้อเสียคือการสนับสนุนภาษาเดียว หากคุณต้องการการถอดเสียงหลายภาษา Whisper คือทางเลือก
แอป Mac สมัยใหม่ส่วนใหญ่ให้คุณเลือกเอนจินที่ใช้ต่องาน
สิ่งที่รันในเครื่องนอกเหนือจากการถอดเสียง
การรู้จำเสียงเป็นเพียงครึ่งหนึ่งของภาพ pipeline เต็มสำหรับ dictation มักดูเหมือน:
- จับเสียง — อินพุตไมโครโฟนหรือเสียงระบบ
- การรู้จำเสียง — Whisper หรือ Parakeet ผลิตข้อความดิบ
- การประมวลผลหลัง — เครื่องหมายวรรคตอน ตัวพิมพ์ใหญ่ การลบคำเติม
- ทางเลือก: ทำความสะอาด LLM — โมเดลภาษาในเครื่องเขียนข้อความใหม่ให้อ่านเหมือนงานเขียนที่ขัดเงา
- ทางเลือก: การแปล — ผลลัพธ์ในภาษาที่ต่างจากอินพุต
ขั้นตอน 4 และ 5 ใช้ LLM ในเครื่องขนาดเล็ก (Gemma 3 4B, Qwen 3 4B, LLaMA 3.2 3B) ที่รันผ่าน llama.cpp หรือ MLX ขนาดประมาณ 2–4 GB ต่อตัวและรันที่ความเร็วการสนทนาบนชิป M-series ผลลัพธ์อ่านเหมือนงานเขียนที่ตัดต่อแล้วมากกว่าข้อความถอดเสียงดิบ
การถอดเสียงประชุมเพิ่มอีกสองส่วน:
- การแยกผู้พูด — หาว่าใครพูดอะไร ทำด้วย neural embeddings ของลักษณะเสียง ทั้งหมดในเครื่อง
- การสรุป — ป้อนข้อความถอดเสียงให้ LLM ในเครื่องพร้อมพรอมต์ "สรุปการประชุมนี้" เพื่อดึงรายการที่ต้องทำและการตัดสินใจหลัก
ไม่มีสิ่งใดต้องใช้คลาวด์อีกต่อไป
เครื่องมือที่ทำสิ่งนี้ได้ดี
ฟรีหรือราคาต่ำ:
- Apple Dictation — ในตัวใน macOS บนเครื่องสำหรับเวอร์ชันบนเครื่อง จำกัดที่ dictation สั้น
- MacWhisper — ฟรีสำหรับถอดเสียงไฟล์ €64 Pro สำหรับ dictation สด
- VoiceInk — open-source $25–49 ครั้งเดียว
- FluidVoice — ฟรี open-source สนับสนุน Parakeet
จ่ายเงินด้วย scope กว้างขึ้น:
- Vext — $49 ครั้งเดียว dictation บวกการประชุมบวกการแปล ทั้งหมดในเครื่อง
- Superwhisper — $249 ตลอดชีพ เน้น dictation พร้อมโหมดกำหนดเอง
- Voibe — $198 ตลอดชีพ dictation เน้นความเป็นส่วนตัว
การแบ่งระหว่างพวกเขาส่วนใหญ่เกี่ยวกับขอบเขตฟีเจอร์ trade-off ในเครื่อง-เทียบ-คลาวด์ได้รับการแก้ไขแล้ว — ในเครื่องแข่งขันได้จริงในความแม่นยำและเร็วกว่าใน latency ทุกอย่างใต้ระดับสูงสุดของบริการคลาวด์ (Otter Premium, Rev) ถูกจับคู่หรือเอาชนะโดยสิ่งที่รันบน laptop ของคุณ
เมื่อคลาวด์ยังคงชนะ
เพื่อความซื่อสัตย์: บริการคลาวด์ยังคงมีข้อได้เปรียบในกรณีเฉพาะ
การทำงานร่วมกันของทีม Otter, Fireflies, Granola — มีไลบรารีข้อความถอดเสียงที่แชร์ ความเห็น co-watching เรียลไทม์ หาก workflow ของคุณเกี่ยวข้องกับหลายคนที่ทำงานบนข้อความถอดเสียงเดียวกัน คลาวด์ถูกสร้างมาเพื่อสิ่งนั้น
ความแม่นยำเฉพาะอุตสาหกรรม การแพทย์ กฎหมาย และโดเมนเทคนิคมีโมเดลคลาวด์เฉพาะที่ฝึกบนคำศัพท์อุตสาหกรรมที่ Whisper หรือ Parakeet ในเครื่องจะไม่ตรงโดยไม่มี fine-tuning
ข้ามแพลตฟอร์ม หากคุณสลับระหว่าง Mac, Windows และ iPhone อย่างต่อเนื่อง บริการคลาวด์ sync ข้ามทั้งหมด
สำหรับงานเดี่ยวบน Mac ไม่มีสิ่งใดเหล่านี้สำคัญโดยปกติ สำหรับงานเป็นทีมในอุตสาหกรรมที่ควบคุม อาจเป็น
ตั้งค่าเสียงเป็นข้อความในเครื่อง
สามขั้นตอน:
- เลือกแอป สำหรับคนส่วนใหญ่ คำตอบที่ถูกต้องคือหนึ่งใน MacWhisper (ทดลองฟรี), Vext (ทดลองฟรี), หรือ Superwhisper (ทดลองฟรี) ลองหนึ่ง ดูว่าเข้ากันหรือไม่
- ดาวน์โหลดโมเดล การรันครั้งแรกดาวน์โหลด 600 MB ถึง 3 GB ขึ้นอยู่กับโมเดลที่คุณเลือก หลังจากนั้นมันแค่ทำงาน
- ตั้ง hotkey แอปส่วนใหญ่ค่าเริ่มต้นเป็น fn หรือ trigger right-shift เลือกบางอย่างที่คุณสามารถกดได้โดยไม่ต้องคิด
นั่นคือการตั้งค่าทั้งหมด ไม่มีบัญชี ไม่มี API keys ไม่มีระดับการใช้งาน
ข้อสรุปเชิงปฏิบัติ
เสียงเป็นข้อความออฟไลน์บน Mac หยุดเป็นการประนีประนอมในปี 2023 และข้ามไปยัง "ดีกว่าคลาวด์จริง ๆ" สำหรับกรณีใช้ส่วนใหญ่ในช่วงปลายปี 2024 latency ต่ำกว่า ความเป็นส่วนตัวจริง และราคาเป็นครั้งเดียวแทนรายเดือน
หากคุณใช้ dictation คลาวด์ด้วยความเคยชิน คุ้มค่าที่จะลองทางเลือกในเครื่อง ช่องว่างที่คุณอาจจะจำได้จากไม่กี่ปีก่อนไม่อยู่ที่นั่นอีกต่อไป