แปลงเสียงเป็นข้อความออฟไลน์บน Mac — การรู้จำเสียงในเครื่องทำงานอย่างไร

มีการเปลี่ยนแปลงเงียบ ๆ ในการถอดเสียง ห้าปีก่อน อะไรที่ดีรันบนคลาวด์ Apple Silicon เปลี่ยนคณิตศาสตร์ — M1 เป็นต้นไปมาพร้อม neural engine ที่เร็วพอที่จะรันโมเดลรู้จำเสียงจริง ๆ บนเครื่อง และช่องว่างระหว่างคลาวด์และในเครื่องหดเหลือเกือบไม่มีสำหรับ workload ส่วนใหญ่

คู่มือนี้ครอบคลุมว่าเสียงเป็นข้อความออฟไลน์บน Mac หมายความว่าอย่างไรจริง ๆ เทคโนโลยีเบื้องหลังทำงานอย่างไร และเครื่องมือใดที่ควรใช้

ทำไม "ออฟไลน์" จึงเป็นไปได้

การรู้จำเสียงเคยเป็นปัญหาคลาวด์เพราะโมเดลใหญ่เกินกว่าจะรันบนฮาร์ดแวร์ผู้บริโภคในเวลาจริง Whisper-Large ประมาณ 1.5 GB การรันที่ความเร็วการสนทนาต้องใช้ compute มาก

สิ่งที่เปลี่ยน:

neural engine ของ Apple Silicon ทำได้ประมาณ 11–15 TOPS บน M1 พื้นฐาน เพิ่มเป็น 38 TOPS บน M3 Pro และสูงกว่า นั่นเพียงพอสำหรับรัน Whisper-Medium หรือ Parakeet เร็วกว่าเวลาจริง
โมเดลขนาดเล็กดีขึ้น Parakeet (โมเดล RNN-T ของ NVIDIA) ทำความแม่นยำที่แข่งขันได้ในเศษส่วนของขนาด Whisper และรันที่ประมาณ 150x เรียลไทม์บนชิป M-series
CoreML และ Metal เป็นผู้ใหญ่พอที่ Whisper.cpp และการใช้งานที่คล้ายกันใช้ฮาร์ดแวร์อย่างเหมาะสมแทนการ pin CPU

ผล: ตอนนี้คุณสามารถ dictation ถอดเสียงการประชุม หรือประมวลผลไฟล์ความยาวหนึ่งชั่วโมงในเครื่องบน MacBook Air โดยพัดลมไม่หมุนด้วยซ้ำ

"ออฟไลน์" ให้อะไรคุณจริง ๆ

ความเป็นส่วนตัวเป็นสิ่งที่ชัดเจน — เสียงของคุณไม่ไปไหนเลย แต่ยังมีประโยชน์ปฏิบัติที่สำคัญในแต่ละวัน:

latency หายไป การถอดเสียงคลาวด์มี round-trip เครือข่าย แม้บนการเชื่อมต่อที่รวดเร็ว นั่นเป็น overhead 50–200ms ต่อคำขอ inference ในเครื่องคืนผลเร็วเท่าที่โมเดลผลิตได้ ซึ่งบน Apple Silicon โดยปกติแล้วต่ำกว่า 200ms รวมสำหรับการพูดสั้น

ทำงานออฟไลน์ เที่ยวบิน รถไฟ Wi-Fi โรงแรม สถานที่ที่ปลอดภัย Wi-Fi การประชุมที่ throttle ทุกอย่าง ไม่มีอะไรเหล่านี้สำคัญถ้าโมเดลอยู่บนเครื่องของคุณ

ไม่มีค่าสมาชิก บริการคลาวด์คิดเงินตามนาทีหรือเดือน แอปในเครื่องโดยปกติเป็นการซื้อครั้งเดียวหรือฟรี

ไม่มี vendor lock-in ข้อความถอดเสียงของคุณอยู่ใน filesystem ของคุณ หากบริษัทที่สร้างแอปปิดตัวลง ข้อมูลของคุณยังอยู่

คาดเดาได้ บริการคลาวด์เปลี่ยนราคา deprecate APIs และจำกัดอัตรา เครื่องมือในเครื่องแค่ทำงานต่อไป

การรู้จำเสียงบนเครื่อง Mac ทำงานอย่างไร

ครอบครัวโมเดลสองตัวครอบงำบน Apple Silicon:

OpenAI Whisper

Whisper เป็น encoder-decoder transformer ที่ฝึกจาก 680,000 ชั่วโมงของคำพูดหลายภาษา open-weight มีหลายขนาด (Tiny, Base, Small, Medium, Large) และจัดการมากกว่า 99 ภาษา

ขนาดและ trade-off คร่าว ๆ บน Mac M-series:

โมเดล	ขนาด	RAM	ความเร็ว (M2)	WER (อังกฤษ)
Tiny	75 MB	~400 MB	~30x เรียลไทม์	~9%
Base	142 MB	~500 MB	~20x เรียลไทม์	~7%
Small	466 MB	~1 GB	~10x เรียลไทม์	~5.5%
Medium	1.5 GB	~2.5 GB	~5x เรียลไทม์	~4.8%
Large-v3	3 GB	~5 GB	~2x เรียลไทม์	~4.2%

โมเดลใหญ่กว่าแม่นยำกว่าแต่ใช้ RAM มากกว่าและรันช้ากว่า สำหรับ dictation ส่วนใหญ่ Small หรือ Medium คือจุด sweet spot สำหรับการประชุมหรือไฟล์ที่คุณต้องการความแม่นยำสูงสุด Large-v3

NVIDIA Parakeet

Parakeet เป็นโมเดล RNN-T (recurrent neural network transducer) มันเร็วกว่า Whisper ที่ความแม่นยำใกล้เคียง อังกฤษเท่านั้นโดยค่าเริ่มต้น และรันที่ประมาณ 150x เรียลไทม์บน M2

Parakeet เป็นค่าเริ่มต้นที่ดีกว่าสำหรับ dictation อังกฤษเพราะข้อได้เปรียบของ latency ใหญ่ — คุณแทบจะไม่สังเกตเห็นว่าโมเดลกำลังรันอยู่ ข้อเสียคือการสนับสนุนภาษาเดียว หากคุณต้องการการถอดเสียงหลายภาษา Whisper คือทางเลือก

แอป Mac สมัยใหม่ส่วนใหญ่ให้คุณเลือกเอนจินที่ใช้ต่องาน

สิ่งที่รันในเครื่องนอกเหนือจากการถอดเสียง

การรู้จำเสียงเป็นเพียงครึ่งหนึ่งของภาพ pipeline เต็มสำหรับ dictation มักดูเหมือน:

จับเสียง — อินพุตไมโครโฟนหรือเสียงระบบ
การรู้จำเสียง — Whisper หรือ Parakeet ผลิตข้อความดิบ
การประมวลผลหลัง — เครื่องหมายวรรคตอน ตัวพิมพ์ใหญ่ การลบคำเติม
ทางเลือก: ทำความสะอาด LLM — โมเดลภาษาในเครื่องเขียนข้อความใหม่ให้อ่านเหมือนงานเขียนที่ขัดเงา
ทางเลือก: การแปล — ผลลัพธ์ในภาษาที่ต่างจากอินพุต

ขั้นตอน 4 และ 5 ใช้ LLM ในเครื่องขนาดเล็ก (Gemma 3 4B, Qwen 3 4B, LLaMA 3.2 3B) ที่รันผ่าน llama.cpp หรือ MLX ขนาดประมาณ 2–4 GB ต่อตัวและรันที่ความเร็วการสนทนาบนชิป M-series ผลลัพธ์อ่านเหมือนงานเขียนที่ตัดต่อแล้วมากกว่าข้อความถอดเสียงดิบ

การถอดเสียงประชุมเพิ่มอีกสองส่วน:

การแยกผู้พูด — หาว่าใครพูดอะไร ทำด้วย neural embeddings ของลักษณะเสียง ทั้งหมดในเครื่อง
การสรุป — ป้อนข้อความถอดเสียงให้ LLM ในเครื่องพร้อมพรอมต์ "สรุปการประชุมนี้" เพื่อดึงรายการที่ต้องทำและการตัดสินใจหลัก

ไม่มีสิ่งใดต้องใช้คลาวด์อีกต่อไป

เครื่องมือที่ทำสิ่งนี้ได้ดี

ฟรีหรือราคาต่ำ:

Apple Dictation — ในตัวใน macOS บนเครื่องสำหรับเวอร์ชันบนเครื่อง จำกัดที่ dictation สั้น
MacWhisper — ฟรีสำหรับถอดเสียงไฟล์ €64 Pro สำหรับ dictation สด
VoiceInk — open-source $25–49 ครั้งเดียว
FluidVoice — ฟรี open-source สนับสนุน Parakeet

จ่ายเงินด้วย scope กว้างขึ้น:

Vext — $49 ครั้งเดียว dictation บวกการประชุมบวกการแปล ทั้งหมดในเครื่อง
Superwhisper — $249 ตลอดชีพ เน้น dictation พร้อมโหมดกำหนดเอง
Voibe — $198 ตลอดชีพ dictation เน้นความเป็นส่วนตัว

การแบ่งระหว่างพวกเขาส่วนใหญ่เกี่ยวกับขอบเขตฟีเจอร์ trade-off ในเครื่อง-เทียบ-คลาวด์ได้รับการแก้ไขแล้ว — ในเครื่องแข่งขันได้จริงในความแม่นยำและเร็วกว่าใน latency ทุกอย่างใต้ระดับสูงสุดของบริการคลาวด์ (Otter Premium, Rev) ถูกจับคู่หรือเอาชนะโดยสิ่งที่รันบน laptop ของคุณ

เมื่อคลาวด์ยังคงชนะ

เพื่อความซื่อสัตย์: บริการคลาวด์ยังคงมีข้อได้เปรียบในกรณีเฉพาะ

การทำงานร่วมกันของทีม Otter, Fireflies, Granola — มีไลบรารีข้อความถอดเสียงที่แชร์ ความเห็น co-watching เรียลไทม์ หาก workflow ของคุณเกี่ยวข้องกับหลายคนที่ทำงานบนข้อความถอดเสียงเดียวกัน คลาวด์ถูกสร้างมาเพื่อสิ่งนั้น

ความแม่นยำเฉพาะอุตสาหกรรม การแพทย์ กฎหมาย และโดเมนเทคนิคมีโมเดลคลาวด์เฉพาะที่ฝึกบนคำศัพท์อุตสาหกรรมที่ Whisper หรือ Parakeet ในเครื่องจะไม่ตรงโดยไม่มี fine-tuning

ข้ามแพลตฟอร์ม หากคุณสลับระหว่าง Mac, Windows และ iPhone อย่างต่อเนื่อง บริการคลาวด์ sync ข้ามทั้งหมด

สำหรับงานเดี่ยวบน Mac ไม่มีสิ่งใดเหล่านี้สำคัญโดยปกติ สำหรับงานเป็นทีมในอุตสาหกรรมที่ควบคุม อาจเป็น

ตั้งค่าเสียงเป็นข้อความในเครื่อง

สามขั้นตอน:

เลือกแอป สำหรับคนส่วนใหญ่ คำตอบที่ถูกต้องคือหนึ่งใน MacWhisper (ทดลองฟรี), Vext (ทดลองฟรี), หรือ Superwhisper (ทดลองฟรี) ลองหนึ่ง ดูว่าเข้ากันหรือไม่
ดาวน์โหลดโมเดล การรันครั้งแรกดาวน์โหลด 600 MB ถึง 3 GB ขึ้นอยู่กับโมเดลที่คุณเลือก หลังจากนั้นมันแค่ทำงาน
ตั้ง hotkey แอปส่วนใหญ่ค่าเริ่มต้นเป็น fn หรือ trigger right-shift เลือกบางอย่างที่คุณสามารถกดได้โดยไม่ต้องคิด

นั่นคือการตั้งค่าทั้งหมด ไม่มีบัญชี ไม่มี API keys ไม่มีระดับการใช้งาน

ข้อสรุปเชิงปฏิบัติ

เสียงเป็นข้อความออฟไลน์บน Mac หยุดเป็นการประนีประนอมในปี 2023 และข้ามไปยัง "ดีกว่าคลาวด์จริง ๆ" สำหรับกรณีใช้ส่วนใหญ่ในช่วงปลายปี 2024 latency ต่ำกว่า ความเป็นส่วนตัวจริง และราคาเป็นครั้งเดียวแทนรายเดือน

หากคุณใช้ dictation คลาวด์ด้วยความเคยชิน คุ้มค่าที่จะลองทางเลือกในเครื่อง ช่องว่างที่คุณอาจจะจำได้จากไม่กี่ปีก่อนไม่อยู่ที่นั่นอีกต่อไป