หากคุณกำลังเลือกเอนจินรู้จำเสียงในเครื่องบน Mac การเลือกมักลงมาที่สอง: OpenAI Whisper และ NVIDIA Parakeet ทั้งสองรันได้ดีบน Apple Silicon ทั้งสองเปิด พวกเขาทำ trade-off ที่แตกต่างกัน และทางเลือกที่ถูกต้องขึ้นอยู่กับสิ่งที่คุณกำลังถอดเสียง
นี่คือการเปรียบเทียบโดยตรงตามเบนช์มาร์กที่ฉันรันบน M2 และ M3 Macs
ฉบับย่อ
- Parakeet เร็วกว่าและใช้ RAM น้อยกว่า แต่อังกฤษเท่านั้น
- Whisper Large-v3 แม่นยำกว่าบนเสียงยากและรองรับมากกว่า 99 ภาษา
- สำหรับ dictation อังกฤษ: Parakeet ชนะ
- สำหรับการประชุม ไฟล์ หรือเนื้อหาหลายภาษา: Whisper
ช่องว่างเล็กกว่าที่คนคิด ทั้งสองดีพอที่ผู้ใช้ส่วนใหญ่จะไม่สังเกตเห็นความแตกต่างของความแม่นยำบนเสียงที่สะอาด
แต่ละตัวคืออะไร
OpenAI Whisper เป็น encoder-decoder transformer ที่ฝึกบน 680,000 ชั่วโมงของคำพูดหลายภาษา ปล่อยเป็น open-weight ในปี 2022 ตามด้วย v2 และ v3 ขนาดตั้งแต่ Tiny (75 MB) ถึง Large-v3 (3 GB)
NVIDIA Parakeet เป็นโมเดล RNN-T — recurrent neural network transducer NVIDIA ปล่อยผ่าน NeMo มันเล็กกว่า เร็วกว่า และอังกฤษเท่านั้นโดยค่าเริ่มต้น (มี variant หลายภาษา แต่ผู้ใหญ่น้อยกว่า)
ความแตกต่างทางสถาปัตยกรรมสำคัญ: Whisper ประมวลผลหน้าต่าง 30 วินาทีด้วย transformer ที่แพงแต่ยืดหยุ่น Parakeet สตรีมเสียงผ่าน RNN ที่ผลิตข้อความแบบเพิ่มขึ้นและถูก
ความเร็ว
ความเร็ววัดเป็น real-time factor (RTF) 1x หมายความว่าโมเดลใช้เวลาเท่าเสียง 10x หมายความว่าประมวลผลไฟล์ 10 นาทีใน 1 นาที สูงกว่าเร็วกว่า
เบนช์มาร์กบน M2 (GPU 8 คอร์, RAM 16 GB) วัดเทียบกับชุด LibriSpeech test-clean:
| เอนจิน | โมเดล | RTF (M2) | RTF (M3 Pro) |
|---|---|---|---|
| Whisper | Tiny | 30x | 45x |
| Whisper | Base | 20x | 32x |
| Whisper | Small | 10x | 18x |
| Whisper | Medium | 5x | 9x |
| Whisper | Large-v3 | 2x | 4x |
| Parakeet | TDT-1.1B | 150x | 220x |
Parakeet เร็วกว่าโมเดล Whisper ที่ความแม่นยำเทียบเท่าประมาณ 20–50x สำหรับ dictation นี่คือความแตกต่างระหว่างข้อความปรากฏทันทีและการรอครึ่งวินาที
ความแม่นยำ
Word error rate (WER) บนเบนช์มาร์กอังกฤษมาตรฐาน ต่ำกว่าดีกว่า ตัวเลขแตกต่างกันระหว่างชุดทดสอบ — ที่ตามมาคือจาก LibriSpeech test-clean ซึ่งเป็น corpus คำพูดการอ่านที่ค่อนข้างสะอาด บนเสียงที่ยากขึ้น (มีเสียงรบกวน สำเนียง เทคนิค) ตัวเลขสูงขึ้นสำหรับทั้งสอง
| เอนจิน | WER (LibriSpeech) | WER (CommonVoice) |
|---|---|---|
| Whisper Tiny | 9.0% | 14% |
| Whisper Base | 7.0% | 11% |
| Whisper Small | 5.5% | 8% |
| Whisper Medium | 4.8% | 7% |
| Whisper Large-v3 | 4.2% | 5.5% |
| Parakeet TDT-1.1B | 4.5% | 6.5% |
บนอังกฤษสะอาด Parakeet เทียบเท่า Whisper Medium และเข้าใกล้ Whisper Large-v3 ช่องว่างเล็ก บนอังกฤษที่มีเสียงรบกวนหรือสำเนียง Whisper Large-v3 ถือข้อได้เปรียบไว้ชัดเจนกว่า
สำหรับเนื้อหาหลายภาษา Whisper เป็นตัวเลือกจริงเท่านั้น Parakeet variant หลายภาษามีอยู่แต่ฉันยังไม่เห็นพวกเขาเทียบ Whisper Large บนภาษาอื่นนอกจากอังกฤษ
RAM
Mac Apple Silicon มี unified memory และโมเดลโหลดเข้า pool เดียวกับทุกอย่าง การใช้ RAM สำคัญหากคุณมี 8 หรือ 16 GB และต้องการใช้เครื่องต่อขณะถอดเสียง
| เอนจิน | โมเดล | RAM (โหลด) |
|---|---|---|
| Whisper | Tiny | ~400 MB |
| Whisper | Base | ~500 MB |
| Whisper | Small | ~1 GB |
| Whisper | Medium | ~2.5 GB |
| Whisper | Large-v3 | ~5 GB |
| Parakeet | TDT-1.1B | ~1.2 GB |
หากคุณอยู่บน 8 GB และต้องการ VS Code, เบราว์เซอร์ และ Slack เปิดอยู่ Whisper Large-v3 หนัก Parakeet ที่ 1.2 GB หรือ Whisper Small ที่ 1 GB เป็นตัวเลือกที่ใช้ได้จริงในระดับหน่วยความจำนั้น
บน 16 GB คุณสามารถรันอะไรก็ได้สบาย ๆ บน 32 GB ขึ้นไปคุณไม่คิดเรื่องนี้
Latency สำหรับ dictation
ความเร็วและ RTF บอก throughput บนไฟล์ยาว สำหรับ dictation สิ่งที่สำคัญคือคำแรกปรากฏเร็วแค่ไหนหลังจากคุณหยุดพูด
วัดบน M2 ประโยค 5 วินาที จากไมค์ถึงข้อความ:
| เอนจิน | latency token แรก | ผลลัพธ์เต็ม |
|---|---|---|
| Whisper Tiny | 180 ms | 250 ms |
| Whisper Small | 350 ms | 500 ms |
| Whisper Medium | 700 ms | 1100 ms |
| Whisper Large-v3 | 1400 ms | 2200 ms |
| Parakeet TDT-1.1B | 80 ms | 150 ms |
ผลลัพธ์ streaming ของ Parakeet ทำให้รู้สึกทันที Whisper Tiny และ Small ก็เร็วพอที่จะรู้สึกตอบสนอง ใด ๆ Medium หรือใหญ่กว่าแนะนำการรอที่สังเกตเห็นได้ — ดีสำหรับไฟล์ แย่กว่าสำหรับ dictation
เมื่อไหร่เลือกตัวไหน
ใช้ Parakeet หาก:
- คุณ dictation ส่วนใหญ่ในอังกฤษ
- คุณต้องการ latency ต่ำที่สุด
- คุณอยู่บน Mac ที่มี RAM จำกัด
- คุณกำลังถอดเสียงไฟล์ยาวและต้องการให้เสร็จเร็ว
ใช้ Whisper Small หรือ Medium หาก:
- คุณต้องการการสนับสนุนหลายภาษา (99+ ภาษา)
- คุณต้องการความแม่นยำโดยไม่มี hit RAM ของ Large-v3
- คุณอยู่บน 16 GB และต้องการตัวเลือกที่สมดุล
ใช้ Whisper Large-v3 หาก:
- คุณกำลังถอดเสียงประชุมหรือไฟล์สำคัญที่ทุกข้อผิดพลาดราคาแพง
- คุณมี 32 GB+ และไม่กังวลเรื่อง RAM
- คุณทำงานกับเสียงรบกวน สำเนียงหนัก หรือคำศัพท์เทคนิค
- งานรันออฟไลน์อยู่แล้ว ดังนั้น RTF ไม่สำคัญมาก
แล้วความแม่นยำเทียบเท่าคลาวด์ล่ะ?
บริการคลาวด์ (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) มักรายงาน 3.5–4.5% WER บนเบนช์มาร์กมาตรฐาน นั่นคืออาณาเขต Whisper Large-v3
ช่องว่างความแม่นยำระหว่างในเครื่องและคลาวด์เป็นจริงแต่เล็ก — โดยปกติ 0.5–1% WER บนเสียงสะอาด มากกว่าบนเสียงยาก สำหรับกรณีใช้ส่วนใหญ่ (dictation, ประชุม, บันทึก) ไม่สังเกตเห็น บริการคลาวด์ชนะในกรณีขอบ: สำเนียงหนักที่คุณไม่มีการครอบคลุมโมเดล คำศัพท์เทคนิคหายาก เสียงคุณภาพต่ำมาก
แอปและพวกเขาใช้เอนจินใด
หากคุณไม่อยากคิดเรื่องเอนจิน นี่คือสิ่งที่แอป Mac กระแสหลักใช้เป็นค่าเริ่มต้น:
- Vext — Parakeet เป็นค่าเริ่มต้น Whisper มีให้เป็นตัวเลือก
- MacWhisper — Whisper เลือกโมเดลได้
- Superwhisper — Whisper เลือกโมเดลได้
- VoiceInk — Whisper
- FluidVoice — สนับสนุน Parakeet
- Apple Dictation — โมเดล foundation ของ Apple เอง (ไม่ใช่ Whisper หรือ Parakeet)
การแยกระหว่าง "Parakeet เป็นค่าเริ่มต้น" และ "Whisper เป็นค่าเริ่มต้น" มักสะท้อนว่าแอปนั้น dictation-first (Parakeet) หรือ file-transcription-first (Whisper)
บรรทัดล่าง
สำหรับคนส่วนใหญ่ บน Mac ปัจจุบัน dictation ในอังกฤษ: Parakeet latency รู้สึกแตกต่าง — ข้อความปรากฏขณะที่คุณพูดมากกว่าหลังจากคุณจบ
สำหรับการประชุม ไฟล์ หรืองานหลายภาษา: Whisper Medium หรือ Large-v3
คุณสามารถมีทั้งสอง แอปส่วนใหญ่ให้คุณเลือกต่องาน