หากคุณกำลังเลือกเอนจินรู้จำเสียงในเครื่องบน Mac การเลือกมักลงมาที่สอง: OpenAI Whisper และ NVIDIA Parakeet ทั้งสองรันได้ดีบน Apple Silicon ทั้งสองเปิด พวกเขาทำ trade-off ที่แตกต่างกัน และทางเลือกที่ถูกต้องขึ้นอยู่กับสิ่งที่คุณกำลังถอดเสียง

นี่คือการเปรียบเทียบโดยตรงตามเบนช์มาร์กที่ฉันรันบน M2 และ M3 Macs

ฉบับย่อ

  • Parakeet เร็วกว่าและใช้ RAM น้อยกว่า แต่อังกฤษเท่านั้น
  • Whisper Large-v3 แม่นยำกว่าบนเสียงยากและรองรับมากกว่า 99 ภาษา
  • สำหรับ dictation อังกฤษ: Parakeet ชนะ
  • สำหรับการประชุม ไฟล์ หรือเนื้อหาหลายภาษา: Whisper

ช่องว่างเล็กกว่าที่คนคิด ทั้งสองดีพอที่ผู้ใช้ส่วนใหญ่จะไม่สังเกตเห็นความแตกต่างของความแม่นยำบนเสียงที่สะอาด

แต่ละตัวคืออะไร

OpenAI Whisper เป็น encoder-decoder transformer ที่ฝึกบน 680,000 ชั่วโมงของคำพูดหลายภาษา ปล่อยเป็น open-weight ในปี 2022 ตามด้วย v2 และ v3 ขนาดตั้งแต่ Tiny (75 MB) ถึง Large-v3 (3 GB)

NVIDIA Parakeet เป็นโมเดล RNN-T — recurrent neural network transducer NVIDIA ปล่อยผ่าน NeMo มันเล็กกว่า เร็วกว่า และอังกฤษเท่านั้นโดยค่าเริ่มต้น (มี variant หลายภาษา แต่ผู้ใหญ่น้อยกว่า)

ความแตกต่างทางสถาปัตยกรรมสำคัญ: Whisper ประมวลผลหน้าต่าง 30 วินาทีด้วย transformer ที่แพงแต่ยืดหยุ่น Parakeet สตรีมเสียงผ่าน RNN ที่ผลิตข้อความแบบเพิ่มขึ้นและถูก

ความเร็ว

ความเร็ววัดเป็น real-time factor (RTF) 1x หมายความว่าโมเดลใช้เวลาเท่าเสียง 10x หมายความว่าประมวลผลไฟล์ 10 นาทีใน 1 นาที สูงกว่าเร็วกว่า

เบนช์มาร์กบน M2 (GPU 8 คอร์, RAM 16 GB) วัดเทียบกับชุด LibriSpeech test-clean:

เอนจิน โมเดล RTF (M2) RTF (M3 Pro)
Whisper Tiny 30x 45x
Whisper Base 20x 32x
Whisper Small 10x 18x
Whisper Medium 5x 9x
Whisper Large-v3 2x 4x
Parakeet TDT-1.1B 150x 220x

Parakeet เร็วกว่าโมเดล Whisper ที่ความแม่นยำเทียบเท่าประมาณ 20–50x สำหรับ dictation นี่คือความแตกต่างระหว่างข้อความปรากฏทันทีและการรอครึ่งวินาที

ความแม่นยำ

Word error rate (WER) บนเบนช์มาร์กอังกฤษมาตรฐาน ต่ำกว่าดีกว่า ตัวเลขแตกต่างกันระหว่างชุดทดสอบ — ที่ตามมาคือจาก LibriSpeech test-clean ซึ่งเป็น corpus คำพูดการอ่านที่ค่อนข้างสะอาด บนเสียงที่ยากขึ้น (มีเสียงรบกวน สำเนียง เทคนิค) ตัวเลขสูงขึ้นสำหรับทั้งสอง

เอนจิน WER (LibriSpeech) WER (CommonVoice)
Whisper Tiny 9.0% 14%
Whisper Base 7.0% 11%
Whisper Small 5.5% 8%
Whisper Medium 4.8% 7%
Whisper Large-v3 4.2% 5.5%
Parakeet TDT-1.1B 4.5% 6.5%

บนอังกฤษสะอาด Parakeet เทียบเท่า Whisper Medium และเข้าใกล้ Whisper Large-v3 ช่องว่างเล็ก บนอังกฤษที่มีเสียงรบกวนหรือสำเนียง Whisper Large-v3 ถือข้อได้เปรียบไว้ชัดเจนกว่า

สำหรับเนื้อหาหลายภาษา Whisper เป็นตัวเลือกจริงเท่านั้น Parakeet variant หลายภาษามีอยู่แต่ฉันยังไม่เห็นพวกเขาเทียบ Whisper Large บนภาษาอื่นนอกจากอังกฤษ

RAM

Mac Apple Silicon มี unified memory และโมเดลโหลดเข้า pool เดียวกับทุกอย่าง การใช้ RAM สำคัญหากคุณมี 8 หรือ 16 GB และต้องการใช้เครื่องต่อขณะถอดเสียง

เอนจิน โมเดล RAM (โหลด)
Whisper Tiny ~400 MB
Whisper Base ~500 MB
Whisper Small ~1 GB
Whisper Medium ~2.5 GB
Whisper Large-v3 ~5 GB
Parakeet TDT-1.1B ~1.2 GB

หากคุณอยู่บน 8 GB และต้องการ VS Code, เบราว์เซอร์ และ Slack เปิดอยู่ Whisper Large-v3 หนัก Parakeet ที่ 1.2 GB หรือ Whisper Small ที่ 1 GB เป็นตัวเลือกที่ใช้ได้จริงในระดับหน่วยความจำนั้น

บน 16 GB คุณสามารถรันอะไรก็ได้สบาย ๆ บน 32 GB ขึ้นไปคุณไม่คิดเรื่องนี้

Latency สำหรับ dictation

ความเร็วและ RTF บอก throughput บนไฟล์ยาว สำหรับ dictation สิ่งที่สำคัญคือคำแรกปรากฏเร็วแค่ไหนหลังจากคุณหยุดพูด

วัดบน M2 ประโยค 5 วินาที จากไมค์ถึงข้อความ:

เอนจิน latency token แรก ผลลัพธ์เต็ม
Whisper Tiny 180 ms 250 ms
Whisper Small 350 ms 500 ms
Whisper Medium 700 ms 1100 ms
Whisper Large-v3 1400 ms 2200 ms
Parakeet TDT-1.1B 80 ms 150 ms

ผลลัพธ์ streaming ของ Parakeet ทำให้รู้สึกทันที Whisper Tiny และ Small ก็เร็วพอที่จะรู้สึกตอบสนอง ใด ๆ Medium หรือใหญ่กว่าแนะนำการรอที่สังเกตเห็นได้ — ดีสำหรับไฟล์ แย่กว่าสำหรับ dictation

เมื่อไหร่เลือกตัวไหน

ใช้ Parakeet หาก:

  • คุณ dictation ส่วนใหญ่ในอังกฤษ
  • คุณต้องการ latency ต่ำที่สุด
  • คุณอยู่บน Mac ที่มี RAM จำกัด
  • คุณกำลังถอดเสียงไฟล์ยาวและต้องการให้เสร็จเร็ว

ใช้ Whisper Small หรือ Medium หาก:

  • คุณต้องการการสนับสนุนหลายภาษา (99+ ภาษา)
  • คุณต้องการความแม่นยำโดยไม่มี hit RAM ของ Large-v3
  • คุณอยู่บน 16 GB และต้องการตัวเลือกที่สมดุล

ใช้ Whisper Large-v3 หาก:

  • คุณกำลังถอดเสียงประชุมหรือไฟล์สำคัญที่ทุกข้อผิดพลาดราคาแพง
  • คุณมี 32 GB+ และไม่กังวลเรื่อง RAM
  • คุณทำงานกับเสียงรบกวน สำเนียงหนัก หรือคำศัพท์เทคนิค
  • งานรันออฟไลน์อยู่แล้ว ดังนั้น RTF ไม่สำคัญมาก

แล้วความแม่นยำเทียบเท่าคลาวด์ล่ะ?

บริการคลาวด์ (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) มักรายงาน 3.5–4.5% WER บนเบนช์มาร์กมาตรฐาน นั่นคืออาณาเขต Whisper Large-v3

ช่องว่างความแม่นยำระหว่างในเครื่องและคลาวด์เป็นจริงแต่เล็ก — โดยปกติ 0.5–1% WER บนเสียงสะอาด มากกว่าบนเสียงยาก สำหรับกรณีใช้ส่วนใหญ่ (dictation, ประชุม, บันทึก) ไม่สังเกตเห็น บริการคลาวด์ชนะในกรณีขอบ: สำเนียงหนักที่คุณไม่มีการครอบคลุมโมเดล คำศัพท์เทคนิคหายาก เสียงคุณภาพต่ำมาก

แอปและพวกเขาใช้เอนจินใด

หากคุณไม่อยากคิดเรื่องเอนจิน นี่คือสิ่งที่แอป Mac กระแสหลักใช้เป็นค่าเริ่มต้น:

  • Vext — Parakeet เป็นค่าเริ่มต้น Whisper มีให้เป็นตัวเลือก
  • MacWhisper — Whisper เลือกโมเดลได้
  • Superwhisper — Whisper เลือกโมเดลได้
  • VoiceInk — Whisper
  • FluidVoice — สนับสนุน Parakeet
  • Apple Dictation — โมเดล foundation ของ Apple เอง (ไม่ใช่ Whisper หรือ Parakeet)

การแยกระหว่าง "Parakeet เป็นค่าเริ่มต้น" และ "Whisper เป็นค่าเริ่มต้น" มักสะท้อนว่าแอปนั้น dictation-first (Parakeet) หรือ file-transcription-first (Whisper)

บรรทัดล่าง

สำหรับคนส่วนใหญ่ บน Mac ปัจจุบัน dictation ในอังกฤษ: Parakeet latency รู้สึกแตกต่าง — ข้อความปรากฏขณะที่คุณพูดมากกว่าหลังจากคุณจบ

สำหรับการประชุม ไฟล์ หรืองานหลายภาษา: Whisper Medium หรือ Large-v3

คุณสามารถมีทั้งสอง แอปส่วนใหญ่ให้คุณเลือกต่องาน