Whisper vs Parakeet บน Apple Silicon — ความเร็ว ความแม่นยำ RAM

หากคุณกำลังเลือกเอนจินรู้จำเสียงในเครื่องบน Mac การเลือกมักลงมาที่สอง: OpenAI Whisper และ NVIDIA Parakeet ทั้งสองรันได้ดีบน Apple Silicon ทั้งสองเปิด พวกเขาทำ trade-off ที่แตกต่างกัน และทางเลือกที่ถูกต้องขึ้นอยู่กับสิ่งที่คุณกำลังถอดเสียง

นี่คือการเปรียบเทียบโดยตรงตามเบนช์มาร์กที่ฉันรันบน M2 และ M3 Macs

ฉบับย่อ

Parakeet เร็วกว่าและใช้ RAM น้อยกว่า แต่อังกฤษเท่านั้น
Whisper Large-v3 แม่นยำกว่าบนเสียงยากและรองรับมากกว่า 99 ภาษา
สำหรับ dictation อังกฤษ: Parakeet ชนะ
สำหรับการประชุม ไฟล์ หรือเนื้อหาหลายภาษา: Whisper

ช่องว่างเล็กกว่าที่คนคิด ทั้งสองดีพอที่ผู้ใช้ส่วนใหญ่จะไม่สังเกตเห็นความแตกต่างของความแม่นยำบนเสียงที่สะอาด

แต่ละตัวคืออะไร

OpenAI Whisper เป็น encoder-decoder transformer ที่ฝึกบน 680,000 ชั่วโมงของคำพูดหลายภาษา ปล่อยเป็น open-weight ในปี 2022 ตามด้วย v2 และ v3 ขนาดตั้งแต่ Tiny (75 MB) ถึง Large-v3 (3 GB)

NVIDIA Parakeet เป็นโมเดล RNN-T — recurrent neural network transducer NVIDIA ปล่อยผ่าน NeMo มันเล็กกว่า เร็วกว่า และอังกฤษเท่านั้นโดยค่าเริ่มต้น (มี variant หลายภาษา แต่ผู้ใหญ่น้อยกว่า)

ความแตกต่างทางสถาปัตยกรรมสำคัญ: Whisper ประมวลผลหน้าต่าง 30 วินาทีด้วย transformer ที่แพงแต่ยืดหยุ่น Parakeet สตรีมเสียงผ่าน RNN ที่ผลิตข้อความแบบเพิ่มขึ้นและถูก

ความเร็ว

ความเร็ววัดเป็น real-time factor (RTF) 1x หมายความว่าโมเดลใช้เวลาเท่าเสียง 10x หมายความว่าประมวลผลไฟล์ 10 นาทีใน 1 นาที สูงกว่าเร็วกว่า

เบนช์มาร์กบน M2 (GPU 8 คอร์, RAM 16 GB) วัดเทียบกับชุด LibriSpeech test-clean:

เอนจิน	โมเดล	RTF (M2)	RTF (M3 Pro)
Whisper	Tiny	30x	45x
Whisper	Base	20x	32x
Whisper	Small	10x	18x
Whisper	Medium	5x	9x
Whisper	Large-v3	2x	4x
Parakeet	TDT-1.1B	150x	220x

Parakeet เร็วกว่าโมเดล Whisper ที่ความแม่นยำเทียบเท่าประมาณ 20–50x สำหรับ dictation นี่คือความแตกต่างระหว่างข้อความปรากฏทันทีและการรอครึ่งวินาที

ความแม่นยำ

Word error rate (WER) บนเบนช์มาร์กอังกฤษมาตรฐาน ต่ำกว่าดีกว่า ตัวเลขแตกต่างกันระหว่างชุดทดสอบ — ที่ตามมาคือจาก LibriSpeech test-clean ซึ่งเป็น corpus คำพูดการอ่านที่ค่อนข้างสะอาด บนเสียงที่ยากขึ้น (มีเสียงรบกวน สำเนียง เทคนิค) ตัวเลขสูงขึ้นสำหรับทั้งสอง

เอนจิน	WER (LibriSpeech)	WER (CommonVoice)
Whisper Tiny	9.0%	14%
Whisper Base	7.0%	11%
Whisper Small	5.5%	8%
Whisper Medium	4.8%	7%
Whisper Large-v3	4.2%	5.5%
Parakeet TDT-1.1B	4.5%	6.5%

บนอังกฤษสะอาด Parakeet เทียบเท่า Whisper Medium และเข้าใกล้ Whisper Large-v3 ช่องว่างเล็ก บนอังกฤษที่มีเสียงรบกวนหรือสำเนียง Whisper Large-v3 ถือข้อได้เปรียบไว้ชัดเจนกว่า

สำหรับเนื้อหาหลายภาษา Whisper เป็นตัวเลือกจริงเท่านั้น Parakeet variant หลายภาษามีอยู่แต่ฉันยังไม่เห็นพวกเขาเทียบ Whisper Large บนภาษาอื่นนอกจากอังกฤษ

RAM

Mac Apple Silicon มี unified memory และโมเดลโหลดเข้า pool เดียวกับทุกอย่าง การใช้ RAM สำคัญหากคุณมี 8 หรือ 16 GB และต้องการใช้เครื่องต่อขณะถอดเสียง

เอนจิน	โมเดล	RAM (โหลด)
Whisper	Tiny	~400 MB
Whisper	Base	~500 MB
Whisper	Small	~1 GB
Whisper	Medium	~2.5 GB
Whisper	Large-v3	~5 GB
Parakeet	TDT-1.1B	~1.2 GB

หากคุณอยู่บน 8 GB และต้องการ VS Code, เบราว์เซอร์ และ Slack เปิดอยู่ Whisper Large-v3 หนัก Parakeet ที่ 1.2 GB หรือ Whisper Small ที่ 1 GB เป็นตัวเลือกที่ใช้ได้จริงในระดับหน่วยความจำนั้น

บน 16 GB คุณสามารถรันอะไรก็ได้สบาย ๆ บน 32 GB ขึ้นไปคุณไม่คิดเรื่องนี้

Latency สำหรับ dictation

ความเร็วและ RTF บอก throughput บนไฟล์ยาว สำหรับ dictation สิ่งที่สำคัญคือคำแรกปรากฏเร็วแค่ไหนหลังจากคุณหยุดพูด

วัดบน M2 ประโยค 5 วินาที จากไมค์ถึงข้อความ:

เอนจิน	latency token แรก	ผลลัพธ์เต็ม
Whisper Tiny	180 ms	250 ms
Whisper Small	350 ms	500 ms
Whisper Medium	700 ms	1100 ms
Whisper Large-v3	1400 ms	2200 ms
Parakeet TDT-1.1B	80 ms	150 ms

ผลลัพธ์ streaming ของ Parakeet ทำให้รู้สึกทันที Whisper Tiny และ Small ก็เร็วพอที่จะรู้สึกตอบสนอง ใด ๆ Medium หรือใหญ่กว่าแนะนำการรอที่สังเกตเห็นได้ — ดีสำหรับไฟล์ แย่กว่าสำหรับ dictation

เมื่อไหร่เลือกตัวไหน

ใช้ Parakeet หาก:

คุณ dictation ส่วนใหญ่ในอังกฤษ
คุณต้องการ latency ต่ำที่สุด
คุณอยู่บน Mac ที่มี RAM จำกัด
คุณกำลังถอดเสียงไฟล์ยาวและต้องการให้เสร็จเร็ว

ใช้ Whisper Small หรือ Medium หาก:

คุณต้องการการสนับสนุนหลายภาษา (99+ ภาษา)
คุณต้องการความแม่นยำโดยไม่มี hit RAM ของ Large-v3
คุณอยู่บน 16 GB และต้องการตัวเลือกที่สมดุล

ใช้ Whisper Large-v3 หาก:

คุณกำลังถอดเสียงประชุมหรือไฟล์สำคัญที่ทุกข้อผิดพลาดราคาแพง
คุณมี 32 GB+ และไม่กังวลเรื่อง RAM
คุณทำงานกับเสียงรบกวน สำเนียงหนัก หรือคำศัพท์เทคนิค
งานรันออฟไลน์อยู่แล้ว ดังนั้น RTF ไม่สำคัญมาก

แล้วความแม่นยำเทียบเท่าคลาวด์ล่ะ?

บริการคลาวด์ (OpenAI Whisper API, Deepgram Nova-2, Google Speech-to-Text) มักรายงาน 3.5–4.5% WER บนเบนช์มาร์กมาตรฐาน นั่นคืออาณาเขต Whisper Large-v3

ช่องว่างความแม่นยำระหว่างในเครื่องและคลาวด์เป็นจริงแต่เล็ก — โดยปกติ 0.5–1% WER บนเสียงสะอาด มากกว่าบนเสียงยาก สำหรับกรณีใช้ส่วนใหญ่ (dictation, ประชุม, บันทึก) ไม่สังเกตเห็น บริการคลาวด์ชนะในกรณีขอบ: สำเนียงหนักที่คุณไม่มีการครอบคลุมโมเดล คำศัพท์เทคนิคหายาก เสียงคุณภาพต่ำมาก

แอปและพวกเขาใช้เอนจินใด

หากคุณไม่อยากคิดเรื่องเอนจิน นี่คือสิ่งที่แอป Mac กระแสหลักใช้เป็นค่าเริ่มต้น:

Vext — Parakeet เป็นค่าเริ่มต้น Whisper มีให้เป็นตัวเลือก
MacWhisper — Whisper เลือกโมเดลได้
Superwhisper — Whisper เลือกโมเดลได้
VoiceInk — Whisper
FluidVoice — สนับสนุน Parakeet
Apple Dictation — โมเดล foundation ของ Apple เอง (ไม่ใช่ Whisper หรือ Parakeet)

การแยกระหว่าง "Parakeet เป็นค่าเริ่มต้น" และ "Whisper เป็นค่าเริ่มต้น" มักสะท้อนว่าแอปนั้น dictation-first (Parakeet) หรือ file-transcription-first (Whisper)

บรรทัดล่าง

สำหรับคนส่วนใหญ่ บน Mac ปัจจุบัน dictation ในอังกฤษ: Parakeet latency รู้สึกแตกต่าง — ข้อความปรากฏขณะที่คุณพูดมากกว่าหลังจากคุณจบ

สำหรับการประชุม ไฟล์ หรืองานหลายภาษา: Whisper Medium หรือ Large-v3

คุณสามารถมีทั้งสอง แอปส่วนใหญ่ให้คุณเลือกต่องาน