Dictation ใน built-in ของ Apple ได้รับการอัปเกรดเงียบๆ ใน macOS Tahoe foundation model on-device ตัวใหม่ทำงานเร็ว แม่นยำกับการพูดทั่วไป และฟรีมากับระบบปฏิบัติการ สำหรับหลายคนนี่คือบทสรุป — ไม่ต้องการอะไรเพิ่ม

แต่สำหรับบางคนมันไม่พอภายในหนึ่งสัปดาห์ นี่คือเส้นแบ่ง และสิ่งที่ต้องทำเมื่อข้ามมันไป

Apple Dictation ทำได้ดีแค่ไหน

สามอย่างเป็นหลัก:

มันอยู่บน Mac ของคุณอยู่แล้ว ไม่ต้องดาวน์โหลด ไม่ต้องสมัคร account ไม่ต้องขอ permission วุ่นวาย System Settings > Keyboard > Dictation เปิดสวิตช์ เลือก hotkey เสร็จ

ทำงานบนอุปกรณ์ ในแบบ on-device audio ไม่ออกจากเครื่องของคุณ เรื่อง privacy ของ Apple ที่นี่จริง — ไม่มีการวนรอบ cloud และไม่มีการบันทึกเก็บไว้ที่ไหนหลัง transcription

ความแม่นยำในภาษาอังกฤษสนทนาดี ดีกว่า engine เก่า ดีกว่าที่ส่วนใหญ่จำ macOS dictation ได้ เครื่องหมายวรรคตอนที่อนุมานจากจังหวะพูดทำงานได้ส่วนใหญ่ คำศัพท์เทคนิคทั่วไป ("React", "TypeScript", "API") ออกมาถูกต้อง

สำหรับส่ง Slack message รวดเร็ว dictate note สั้น หรือตอบ email หนึ่งประโยค Apple Dictation พอแล้ว ผู้ใช้จำนวนมากไม่จำเป็นต้องไปไกลกว่านี้

จุดที่พัง

ดูว่าเกิดอะไรขึ้นเมื่อคุณ push มัน:

คำศัพท์เทคนิค ชื่อ library ชื่อ function คำสั่ง CLI file path "kubectl get pods" กลายเป็น "cube control get pods" "useEffect" กลายเป็น "you sufficed" "src/components/auth/AuthGuard" กลายเป็น... อะไรก็ได้ ถ้างานของคุณเกี่ยวข้องกับชื่อทางเทคนิค คุณเสียเวลาแก้ transcript มากกว่าที่ประหยัดได้จากการ dictate

การทำความสะอาด filler words Apple Dictation transcribe ตรงๆ ว่าคุณพูดอะไร รวมถึง "อืม" "เอ่อ" "คือว่า" การเริ่มแล้วหยุด และประโยคที่ค้างกลางคัน ภาษาพูดรกกว่าภาษาเขียน ถ้าไม่มีการทำความสะอาด ข้อความที่ dictate ออกมาอ่านเหมือน transcript ของคนที่กำลังคิดดังๆ — เพราะนั่นคือสิ่งที่มันเป็น

ข้อความยาวๆ Apple Dictation ออกแบบมาสำหรับการพูดสั้นๆ ไม่มีประวัติ transcript ไม่มีทางที่จะ capture ได้สะอาดเกินกว่าสองสามประโยค ไม่มี notes ให้กลับมาดู ถ้าต้องการ dictate เอกสาร 300 คำ คุณต้องทำทีละ 30 วินาทีแล้วนำมาต่อกัน

การประชุม Apple Dictation ไม่ใช่เครื่องมือสำหรับประชุม รับสัญญาณได้แค่หนึ่ง input source ในแต่ละครั้ง ไม่มี speaker label ไม่สรุป ถ้าต้องการ transcript การประชุม นี่ไม่ใช่ผลิตภัณฑ์ที่ถูกต้อง

การแปลภาษา อังกฤษเข้า อังกฤษออก ไม่มี multilingual flow

Ergonomics ของ hotkey trigger กดสองครั้งเร็วๆ โอเคสำหรับใช้นานๆ ครั้ง แต่ไม่สะดวกสำหรับใช้บ่อย ไม่มีตัวเลือก push-to-talk หรือ hold-to-dictate ไม่มีการตั้งค่าแยกต่างหากสำหรับแต่ละ app

การทดสอบที่บอกได้ว่าคุณอยู่กลุ่มไหน

ลองสิ่งนี้หนึ่งวัน: ใช้ Apple Dictation กับทุกอย่างที่คุณพิมพ์ที่ยาวกว่าหนึ่งประโยค Slack email notes code comments AI prompts

ปลายวันคุณจะ:

a) สังเกตว่ามันทำงานได้ดีเกินคาด — ใช้ต่อไป b) สังเกตว่าคุณสู้กับคำศัพท์เทคนิคอยู่เรื่อยๆ หรือการขาด cleanup ทำให้ข้อความฟังดูแปลก หรือคิดว่าน่าจะ dictate ข้อความยาวๆ ได้

ถ้าเป็น (b) คุณอยู่ในกลุ่มที่ต้องการมากกว่าที่ Apple มีให้

Vext เพิ่มอะไรและทำไม

Vext เป็น Mac dictation app ราคา $49 ซื้อครั้งเดียวที่เราสร้าง ใช้หลักการ on-device แบบเดียวกับ Apple — ไม่มีอะไรออกจาก Mac ของคุณ — แต่แก้ไข limitations เฉพาะที่กล่าวถึงข้างต้น

ความแตกต่างที่แท้จริง:

Speech engine Vext ใช้ NVIDIA Parakeet ผ่าน CoreML เป็นค่าเริ่มต้น บน M2 ทำงานที่ประมาณ 150x real-time และจัดการ technical vocabulary ได้ดีกว่า foundation model ของ Apple โดยเฉพาะคำที่เกี่ยวข้องกับ code นอกจากนี้ยังเลือก Whisper Small/Medium/Large ได้สำหรับความแม่นยำสูงขึ้นกับ audio ที่มีเสียงรบกวนหรือเนื้อหาหลายภาษา Apple Dictation ใช้ foundation model ของ Apple โดยไม่มีทางเลือก

Enhance (LLM cleanup) Vext รัน LLM ขนาดเล็กในเครื่อง (ค่าเริ่มต้น Gemma 3 4B ประมาณ 2.8 GB) กับ transcript ก่อน paste Filler words หายไป โครงสร้างประโยคกระชับขึ้น ความหมายได้รับการเก็บรักษา Raw transcript ยังคงบันทึกไว้ถ้าต้องการ Apple Dictation ไม่มีอะไรเทียบเท่า

ตัวเลือก hotkey Hold-to-talk, hands-free toggle, threshold ที่ปรับได้ Apple Dictation ให้รูปแบบ trigger เดียว

Meeting mode จับ microphone + system audio พร้อมกัน เพิ่ม speaker label ผ่าน local diarization รัน summary pass ผ่าน LLM ทำงานกับ Zoom, Meet, FaceTime — ทุกอย่างที่สร้าง audio บน Mac ของคุณ

การแปลภาษา พูดได้ใน 99+ ภาษา รับข้อความในภาษาเป้าหมาย เมื่อเปิด Enhance การทำความสะอาดและการแปลเกิดขึ้นในครั้งเดียว

YOLO Mode Auto-submit หลัง paste สร้างมาเฉพาะสำหรับ AI coding tools

จับ screenshot ระหว่าง dictate ลาก drag-select บริเวณหน้าจอขณะพูด รูปภาพจะถูก paste ควบคู่กับ transcript มีประโยชน์สำหรับการ prompt AI tools เกี่ยวกับสิ่งที่มองเห็นบนหน้าจอ

เหตุผลที่ดีจริงสำหรับการอยู่กับ Apple Dictation

ถ้าการใช้งานของคุณเป็นแบบนี้ ไม่ต้องกังวลกับอย่างอื่น:

  • ข้อความสั้นๆ ไม่กี่ครั้งต่อชั่วโมง
  • คำศัพท์ภาษาอังกฤษทั่วไป
  • อุปกรณ์เดียว workflow เดียว
  • ไม่รำคาญ trigger กดสองครั้ง
  • ไม่ได้ประชุม

On-device foundation model ดีจริงตอนนี้ Apple ส่ง improvement ที่แท้จริง และสำหรับการใช้งานทั่วไปก็เพียงพอ

เหตุผลที่ดีจริงสำหรับการเปลี่ยน

ถ้าการใช้งานของคุณเป็นแบบนี้ คุณจะประหยัดเวลาจริงๆ:

  • Dictation หลายครั้งต่อชั่วโมง รวมถึงข้อความยาวๆ
  • คำศัพท์เทคนิคอยู่เป็นประจำ (code ชื่อ library คำสั่ง CLI)
  • ต้องการ cleanup เพื่อให้ข้อความที่ dictate อ่านเหมือนข้อความที่เขียน
  • ประชุมและต้องการ transcript
  • ทำงานมากกว่าหนึ่งภาษา
  • เขียนถึง AI tools บ่อย

สำหรับโปรไฟล์นั้น การลงทุนกับ paid local dictation app คุ้มค่าภายในสองสามสัปดาห์ แรงเสียดทานที่ Apple Dictation สร้างต่อ use case นั้นเล็กน้อย แต่มันสะสม

การใช้ร่วมกันก็ดี

นี่ไม่ใช่คำแนะนำให้ "เปลี่ยนทั้งหมด" หลายคนใช้ทั้งสอง: Apple Dictation สำหรับ quick message ทั่วไปที่ trigger กดสองครั้งสะดวก, Vext (หรือ Superwhisper หรือ local app ใดก็ได้) สำหรับงานรูปแบบยาวที่ cleanup และความแม่นยำสำคัญ

Vext เวอร์ชันฟรีให้ 100 dictation 50 notes และ 10 meetings ก่อนจะขอ $49 นั่นพอสำหรับดูว่าการใช้งานของคุณอยู่ฝั่งไหนของเส้นแบ่ง

macOS น่าจะ ship อะไรต่อไป

Apple กำลังมุ่งไปที่จุดหมายเฉพาะ on-device foundation model ใน Tahoe เป็นการอัปเกรดที่มีความหมาย เวอร์ชันอนาคตน่าจะนำมาซึ่ง cleanup ที่ดีขึ้น context ที่ยาวขึ้น และอาจจะ meeting mode ใน Notes ช่องว่างระหว่าง built-in และ paid local apps จะแคบลง

แต่จะแคบลงช้าๆ Apple ไม่น่าจะ ship Vext หรือ Superwhisper แบบ feature-for-feature ในเร็วๆ นี้ — พวกเขาจะเพิ่ม 80% ที่พบบ่อยที่สุดและปล่อย long tail ให้ third parties ถ้าคุณอยู่ใน long tail (นักพัฒนา ผู้ใช้หลายภาษา workflow ที่มีการประชุมเยอะ) third-party apps ยังคงเกี่ยวข้องสำหรับอนาคตอันใกล้

สำหรับคนอื่นๆ: Apple Dictation โอเค ถ้าไม่เคยลองบน Tahoe ลองดู อาจไม่ต้องการอะไรอื่น