คู่มือฉบับสมบูรณ์ของ Vext: แปลงเสียงเป็นข้อความสำหรับ Mac

กดค้าง hotkey พูด ข้อความปรากฏที่เคอร์เซอร์ นั่นคือ Vext — แอปแปลงเสียงเป็นข้อความที่ทำงานในเครื่อง Mac ของคุณทั้งหมด ไม่มีคลาวด์ ไม่มีบัญชี ไม่มีค่าสมาชิก

คู่มือนี้ครอบคลุมทุกอย่าง: การติดตั้ง การตั้งค่า hotkey สามโหมด (เขียนตามคำบอก ประชุม บันทึก) Enhance การแปลเรียลไทม์ และทุกฟีเจอร์อื่น ๆ

การติดตั้ง

ติดตั้งผ่าน Homebrew:

brew install muvon/tap/vext

หรือดาวน์โหลดโดยตรงจาก getvext.app ไม่ต้องมีบัญชี — ติดตั้งและเริ่มใช้งานได้ทันที

ความต้องการ: macOS 14 Sonoma หรือใหม่กว่า, Apple Silicon (M1–M4)

เขียนตามคำบอกครั้งแรก

เปิด Vext จาก Applications
กดค้าง hotkey ของคุณ
พูด
ปล่อย — ข้อความปรากฏที่เคอร์เซอร์

สามขั้นตอน ไม่ต้องล็อกอิน ข้อความไปยังตำแหน่งที่เคอร์เซอร์อยู่เมื่อคุณเริ่มพูด

สามโหมด

Vext มีสามโหมดสำหรับ workflow ที่แตกต่างกัน

เขียนตามคำบอก

ประสบการณ์หลัก กด hotkey ค้าง พูด ปล่อย — ข้อความปรากฏที่เคอร์เซอร์ ใช้ได้กับช่องข้อความใด ๆ ในแอปใด ๆ: เบราว์เซอร์ บรรณาธิการ เทอร์มินัล แชท อีเมล บันทึก

การเขียนตามคำบอกเป็นวิธีที่เร็วที่สุดในการนำคำเข้าคอมพิวเตอร์ คุณพูดที่ 130–150 คำต่อนาที พิมพ์ที่ 40–60 ข้อความ 100 คำ ใช้เวลาประมาณ 40 วินาทีในการเขียนตามคำบอก เกือบสองนาทีในการพิมพ์

การประชุม

บันทึกการประชุมพร้อมระบุผู้พูด Vext จับไมโครโฟนและเสียงระบบพร้อมกัน ดังนั้นจึงใช้ได้กับ Zoom, Google Meet, FaceTime และวิดีโอคอลอื่น ๆ

เมื่อการประชุมจบ คุณได้:

ข้อความถอดเสียงเต็มพร้อมป้ายผู้พูดและ timestamp
สรุปที่สร้างโดย AI พร้อมประเด็นสำคัญและรายการที่ต้องทำ
screenshot ใด ๆ ที่คุณถ่ายระหว่างการโทร

บันทึก

memo เสียงสั้น ๆ ด้วยการกดปุ่มเดียว พูดความคิดของคุณ Vext ถอดเสียง ผ่าน Enhance และเก็บในเครื่อง

บันทึกผ่าน pipeline การประมวลผลเดียวกับการเขียนตามคำบอก — ทำความสะอาด แปล ห่วงโซ่ทั้งหมด ความแตกต่างคือปลายทาง การเขียนตามคำบอกวางที่เคอร์เซอร์ บันทึกเก็บใน Vext สำหรับใช้ภายหลัง

ใช้บันทึกสำหรับจับไอเดียกลางงานโดยไม่สลับแอป บันทึกคำเตือนเร็ว ๆ หรือเก็บบริบทที่คุณจะต้องการภายหลัง

เขียนตามคำบอกแบบปลอดมือ

การเขียนตามคำบอกมาตรฐานต้องกดปุ่มค้าง โหมดปลอดมือเปลี่ยนสิ่งนี้ — กดครั้งหนึ่งเพื่อเริ่ม กดอีกครั้งเพื่อหยุด ไม่ต้องกดค้าง

มีประโยชน์สำหรับข้อความยาว ๆ เมื่อมือไม่ว่าง หรือเมื่อคุณเดินไปพูดความคิดออกมา ปุ่มทำหน้าที่เป็นสวิตช์แทนปุ่ม push-to-talk

Enhance

Enhance เป็นการประมวลผลหลังขับเคลื่อนด้วย AI ที่ทำงานบนข้อความถอดเสียงของคุณก่อนถึงคลิปบอร์ด มันทำความสะอาดคำเติม แก้ไขโครงสร้างประโยค และทำให้ขอบขรุขระของภาษาพูดเรียบ — โดยไม่เปลี่ยนสิ่งที่คุณพูด

ก่อน Enhance:

"โอเค คือสิ่งที่ผมคิดอยู่ก็คือ เอ่อ เราน่าจะ อืม ย้าย API endpoint ไป service แยก เพราะตอนนี้มันเริ่ม เอ่อ ช้า"

หลัง Enhance:

"เราควรย้าย API endpoint ไปยัง service แยกเพราะตอนนี้เริ่มช้า"

ความหมายคงเดิม น้ำเสียงคงเดิม Enhance แค่กำจัดเสียงรบกวน

ข้อความถอดเสียงดิบจะถูกบันทึกควบคู่กับเวอร์ชันที่ปรับแต่งเสมอ คุณไม่เสียต้นฉบับ

การแปลเรียลไทม์

ตั้งภาษาเป้าหมายใน Vext และพูดในภาษาใดก็ได้ ข้อความที่ปรากฏที่เคอร์เซอร์ถูกแปลแล้ว

เมื่อเปิด Enhance ด้วย การทำความสะอาดและการแปลเกิดในขั้นตอนเดียว คุณพูดฝรั่งเศสแบบมั่ว ๆ ภาษาอังกฤษสะอาดปรากฏที่เคอร์เซอร์

Vext รองรับการแปลระหว่างคู่ของภาษามากกว่า 99 ภาษาที่โมเดล Whisper เข้าใจ

การจับ screenshot

ระหว่างบันทึกการประชุม คุณสามารถจับพื้นที่ใด ๆ ของหน้าจอ ลากเพื่อเลือกบริเวณ — screenshot จะถูกแนบไปกับข้อความถอดเสียงของคุณโดยอัตโนมัติ

มีประโยชน์สำหรับสไลด์จากการนำเสนอ โค้ดที่กำลังพูดถึง ไดอะแกรมบนไวท์บอร์ดที่แชร์ หลาย screenshot ต่อการประชุม ทั้งหมดถูกบันทึกควบคู่กับข้อความถอดเสียง

Audio ducking

เมื่อคุณเริ่มบันทึก Vext จะลดเสียงระบบโดยอัตโนมัติเพื่อให้เสียงคุณชัด ปล่อย hotkey แล้วระดับเสียงจะกลับมา

นี่ป้องกันไม่ให้เสียงคอมพิวเตอร์รบกวนการถอดเสียง — ไม่ว่าคุณจะฟังเพลง ดูวิดีโอ หรือคุยโทรศัพท์

โหมด YOLO

เปิด YOLO Mode และ Vext จะกด Return โดยอัตโนมัติหลังวางข้อความถอดเสียง พูด ปล่อย และพรอมต์ถูกส่งแล้ว

ออกแบบสำหรับเครื่องมือเขียนโค้ด AI เช่น Claude Code, ChatGPT และ Cursor แทนการ dictate พรอมต์ ตรวจสอบ แก้ไข แล้วกด Enter — คุณแค่พูดและมันส่ง LLM จัดการภาษาไม่สมบูรณ์ได้ดีกว่าที่คนส่วนใหญ่คาด

เอนจินถอดเสียง

Vext มาพร้อมเอนจินสปีชทูเท็กซ์หลายตัว:

เอนจิน	ประเภท	ความเร็ว
Parakeet	Local	150x เรียลไทม์
Apple Dictation	Local	25x เรียลไทม์
เข้ากันได้กับ OpenAI	API	แตกต่างกัน

Parakeet เป็นค่าเริ่มต้น ทำงานทั้งหมดบน GPU Apple Silicon ของคุณและถอดเสียงที่ 150x เรียลไทม์ — บันทึก 60 วินาทีประมวลผลในเวลาน้อยกว่าครึ่งวินาที

เอนจินการประมวลผล AI

Enhance, การแปล และการสรุปขับเคลื่อนโดย LLM ในเครื่อง:

โมเดล	ประเภท	ขนาด
Gemma 3 4B	Local (ค่าเริ่มต้น)	2.8 GB
Qwen 3 4B	Local	3.2 GB
LLaMA 3.2 3B	Local	2.4 GB
Gemma 3 1B	Local	0.8 GB
Phi-3.5 Mini	Local	2.8 GB
เข้ากันได้กับ OpenAI	API	—

โมเดลในเครื่องทั้งหมดทำงานบน GPU ของ Mac คุณ ไม่ต้องเชื่อมต่ออินเทอร์เน็ต

ความเป็นส่วนตัว

เสียงของคุณไม่เคยออกจาก Mac ไม่มีการประมวลผลคลาวด์ ไม่มีบัญชี ไม่มี telemetry ไม่มี analytics เสียงประมวลผลในเครื่องและไม่เคยถูกเก็บหลังถอดเสียง

หากคุณใช้เอนจินที่ใช้ API (เข้ากันได้กับ OpenAI) เสียงของคุณจะถูกส่งไปยังผู้ให้บริการนั้น — แต่นี่เป็น opt-in และปิดไว้โดยค่าเริ่มต้น

ราคา

Vext มีการทดลองใช้ฟรี: เขียนตามคำบอก 100 ครั้ง 50 บันทึก และบันทึกการประชุม 10 ครั้ง ไม่ต้องใช้บัตรเครดิต ไม่ต้องมีบัญชี

เมื่อคุณพร้อม ปลดล็อกการใช้งานไม่จำกัดในราคา $49 — จ่ายครั้งเดียวจากในแอป รวมอัปเดตฟรีในเวอร์ชันของคุณ เวอร์ชันใหม่หลักมีส่วนลด 50% สำหรับเจ้าของปัจจุบัน

เริ่มต้น

ติดตั้งผ่าน brew install muvon/tap/vext หรือดาวน์โหลดจาก getvext.app
เปิดแอปและกดค้าง hotkey ของคุณ
เริ่มพูด

การเปลี่ยนจากพิมพ์เป็นเสียงรู้สึกแปลกประมาณ 30 นาที หลังจากนั้น การพิมพ์เริ่มรู้สึกว่าเป็นวิธีที่ช้า