แปลงเสียงเป็นข้อความสำหรับ Cursor AI บน Mac — พูดพรอมต์ใส่ Composer

composer ของ Cursor เป็นที่ที่งานหนัก AI ส่วนใหญ่เกิดขึ้น — แก้ไขหลายไฟล์ refactor scaffold ฟีเจอร์ใหม่ มันยังเป็นที่ที่การพิมพ์พังเร็วที่สุด พรอมต์ที่ผลิต edits ที่ดียาว: บริบท ข้อจำกัด อะไรที่ต้องแตะ อะไรที่ไม่ต้องแตะ ทำไม การพิมพ์ 200 คำขณะที่อยู่ในกลางงานคือแรงเสียดทาน

นี่คือคู่มือสำหรับใช้เสียงสำหรับ Cursor โดยเฉพาะ — composer, inline chat และ ask mode — บน Mac

ทำไมเสียงเข้ากับ Cursor ได้ดีกว่าเครื่องมือ AI อื่น ๆ

Cursor ใช้พรอมต์ของคุณตัดสินใจว่าจะโหลดไฟล์ใดเข้าบริบท พรอมต์ยิ่งยาวและเฉพาะเจาะจง การเลือกไฟล์ของมันก็ดีขึ้น พรอมต์พิมพ์สองบรรทัดได้บริบทสองไฟล์ ย่อหน้าพูดที่มี path ไฟล์ พฤติกรรม และข้อจำกัด ได้ไฟล์ที่ถูกต้องสิบไฟล์

อีกเหตุผล: พรอมต์ composer คือ batch operations คุณกำลังบรรยายหน่วยของงาน ไม่ใช่กำลังคุย batch ชอบบริบทที่ front-loaded เสียงโหลดด้านหน้าตามธรรมชาติ — คุณเริ่มด้วยสถานการณ์ เข้าสู่คำขอ จบด้วยข้อจำกัด นั่นคือรูปร่างที่ Cursor ต้องการ

พรอมต์ Cursor ที่ดีพูดออกมาเป็นอย่างไร

พิมพ์ (43 คำ):

Refactor AuthGuard ให้ใช้ระบบ permission ใหม่ ตอนนี้กำลังตรวจสอบ roles โดยตรงซึ่งจะไม่ scale

พูด (180 คำ):

component AuthGuard ใน src/components/auth/AuthGuard.tsx ตอนนี้กำลังตรวจสอบ user roles โดยตรงผ่าน user.role เท่ากับ admin หรือ user.role เท่ากับ editor เราเพิ่งปล่อยระบบ permission ใหม่ใน src/lib/permissions.ts ที่ expose hasPermission และ useHasPermission ฉันอยาก refactor AuthGuard ให้รับ permission ที่จำเป็นเป็น prop แทนการตรวจสอบ roles ดูว่าระบบ permission ใหม่ใช้อย่างไรใน src/components/admin/UserList.tsx สำหรับ pattern เก็บ API surface ที่มีให้ backward compatible โดยอนุญาตให้ส่ง roles prop หรือ permission prop — หากส่งทั้งสอง ใช้ permission อัปเดต callsites สามตัวใน src/pages ที่ใช้ AuthGuard กับ roles ให้ใช้ permission แทน อย่าแตะ legacy admin panel ภายใต้ src/pages/admin-legacy — มันจะถูกลบ sprint หน้าและไม่คุ้มค่าที่จะ migrate

Cursor จัดการอันที่สองใน shot เดียว อันแรกได้ diff ที่ทำสิ่งผิดบนสามไฟล์และข้าม callsites

ความแตกต่างไม่ใช่สติปัญญาในฝั่งคุณ — มันคือว่าแรงเสียดทานในการพิมพ์บังคับให้คุณบีบอัดหรือเปล่า

ตั้งค่าเสียงสำหรับ Cursor บน Mac

Cursor เป็นแอป Electron ดังนั้นอะไรก็ตามที่วางข้อความที่เคอร์เซอร์ใช้งานได้ มีสามตัวเลือก:

Apple Dictation ในตัว

ฟรี บนเครื่องบน macOS Tahoe เปิดใน System Settings > Keyboard > Dictation กด hotkey ของคุณ พูด กดอีกครั้ง ใช้ได้ใน Cursor panel ใด ๆ

ที่มันดิ้นรน: คำศัพท์เทคนิค paths ไฟล์ ชื่อตัวแปร ชื่อไลบรารี คำสั่ง CLI — Dictation ของ Apple แปลผิดทั้งหมด "src slash components slash auth guard dot tsx" กลายเป็นบางสิ่งที่ใช้ไม่ได้ ดีสำหรับภาษาธรรมชาติ เจ็บปวดสำหรับพรอมต์เน้นโค้ด

Wispr Flow, Superwhisper หรือแอป dictation คลาวด์/ในเครื่องอื่น ๆ

สิ่งเหล่านี้รันการรู้จำเสียงที่จัดการคำศัพท์เทคนิคดีกว่า พวกเขาวางที่เคอร์เซอร์เหมือน Apple Dictation แต่ทำความสะอาด ความแม่นยำที่ยาวกว่า และ (ขึ้นอยู่กับแอป) ประมวลผลคลาวด์หรือในเครื่อง

Vext พร้อม YOLO Mode

Vext คือตัวเลือกที่เราทำ ราคา $49 ครั้งเดียว รัน Parakeet ในเครื่องบน Apple Silicon และมีฟีเจอร์ที่สร้างขึ้นเฉพาะสำหรับเครื่องมือ AI: โหมด YOLO ส่งพรอมต์อัตโนมัติหลังวาง คุณพูด ปล่อย hotkey และ composer กำลังรันอยู่แล้ว

การตั้งค่า Vext สำหรับ Cursor:

ติดตั้ง: brew install muvon/tap/vext
ให้สิทธิ์ Accessibility เมื่อถูกถาม
เปิด Settings > Modes เปิดใช้ Enhance สำหรับ dictation (การทำความสะอาดคำเติม)
เปิด YOLO Mode หากต้องการส่งอัตโนมัติ
เปิด Cursor คลิกเข้าไปที่ composer panel กดค้าง hotkey พูด

ขั้นตอน Enhance สำคัญมากกว่าที่คุณคิด การถอดเสียงดิบให้ composer อินพุตที่ยุ่งเหยิงซึ่งใช้ tokens และสับสนการเลือกไฟล์ อินพุตที่ทำความสะอาดแล้ว ("ปัญหาคือ..." แทน "ก็คือปัญหาคือ เอ่อ...") ส่งเจตนาเดียวกันด้วยเสียงรบกวนน้อยลง

ที่ใช้เสียงใน Cursor

พรอมต์ composer — payoff ใหญ่ที่สุด แก้ไขหลายไฟล์ที่คุณต้องบรรยายสถานการณ์ การเปลี่ยนแปลง และข้อจำกัด

Inline chat (Cmd+K) — ทำงานได้ดีสำหรับพรอมต์ขนาดกลาง "แปลง function นี้เป็น async/await เก็บรูปแบบ error handling" อ่านธรรมชาติเมื่อพูด

Ask mode — ดีสำหรับคำถามสำรวจ "ทำไม component นี้ re-render ทุกครั้งที่ผู้ใช้พิมพ์ trace ผ่าน props และดู context providers ที่มันพึ่งพา"

Tab autocomplete — อย่าเสียเวลา flow เร็วเกินไปสำหรับเสียงที่จะช่วย

Chat panel สำหรับ follow-ups — เสียงสำหรับคำตอบที่มีเนื้อหา ("ดูการ implementation ใน fooService.ts และอธิบายว่าทำไมเราจึงจับ validation error ที่นั่น") พิมพ์สำหรับสั้น ๆ ("ใช่" "ลองอีกครั้ง" "แนวทางต่าง")

Workflows ที่เปลี่ยนไปเมื่อตั้งค่าเสียงแล้ว

พรอมต์เริ่มเย็น

ข้อความแรกในเซสชั่น Cursor คือ high-leverage ที่สุด Cursor ใช้มันเพื่อ seed บริบทสำหรับการสนทนาทั้งหมด ด้วยการพิมพ์ คุณบีบอัด ด้วยเสียง คุณ front-load:

ฉันกำลัง build หน้า billing settings เราใช้ TanStack Query สำหรับ data fetching, Zustand สำหรับ client state และ design system ใน src/ui flow Stripe customer portal ต้อง embed — มี stripeService.ts ที่มี createPortalSession แต่ไม่มีอะไร wired ไปยัง frontend ฉันต้องการหน้า billing ที่ app/settings/billing ที่แสดง plan ปัจจุบัน มีปุ่มเปิด Stripe portal ในแท็บใหม่ และแสดงวันที่และจำนวน invoice ถัดไป ใช้ card components ที่มีจาก design system อย่าเพิ่ม dependencies ใหม่

นั่นให้ Cursor พอที่จะ scaffold ทั้งหน้าใน pass เดียว

รายงาน bug ให้ AI

bug เป็นเรื่องเล่า — เกิดในลำดับ การพูด timeline เร็วกว่าและแม่นยำกว่าการพิมพ์:

ฟีเจอร์ autosave ใน document editor บางครั้งบันทึก stale content ทำซ้ำได้ยากแต่ฉันคิดว่าจับได้แล้ว เมื่อผู้ใช้พิมพ์เร็วและคำขอ network ช้า optimistic update ตั้ง local state เป็น content ใหม่ แต่ถ้า response ของ save ก่อนหน้ากลับมาหลังตัวใหม่ มันเขียนทับ local state ด้วย content เก่า race อยู่ที่ใดที่หนึ่งใน hook useAutoSave ใน src/hooks/useAutoSave.ts ดูลำดับคำขอและแก้ไข ใช้ sequence number ที่เพิ่มขึ้นเพื่อให้ response นอกลำดับถูก drop

Code review บน PR ของเพื่อนร่วมงาน

เปิด diff view ของ Cursor dictate ความเห็นของคุณผ่าน composer ด้วย "ใส่ความเห็นที่ว่า..." — เร็วกว่าการพิมพ์ feedback มาก ดีโดยเฉพาะเมื่อคุณต้องการพูดถึงเหตุผล ไม่ใช่แค่ชี้บรรทัด

คำถามทั่วไป

Cursor มีเสียงในตัวหรือไม่

ไม่จริง ๆ ไม่มี dictation พื้นเมืองใน Cursor เอง — คุณพึ่ง macOS หรือแอปบุคคลที่สาม Cursor เป็นเพียง Electron text surface เท่าที่เครื่องมือเสียงเกี่ยวข้อง ซึ่งสะดวกเพราะอะไรก็ตามที่พิมพ์เข้าแอป Mac พิมพ์เข้า Cursor

AI จะไม่สับสนกับ phrasing แบบพูดหรือ

GPT-4o และ Claude Sonnet จัดการคำพูดสนทนาได้โดยไม่มีปัญหา คำเติมและการ restart อยู่ใน training data เสมอ ความเสี่ยงไม่ใช่ความเข้าใจ — มันคือ tokens ที่เสียเปล่า นั่นคือสิ่งที่เครื่องมือทำความสะอาดเช่น Enhance ของ Vext แก้ไข

ฉันควร dictate code ไหม

ไม่ Dictate ส่วนภาษาธรรมชาติ — บริบท เจตนา ข้อจำกัด เมื่อคุณต้องรวมโค้ดจริงในพรอมต์ ให้วาง เสียงสำหรับส่วนที่ใช้เวลาพิมพ์นานกว่าคิด

trade-off ที่ตรงไปตรงมา

dictation ทั่วทั้งระบบมีค่าใช้จ่ายบางอย่าง — เงิน การดาวน์โหลดโมเดล สิทธิ์ accessibility สัปดาห์แรกที่อึดอัดในการคุยกับคอมพิวเตอร์ของคุณ Wispr Flow คือ $15/เดือนและทำงานข้ามแพลตฟอร์ม Vext คือ $49 ครั้งเดียวและเป็นเฉพาะในเครื่องบน Apple Silicon Apple Dictation ฟรีแต่จำกัด

หากคุณอยู่ใน Cursor — หมายถึงคุณเขียนพรอมต์มากกว่าอีเมล — เครื่องมือ dictation แบบเสียเงินจ่ายตัวเองในไม่กี่สัปดาห์ของการประหยัดการพิมพ์ หากคุณใช้ Cursor เป็นครั้งคราวเท่านั้น Apple Dictation เพียงพอ

ไม่ว่าทางใด การปลดล็อกเหมือนกัน: พรอมต์ยาวขึ้นเพราะการพูดง่ายกว่าการพิมพ์ และ Cursor ตอบสนองต่อพรอมต์ยาวได้ดีกว่า การทำความสะอาดเป็นโบนัส