Apple จัดงาน WWDC 2026 ในวันที่ 8 และ 9 มิถุนายน และพาดหัวคือ AI: Siri ที่สร้างใหม่ทั้งหมด, Foundation Models บนเครื่องรุ่นใหม่ และ — ที่พูดออกมาดัง ๆ บนเวที — "การพิมพ์ด้วยเสียงที่แม่นยำขึ้น" ถ้าคุณพิมพ์ด้วยเสียงบน Mac ประโยคสุดท้ายนั่นแหละที่ควรสนใจ
นี่คือคำถามตรง ๆ ที่โพสต์นี้จะตอบ: Apple เพิ่งทำให้แอปพิมพ์ด้วยเสียงเฉพาะทางหมดความหมายไปเลยหรือเปล่า? คำตอบสั้น ๆ — ไม่ มันแค่ยกพื้นให้สูงขึ้น ของที่มีในตัวพื้นฐานดีขึ้น ซึ่งเป็นเรื่องดีสำหรับทุกคน แต่สิ่งที่ทำให้คนตามหาเครื่องมือเฉพาะทางตั้งแต่แรกนั้นส่วนใหญ่ไม่ได้อยู่บนเวที นี่คือสิ่งที่เปลี่ยนและสิ่งที่ไม่เปลี่ยน
Apple ประกาศอะไรจริง ๆ
มีอยู่ไม่กี่อย่างที่เป็นของจริงและได้รับการยืนยัน แยกจากความเงางามด้านการตลาด
Siri AI Apple เปิดตัว "Siri เวอร์ชันใหม่ทั้งหมดที่ผสานลึกเข้ากับ iPhone, iPad, Mac, Apple Watch และ Apple Vision Pro" มันสนทนาโต้ตอบได้ มีแอปแยกเป็นของตัวเองที่ซิงก์ประวัติของคุณผ่าน iCloud ตอบคำถามเกี่ยวกับสิ่งที่อยู่บนหน้าจอได้ ดึงบริบทจากข้อความ อีเมล และรูปภาพของคุณ และทำสิ่งต่าง ๆ ข้ามแอปได้ มันจะออกเป็นเบต้าช่วงปลายปี 2026 ภาษาอังกฤษก่อน มีข้อจำกัดในการเปิดตัวจริง ๆ อยู่: ในสหภาพยุโรปมันมาบน Mac และ Vision Pro แต่ตามถ้อยคำของ Apple เอง "ในช่วงแรกยังไม่มาในสหภาพยุโรปบน iOS, iPadOS และ watchOS" และยังไม่มาที่จีนตอนเปิดตัวระหว่างที่ Apple ดำเนินการตามข้อกำหนดด้านกฎระเบียบ
โมเดลบนเครื่องรุ่นที่สาม การพัฒนาการพิมพ์ด้วยเสียงมาจากตรงนี้ ไลน์อัปบนเครื่องของ Apple ตอนนี้คือ AFM 3 Core ซึ่งเป็นโมเดล dense ขนาด 3 พันล้านพารามิเตอร์ และ AFM 3 Core Advanced ซึ่งเป็นโมเดล sparse ขนาด 20 พันล้านพารามิเตอร์ที่เปิดใช้งานเพียง 1 ถึง 4 พันล้านพารามิเตอร์ต่อหนึ่งคำขอ และเป็นมัลติโมดัลโดยกำเนิด Apple ยกความดีความชอบให้โมเดล Advanced ตัวนั้นโดยเฉพาะว่าให้ "เสียงที่มีอารมณ์และการพิมพ์ด้วยเสียงที่แม่นยำขึ้น" และรายงานว่าผู้ประเมินที่เป็นมนุษย์ชอบคุณภาพโดยรวมของมันมากกว่าระบบเดิมที่ 44.7% ต่อ 17.6% นั่นเป็นการก้าวขึ้นอย่างแท้จริง โดยทำงานบน Neural Engine
เชิงอรรถเรื่อง Gemini เรื่องนี้มักถูกรายงานผิด จึงควรพูดให้ชัด Apple และ Google ประกาศข้อตกลงหลายปีที่ระบุว่า "Apple Foundation Models รุ่นถัดไปจะอิงกับโมเดล Gemini และเทคโนโลยีคลาวด์ของ Google" แต่ Apple ก็ชัดเจนพอ ๆ กันว่าโมเดลที่ออกมาทำงานบนเครื่องของคุณ "ไม่มีโมเดลใด ๆ ที่ Google นำไปใช้งานเลย" — Gemini ถูกใช้ช่วยฝึกและกลั่นโมเดลของ Apple ไม่ใช่ทำงานบน Mac ของคุณ ควรรู้ไว้ เพราะเรื่องความเป็นส่วนตัวด้านล่างขึ้นอยู่กับจุดนี้
สำหรับนักพัฒนายังมีอีก: Apple เปิด Foundation Models framework ออกมาผ่าน Swift LanguageModel protocol ตัวใหม่ เพื่อให้แอปสลับระหว่างโมเดลบนเครื่องของ Apple, Gemini บนคลาวด์, Claude ของ Anthropic หรือโมเดล MLX ของชุมชน ได้ด้วยการแก้บรรทัดเดียว และออก Core AI ซึ่งเป็น local inference framework ที่ทำงานข้าม CPU, GPU และ Neural Engine "โดยไม่ต้องมีเซิร์ฟเวอร์และไม่มีค่าใช้จ่ายต่อโทเค็น" ทิศทางนั้นสำคัญกว่าฟีเจอร์เดี่ยว ๆ ใด ๆ และเราจะย้อนกลับมาที่เรื่องนี้
ข่าวดีของจริง
ต้องยกความดีความชอบให้ Apple ตามสมควร การที่การพิมพ์ด้วยเสียงบนเครื่องแม่นยำขึ้น โดยฟรี เป็นส่วนตัวโดยค่าเริ่มต้น และไม่ต้องตั้งค่าอะไรเลย คือชัยชนะของจริง ถ้าคุณพิมพ์ด้วยเสียงเป็นข้อความหรือโน้ตสั้น ๆ ลงในช่องข้อความเป็นครั้งคราว และสิ่งเดียวที่เคยกวนใจคุณคือคำที่ฟังผิดบ้างเป็นครั้งคราว macOS เพิ่งทำเรื่องนั้นได้ดีขึ้นพอดี และคุณอาจไม่ต้องการอะไรอื่นอีก นั่นคือพื้นฐานตามจริง
สิ่งที่โพสต์นี้พูดถึงส่วนใหญ่ไม่ใช่ "อัปเดตของ Apple อ่อนแอ" มันดีกว่าปีที่แล้ว แต่ประเด็นคือ "การพิมพ์ด้วยเสียงที่แม่นยำขึ้น" และ "ผู้ช่วยที่ฉลาดขึ้น" ไม่ใช่งานเดียวกันกับเวิร์กโฟลว์ที่แอปเฉพาะทางถูกสร้างมาเพื่อมัน
จุดที่มันยังเอื้อมไม่ถึง
นี่คือสิ่งที่ไม่ได้อยู่บนเวที WWDC 2026 พูดกันตรง ๆ ในแง่ของสิ่งที่ Apple ประกาศและไม่ได้ประกาศ
ผู้ช่วยไม่ใช่เครื่องมือพิมพ์ด้วยเสียง Siri AI คือการเหวี่ยงไม้ครั้งใหญ่ และมันคือผู้ช่วย: ถามมันสิ ให้มันทำสิ่งต่าง ๆ คุยโต้ตอบไปมา นั่นเป็นคนละงานกับการพิมพ์ด้วยเสียง — การเอาคำพูดของคุณแบบเป๊ะ ๆ ลงในแอปและช่องที่เคอร์เซอร์ของคุณอยู่พอดี ไม่ว่าจะเป็นเอดิเตอร์ของคุณ, Slack, คอมเมนต์ในโค้ด หรือทิกเก็ตซัพพอร์ต Apple ทำให้ผู้ช่วยดีขึ้นมาก แต่ไม่ได้โชว์เลเยอร์การพิมพ์ด้วยเสียงทั้งระบบที่วางข้อความสะอาด ๆ ลงตรงที่คุณกำลังทำงานอยู่
การประชุมและผู้พูด ไม่มีอะไรใน WWDC 2026 ที่จับเสียงระบบจากสาย Zoom หรือ Google Meet แล้วแยกทรานสคริปต์ตามว่าใครกำลังพูด Apple ไม่ได้ประกาศ speaker diarization บนเครื่อง ถ้าคุณถอดเสียงการประชุมและต้องการป้าย "Alice พูด / Bob พูด" โดยไม่ต้องมีบอตเข้าร่วมสาย นั่นยังเป็นงานของเครื่องมือเฉพาะทาง เราเขียนเรื่องการถอดเสียงการประชุมบน Mac โดยไม่ผ่านคลาวด์ไว้ต่างหากแล้ว
การแปลขณะพิมพ์ด้วยเสียง การพิมพ์ด้วยเสียงที่ดีขึ้นว่าด้วยการเอาคำพูดของคุณเป็นข้อความได้อย่างแม่นยำ การพูดภาษาฝรั่งเศสแล้วได้ภาษาอังกฤษสะอาด ๆ ที่เคอร์เซอร์ ในแอปอะไรก็ตามที่คุณอยู่ เป็นไปป์ไลน์แยกต่างหากที่ Apple ไม่ได้เอาขึ้นเวที อ่านเพิ่มเรื่องว่าไปป์ไลน์การแปลแบบโลคัลทำงานอย่างไรได้ถ้าคุณต้องการ
การเลือกเอนจินและไฟล์ แอปโลคัลเฉพาะทางให้คุณเลือกเอนจินรู้จำเสียงได้เอง — Whisper Large-v3 เพื่อความแม่นยำ, Parakeet เพื่อความเร็ว — และถอดเสียงจากไฟล์เสียงที่มีอยู่ ไม่ใช่แค่เสียงพูดสด ๆ Apple ให้คุณใช้โมเดลของ Apple สำหรับคนส่วนใหญ่ก็โอเค สำหรับคนที่ใส่ใจ มันไม่ใช่ตัวเลือกที่พวกเขามี ดูการเปรียบเทียบWhisper vs Parakeetของเราว่าทำไมเอนจินถึงสำคัญ
ความละเอียดอ่อนเรื่องความเป็นส่วนตัวที่ควรอ่านสองรอบ
โมเดลบนเครื่องของ Apple เป็นส่วนตัวอย่างแท้จริง — มันทำงานบน Mac ของคุณและเสียงไม่ออกไปไหน ตรงนี้ไม่มีอะไรให้เถียง ความละเอียดอ่อนอยู่ที่เลเยอร์เหนือขึ้นไป คำขอที่หนักกว่าจะส่งไปที่ Private Cloud Compute ซึ่งปีนี้ Apple ขยายไปบน NVIDIA Blackwell GPU ที่รันใน Google Cloud และโมเดลรุ่นถัดไปฝึกด้วย Gemini Apple บอกว่าข้อมูลของคุณไม่ถูกจัดเก็บหรือเข้าถึงได้โดย Apple หรือใครก็ตาม และ Google ไม่เคยเห็นมัน นั่นเป็นคำยืนยันของ Apple และ Google เองเกี่ยวกับระบบของตัวเอง และคนที่มีเหตุผลก็ตัดสินใจเองได้ว่ามันมีค่าแค่ไหน
ถ้าเส้นมาตรฐานของคุณคือ "ทุกอย่างอยู่ในเครื่องนี้ ไม่มีเลเยอร์คลาวด์ ไม่ต้องเชื่อใจใคร" เครื่องมือที่โลคัลเต็มตัวยังคงข้ามเส้นที่สถาปัตยกรรมแบบเป็นชั้น ๆ ของ Apple จงใจไม่ข้าม นั่นคือเหตุผลทั้งหมดที่เสียงเป็นข้อความแบบออฟไลน์บนเครื่องมีอยู่ในฐานะหมวดหมู่หนึ่ง และ WWDC 2026 ไม่ได้เปลี่ยนสมการนี้
แล้วคุณยังต้องการแอปเฉพาะทางอยู่ไหม?
คำตอบตรง ๆ ทั้งสองทาง:
- อาจจะไม่ ถ้า คุณพิมพ์ด้วยเสียงลงในช่องข้อความเป็นครั้งคราวและอยากได้อะไรที่ฟรีและมีในตัว การพิมพ์ด้วยเสียงบนเครื่องที่ดีขึ้นของ macOS 27 เป็นการอัปเกรดของจริงและมันอยู่ตรงนั้นแล้ว ใช้มันเถอะ
- ยังต้องการ ถ้า คุณพิมพ์ด้วยเสียงทั้งวันข้ามทุกแอป ถอดเสียงการประชุมพร้อมป้ายผู้พูด แปลขณะพูด อยากเลือกเอนจินเอง หรือต้องการการรับประกันแบบหนักแน่นว่าไม่มีอะไรออกจาก Mac ของคุณ สิ่งเหล่านั้นคืองานที่ Apple ไม่ได้ส่งมอบ
สำหรับกลุ่มที่สองนั้น Vext เป็นหนึ่งตัวเลือกที่สร้างมาเพื่อสิ่งนี้พอดี: การพิมพ์ด้วยเสียงทั้งระบบลงในแอปใดก็ได้ การถอดเสียงการประชุมพร้อมป้ายผู้พูด การแปลสด และโน้ตเสียง ทั้งหมดทำงานบน Whisper หรือ Parakeet แบบโลคัล บวกกับ LLM โลคัลสำหรับการจัดเก็บให้เรียบร้อย จ่ายครั้งเดียว $49 ไม่มีค่าสมาชิก ข้อแลกเปลี่ยนตามจริง: มันไม่ฟรี ใช้ได้เฉพาะ Apple Silicon และตอนนี้ที่พื้นฐานของ Apple ดีขึ้นแล้ว ผู้ใช้ทั่วไปอาจไม่ต้องการมันจริง ๆ
สัญญาณที่ใหญ่กว่า
สิ่งที่น่าสนใจที่สุดใน WWDC 2026 ไม่ใช่ฟีเจอร์ใดฟีเจอร์หนึ่ง แต่เป็นการที่ Apple ออก Core AI และเปิดโมเดลบนเครื่องให้ทุกแอป โดยเดิมพันว่าที่ที่เหมาะสมในการรัน AI คือชิปที่คุณเป็นเจ้าของอยู่แล้ว นั่นคือวิทยานิพนธ์ที่ตรงเป๊ะกับสิ่งที่แอปเสียงโลคัลเฉพาะทางถูกสร้างขึ้นมา Apple ไม่ได้ยุติหมวดหมู่นั้นในปีนี้ มันยืนยันความถูกต้องของมัน — และยกพื้นข้างใต้ให้สูงขึ้น