Что Apple Intelligence на WWDC 2026 значит для голосовой диктовки на Mac

Apple провела WWDC 2026 8 и 9 июня, и главной темой стал ИИ: переписанная Siri, новое поколение Foundation Models на устройстве и — сказанное вслух со сцены — «более точная диктовка». Если вы диктуете на своём Mac, именно на эту последнюю фразу стоит обратить внимание.

Вот честный вопрос, на который отвечает этот пост: сделала ли Apple отдельное приложение для диктовки бессмысленным? Коротко — нет. Она подняла планку. Встроенный базовый уровень стал лучше, и это хорошо для всех, но то, ради чего люди вообще идут искать отдельный инструмент, по большей части на сцене не показали. Вот что изменилось, а что нет.

Что Apple на самом деле анонсировала

Несколько вещей реальны и подтверждены — отдельно от маркетингового глянца.

Siri AI. Apple представила «совершенно новую версию Siri, глубоко интегрированную в iPhone, iPad, Mac, Apple Watch и Apple Vision Pro». Она диалоговая, у неё есть собственное отдельное приложение, синхронизирующее историю через iCloud, она умеет отвечать на вопросы о том, что у вас на экране, подтягивать контекст из ваших сообщений, писем и фотографий и выполнять действия в приложениях. Выходит в бете позже в 2026 году, сначала на английском. Есть реальные оговорки по запуску: в ЕС она появится на Mac и Vision Pro, но, по собственной формулировке Apple, «изначально не в ЕС в iOS, iPadOS и watchOS», и в Китай на старте она не придёт, пока Apple проходит регуляторные требования.

Модели на устройстве третьего поколения. Улучшение диктовки идёт отсюда. Линейка моделей на устройстве у Apple теперь — это AFM 3 Core, плотная модель на 3 миллиарда параметров, и AFM 3 Core Advanced, разреженная модель на 20 миллиардов параметров, которая активирует лишь от 1 до 4 миллиардов параметров на запрос и нативно мультимодальна. Именно этой модели Advanced Apple приписывает «выразительные голоса и более точную диктовку» и сообщает, что люди-оценщики предпочли её общее качество в соотношении 44,7 % против 17,6 % по сравнению с прежней системой. Это настоящий шаг вперёд, и он работает на Neural Engine.

Сноска про Gemini. Вот это часто перевирают, поэтому стоит быть точным. Apple и Google анонсировали многолетнюю сделку, по которой «следующее поколение Apple Foundation Models будет основано на моделях Gemini и облачной технологии Google». Но Apple столь же ясно дала понять, что модели, поставляемые на ваше устройство, не содержат «ни одной из моделей, которые разворачивает Google» — Gemini использовали, чтобы помочь обучить и дистиллировать модели Apple, а не чтобы запускать их на вашем Mac. Это стоит знать, потому что от этого зависит история с приватностью ниже.

Для разработчиков есть больше: Apple открыла свой фреймворк Foundation Models за новым Swift-протоколом LanguageModel, так что приложения могут переключаться между моделью Apple на устройстве, облачным Gemini, Claude от Anthropic или сообществными MLX-моделями изменением в одну строку, и выпустила Core AI — локальный фреймворк инференса, работающий на CPU, GPU и Neural Engine «без сервера и без оплаты за токен». Это направление важнее любой отдельной функции, и мы к нему ещё вернёмся.

По-настоящему хорошая новость

Отдадим Apple должное. То, что точность диктовки на устройстве растёт, бесплатно, приватно по умолчанию, без всякой настройки, — это реальная победа. Если вы изредка диктуете сообщение или заметку в текстовое поле и единственное, что вас когда-либо раздражало, — это случайно не расслышанное слово, macOS только что стала лучше делать именно это, и, возможно, больше вам ничего и не нужно. Это честный базовый уровень.

Бóльшая часть этого поста не про то, что «обновление Apple слабое». Оно лучше прошлогоднего. Дело в том, что «более точная диктовка» и «более умный ассистент» — это не та же самая задача, что рабочий процесс, под который сделано отдельное приложение.

До чего она всё ещё не дотягивает

Вот чего не было на сцене WWDC 2026 — честно, в рамке того, что Apple анонсировала, а что нет.

Ассистент — это не инструмент для диктовки. Siri AI — это большой замах, и это ассистент: спрашиваете её о вещах, поручаете ей действия, ведёте диалог. Это другая задача, нежели голосовой набор — доставить ваши точные слова в точное приложение и поле, где стоит ваш курсор, будь то ваш редактор, Slack, комментарий в коде или тикет поддержки. Ассистента Apple сделала намного лучше. Она не показала общесистемный слой голосового набора, который роняет чистый текст туда, где вы работаете.

Встречи и говорящие. Ничего на WWDC 2026 не захватывало системный звук звонка в Zoom или Google Meet и не разбивало транскрипт по тому, кто говорил. Apple не анонсировала диаризацию говорящих на устройстве. Если вы транскрибируете встречи и вам нужны метки «Сказал Алиса / Сказал Боб» без бота, подключающегося к звонку, это по-прежнему задача для отдельного инструмента. Мы отдельно писали о транскрипции встреч на Mac без облака.

Перевод во время диктовки. Улучшенная диктовка — это про то, чтобы точно перевести вашу речь в текст. Говорить по-французски и получать чистый английский у курсора, в каком бы приложении вы ни были, — это отдельный конвейер, который Apple на сцену не вынесла. Подробнее о том, как работает этот локальный конвейер перевода, если он вам нужен.

Выбор движка и файлы. Отдельные локальные приложения позволяют выбрать движок распознавания речи — Whisper Large-v3 для точности, Parakeet для скорости — и транскрибировать уже существующие аудиофайлы, а не только живую речь. Apple даёт вам модель Apple. Большинству этого хватает. Для тех, кому это важно, выбора у них нет. См. наше сравнение Whisper против Parakeet о том, почему движок имеет значение.

Нюанс приватности, который стоит прочитать дважды

Модель Apple на устройстве по-настоящему приватна — она работает на вашем Mac, и аудио его не покидает. Тут спорить не о чем. Нюанс — в уровнях выше неё. Более тяжёлые запросы уходят в Private Cloud Compute, который Apple в этом году расширила на GPU NVIDIA Blackwell, работающие в Google Cloud, а модели следующего поколения обучаются с Gemini. Apple утверждает, что ваши данные не хранятся и недоступны ни Apple, ни кому-либо ещё и что Google их никогда не видит. Это собственные утверждения Apple и Google об их собственных системах, и разумные люди вправе сами решить, чего это стоит.

Если ваша планка — «всё остаётся на этой машине, никаких облачных уровней, никакого доверия не требуется», то полностью локальный инструмент по-прежнему берёт черту, которую многоуровневая архитектура Apple, по своему замыслу, не берёт. Именно поэтому офлайн-перевод голоса в текст на устройстве существует как категория, и WWDC 2026 этой арифметики не изменила.

Так нужно ли вам всё ещё отдельное приложение?

Честный ответ в обе стороны:

Скорее нет, если вы диктуете изредка в текстовые поля и хотите что-то бесплатное и встроенное. Улучшенная диктовка на устройстве в macOS 27 — это реальный апгрейд, и она прямо тут. Пользуйтесь.
Всё ещё да, если вы голосом набираете весь день во всех приложениях, транскрибируете встречи с метками говорящих, переводите на ходу, хотите выбирать движок или вам нужна жёсткая гарантия, что ничего не покидает ваш Mac. Это те задачи, которые Apple не выпустила.

Для второй группы Vext — один из вариантов, сделанный ровно под это: общесистемная диктовка в любое приложение, транскрипция встреч с метками говорящих, живой перевод и голосовые заметки, всё работает на локальном Whisper или Parakeet плюс локальная LLM для очистки, 49 $ единоразово, без подписки. Честные компромиссы: это не бесплатно, это только для Apple Silicon, и теперь, когда базовый уровень Apple стал лучше, обычным пользователям он, честно, может и не понадобиться.

Сигнал покрупнее

Самым интересным на WWDC 2026 была не какая-то одна функция. Это то, что Apple выпустила Core AI и открыла модели на устройстве каждому приложению, сделав ставку на то, что правильное место для запуска ИИ — это кремний, которым вы уже владеете. Это в точности тот тезис, на котором были построены отдельные локальные голосовые приложения. Apple не прикончила эту категорию в этом году. Она её подтвердила — и подняла под ней планку.