Встроенная Диктовка Apple получила тихое обновление в macOS Tahoe. Новая on-device Foundation Model работает быстро, точно распознаёт обычную речь и бесплатна — идёт вместе с системой. Для многих людей на этом разговор заканчивается: им больше ничего не нужно.

Для других она перестаёт хватать в течение недели. Вот где проходит граница и что делать, когда её пересекаешь.

Что Apple Dictation делает хорошо

Три вещи, в основном:

Она уже на твоём Mac. Никаких загрузок, никаких аккаунтов, никаких плясок с разрешениями. Системные настройки > Клавиатура > Диктовка, включить, выбрать горячую клавишу, готово.

Работает на устройстве. В on-device варианте аудио не покидает твою машину. История про приватность у Apple здесь реальная — нет обращений к облаку, и запись нигде не хранится после транскрипции.

Точность на разговорном английском хорошая. Лучше, чем старый движок. Лучше, чем большинство помнит диктовку в macOS. Пунктуация, выведенная из ритма речи, работает большую часть времени. Распространённые технические термины ("React", "TypeScript", "API") выходят правильно.

Набросать сообщение в Slack, продиктовать быструю заметку, ответить на email одной фразой — Apple Dictation справляется. Многим пользователям большего и не нужно.

Где ломается

Смотри, что происходит, когда начинаешь давить:

Технический словарь. Названия библиотек, имена функций, команды CLI, пути к файлам. "kubectl get pods" превращается в "cube control get pods". "useEffect" — в "you sufficed". "src/components/auth/AuthGuard" становится... чем-то. Если работа связана с конкретными техническими названиями, времени на правку транскриптов уходит больше, чем экономишь на диктовке.

Чистка слов-паразитов. Apple Dictation транскрибирует именно то, что ты сказал — включая "эм", "ну вот", "в общем-то", ложные старты и обрывки. Устная речь грязнее письменной. Без чистки продиктованный текст читается как расшифровка чьего-то потока сознания — потому что так и есть.

Длинные фрагменты. Apple Dictation рассчитана на короткие всплески. Нет истории транскриптов, нет способа чисто захватить больше нескольких предложений, нет заметок, к которым можно вернуться. Хочешь продиктовать документ на 300 слов — делаешь это кусками по 30 секунд и склеиваешь.

Встречи. Apple Dictation — не инструмент для встреч. Захватывает только один источник ввода за раз, нет меток говорящих, нет резюме. Нужна транскрипция встречи — это не тот продукт.

Перевод. Английский на входе, английский на выходе. Никакого многоязычного потока.

Эргономика горячих клавиш. Триггер двойного нажатия нормален для редкого использования, неудобен для частого. Нет опции "нажал — говоришь" или "держишь — говоришь", нет настроек под конкретные приложения.

Тест, который покажет, к какой группе ты относишься

Попробуй один день: используй Apple Dictation для всего, что набираешь длиннее одного предложения. Slack, почта, заметки, комментарии к коду, промпты для ИИ.

К концу дня либо:

а) заметишь, что работало на удивление хорошо — продолжай пользоваться. б) заметишь, что постоянно воюешь с техническими терминами, или что без чистки сообщения звучат не так, или что хотелось бы диктовать более длинные куски.

Если (б) — ты в группе, которой нужно больше, чем предлагает Apple.

Что добавляет Vext и зачем

Vext — это Mac-приложение для диктовки за $49 единоразово, которое мы разрабатываем. Оно использует тот же принцип on-device, что и Apple — ничего не покидает твой Mac — но решает конкретные ограничения выше.

Вот реальные отличия:

Движок речи. Vext по умолчанию использует NVIDIA Parakeet через CoreML. На M2 работает примерно на 150x быстрее реального времени и лучше справляется с техническим словарём, чем Foundation Model Apple — особенно для терминов, связанных с кодом. Можно также выбрать Whisper Small/Medium/Large для повышенной точности на шумном аудио или многоязычном контенте. Apple Dictation использует Foundation Model Apple без возможности выбора.

Enhance (чистка через LLM). Vext прогоняет транскрипт через небольшую локальную LLM (по умолчанию Gemma 3 4B, около 2.8 ГБ) перед вставкой. Слова-паразиты уходят. Структура предложений подтягивается. Смысл сохраняется. Исходный транскрипт остаётся, если он нужен. У Apple Dictation ничего подобного нет.

Варианты горячих клавиш. Удержание для разговора, переключатель hands-free, настраиваемый порог. Apple Dictation даёт один стиль активации.

Режим встречи. Захватывает микрофон и системный звук одновременно, добавляет метки говорящих через локальную диаризацию, прогоняет резюме через LLM. Работает с Zoom, Meet, FaceTime — всем, что производит звук на твоём Mac.

Перевод. Говоришь на любом из 99+ языков, получаешь текст на нужном языке. С включённым Enhance чистка и перевод происходят за один проход.

YOLO Mode. Автоотправка после вставки. Создан специально для инструментов ИИ-кодинга.

Захват скриншота во время диктовки. Выделяешь область экрана перетаскиванием во время разговора — изображение вставляется рядом с транскриптом. Удобно для промптов ИИ-инструментам про что-то видимое на экране.

Честный аргумент остаться на Apple Dictation

Если твоё использование выглядит так — не заморачивайся ни с чем другим:

  • Короткие сообщения несколько раз в час
  • Общий английский словарь
  • Одно устройство, один рабочий процесс
  • Не раздражает триггер двойного нажатия
  • Встречи не нужны

On-device Foundation Model сейчас действительно хороша. Apple выпустила реальное улучшение, и для повседневного использования этого хватает.

Честный аргумент переключиться

Если твоё использование выглядит так — сэкономишь реальное время:

  • Несколько диктовок в час, включая длинные фрагменты
  • Технический словарь регулярно (код, названия библиотек, команды CLI)
  • Нужна чистка, чтобы диктованный текст читался как написанный
  • Проводишь встречи и хочешь их транскрипты
  • Работаешь больше чем на одном языке
  • Много пишешь в ИИ-инструменты

Для такого профиля платная локальная приложение для диктовки окупается в пределах пары недель. Трение, которое создаёт Apple Dictation на каждый случай использования, небольшое, но накапливается.

Сосуществование — нормально

Это не рекомендация "переключись полностью". Многие используют оба: Apple Dictation для разовых быстрых сообщений, где триггер двойного нажатия удобен, Vext (или Superwhisper, или любое другое локальное приложение) для работы в длинном формате, где важны чистка и точность.

Бесплатная версия Vext даёт 100 диктовок, 50 заметок и 10 встреч до того, как попросит $49. Этого достаточно, чтобы понять, на какой стороне линии находится твоё использование.

Что macOS вероятно выпустит дальше

Apple движется в определённом направлении. On-device Foundation Model в Tahoe — значимое обновление. Будущие версии, скорее всего, принесут лучшую чистку, больший контекст и, возможно, режим встречи в Заметках. Разрыв между встроенным и платными локальными приложениями будет сокращаться.

Но медленно. Apple не собирается выпускать функция-в-функцию аналог Vext или Superwhisper в ближайшее время — добавит самые распространённые 80% и оставит длинный хвост сторонним разработчикам. Если ты в длинном хвосте (разработчики, многоязычные пользователи, рабочие процессы с большим количеством встреч) — сторонние приложения остаются актуальными в обозримой перспективе.

Для всех остальных: Apple Dictation нормально работает. Если никогда не пробовал в Tahoe — попробуй. Может, большего и не нужно.