Большинство инструментов для расшифровки встреч отправляют аудио на сервер. Ваш разговор — конфиденциальные бизнес-обсуждения, кадровые вопросы, клиентские звонки — обрабатывается и хранится в чужой инфраструктуре.

Если это смущает, есть альтернатива. Mac на Apple Silicon умеют локально гонять модели распознавания, не уступающие облаку по точности. Как настроить локальную расшифровку встреч в macOS.

Что нужно

  • Mac на Apple Silicon (M1, M2, M3, M4)
  • macOS 14 Sonoma или новее
  • Локальное приложение для расшифровки (гайд про Vext)

Как это работает

При старте записи встречи Vext одновременно захватывает два потока:

  1. Микрофон — ваш голос через стандартный AVAudioEngine
  2. Системное аудио — всех остальных через process tap Core Audio (macOS 14.2+)

Поэтому Vext работает с любым приложением — Zoom, Google Meet, FaceTime, Microsoft Teams, Discord — без плагинов и ботов.

При остановке:

  1. Аудио сегментируется через VAD — паузы становятся естественными границами
  2. Каждый сегмент локально расшифровывается Parakeet на 150x real-time
  3. Накладываются метки спикеров — «Я» для микрофона, «Они» для системы
  4. При включённом Enhance — очистка и опциональный перевод
  5. При включённом Summarize — резюме на ИИ с задачами

Всё на Mac. Ничего не уходит.

Настройка

Шаг 1: Установка Vext

brew install muvon/tap/vext

Или скачать с getvext.app. В пробном — 10 записей встреч.

Шаг 2: Разрешения

При первом запуске Vext попросит три:

  • Микрофон — для голоса
  • Accessibility — для глобальных горячих клавиш
  • Запись экрана — нужна macOS для system audio (API process tap требует это разрешение, хотя контент экрана не пишется)

Шаг 3: Старт записи

Нажмите Fn для переключения. Около курсора появится пульсирующая красная точка, иконка в меню мигает.

Запускайте звонок в Zoom/Meet/FaceTime как обычно. Vext в фоне берёт обе стороны.

Шаг 4: Стоп и просмотр

Снова Fn. Vext обработает аудио — обычно секунды для 30-минутной встречи на 150x.

Вы получите:

  • Полная расшифровка с метками и таймстампами
  • ИИ-резюме (если включено)
  • Список задач (если включено)

Скриншоты во встречах

Во время записи можно выделить любую область экрана. Скриншот автоматически приложится к расшифровке.

Полезно для:

  • Слайдов презентации
  • Кода или дизайна
  • Диаграмм на доске
  • Любого визуального контекста

Несколько скриншотов на встречу, все рядом с расшифровкой.

Экспорт

Доступные форматы:

Формат Применение
TXT Простой текст
Markdown С метками и таймстампами
SRT Субтитры для видео
VTT Web-субтитры (HTML5 video)

Советы по качеству

Хороший микрофон. Встроенный в Mac нормально в тишине, но гарнитура или внешний микрофон сильно прибавляют точности — особенно если звук встречи идёт через колонки и создаёт обратную связь.

Меньше фонового шума. Закройте окна, отключите уведомления, не печатайте в важных частях. VAD хорош с паузами, но непрерывный шум снижает точность.

Не перебивайте. Перекрёстная речь — самый сложный сценарий. Когда говорят по очереди, точность заметно растёт.

Проверьте системный звук. Если аудио встречи не попадает в расшифровку, убедитесь, что разрешение на запись экрана выдано и приложение встреч выводит звук на системный выход.

Сравнение приватности

Аспект Облачная расшифровка Локальная
Аудио на сервер Да Нет
Хранение третьей стороной Обычно Никогда
Работает офлайн Нет Да
Политики третьих лиц Применяются Нет
Соответствие (HIPAA и т.п.) Зависит Ваше устройство — ваш контроль

Для регулируемых отраслей — здравоохранение, юр, финансы — локальная расшифровка убирает целый класс комплаенс-рисков. Данные не уходят, нет соглашений по обработке с подрядчиками.

Точность

С Parakeet Vext даёт WER, сопоставимый с ведущими облаками — ~4–5% на общем английском. На технической лексике и не-английском цифры выше.

Для критичных встреч пересмотрите расшифровку после — это будет проверка, а не работа с нуля.

Скачайте Vext — 10 записей бесплатно, без аккаунта и карты. Работает с любым приложением встреч на macOS 14+.