Большинство инструментов для расшифровки встреч отправляют аудио на сервер. Ваш разговор — конфиденциальные бизнес-обсуждения, кадровые вопросы, клиентские звонки — обрабатывается и хранится в чужой инфраструктуре.
Если это смущает, есть альтернатива. Mac на Apple Silicon умеют локально гонять модели распознавания, не уступающие облаку по точности. Как настроить локальную расшифровку встреч в macOS.
Что нужно
- Mac на Apple Silicon (M1, M2, M3, M4)
- macOS 14 Sonoma или новее
- Локальное приложение для расшифровки (гайд про Vext)
Как это работает
При старте записи встречи Vext одновременно захватывает два потока:
- Микрофон — ваш голос через стандартный AVAudioEngine
- Системное аудио — всех остальных через process tap Core Audio (macOS 14.2+)
Поэтому Vext работает с любым приложением — Zoom, Google Meet, FaceTime, Microsoft Teams, Discord — без плагинов и ботов.
При остановке:
- Аудио сегментируется через VAD — паузы становятся естественными границами
- Каждый сегмент локально расшифровывается Parakeet на 150x real-time
- Накладываются метки спикеров — «Я» для микрофона, «Они» для системы
- При включённом Enhance — очистка и опциональный перевод
- При включённом Summarize — резюме на ИИ с задачами
Всё на Mac. Ничего не уходит.
Настройка
Шаг 1: Установка Vext
brew install muvon/tap/vext
Или скачать с getvext.app. В пробном — 10 записей встреч.
Шаг 2: Разрешения
При первом запуске Vext попросит три:
- Микрофон — для голоса
- Accessibility — для глобальных горячих клавиш
- Запись экрана — нужна macOS для system audio (API process tap требует это разрешение, хотя контент экрана не пишется)
Шаг 3: Старт записи
Нажмите Fn для переключения. Около курсора появится пульсирующая красная точка, иконка в меню мигает.
Запускайте звонок в Zoom/Meet/FaceTime как обычно. Vext в фоне берёт обе стороны.
Шаг 4: Стоп и просмотр
Снова Fn. Vext обработает аудио — обычно секунды для 30-минутной встречи на 150x.
Вы получите:
- Полная расшифровка с метками и таймстампами
- ИИ-резюме (если включено)
- Список задач (если включено)
Скриншоты во встречах
Во время записи можно выделить любую область экрана. Скриншот автоматически приложится к расшифровке.
Полезно для:
- Слайдов презентации
- Кода или дизайна
- Диаграмм на доске
- Любого визуального контекста
Несколько скриншотов на встречу, все рядом с расшифровкой.
Экспорт
Доступные форматы:
| Формат | Применение |
|---|---|
| TXT | Простой текст |
| Markdown | С метками и таймстампами |
| SRT | Субтитры для видео |
| VTT | Web-субтитры (HTML5 video) |
Советы по качеству
Хороший микрофон. Встроенный в Mac нормально в тишине, но гарнитура или внешний микрофон сильно прибавляют точности — особенно если звук встречи идёт через колонки и создаёт обратную связь.
Меньше фонового шума. Закройте окна, отключите уведомления, не печатайте в важных частях. VAD хорош с паузами, но непрерывный шум снижает точность.
Не перебивайте. Перекрёстная речь — самый сложный сценарий. Когда говорят по очереди, точность заметно растёт.
Проверьте системный звук. Если аудио встречи не попадает в расшифровку, убедитесь, что разрешение на запись экрана выдано и приложение встреч выводит звук на системный выход.
Сравнение приватности
| Аспект | Облачная расшифровка | Локальная |
|---|---|---|
| Аудио на сервер | Да | Нет |
| Хранение третьей стороной | Обычно | Никогда |
| Работает офлайн | Нет | Да |
| Политики третьих лиц | Применяются | Нет |
| Соответствие (HIPAA и т.п.) | Зависит | Ваше устройство — ваш контроль |
Для регулируемых отраслей — здравоохранение, юр, финансы — локальная расшифровка убирает целый класс комплаенс-рисков. Данные не уходят, нет соглашений по обработке с подрядчиками.
Точность
С Parakeet Vext даёт WER, сопоставимый с ведущими облаками — ~4–5% на общем английском. На технической лексике и не-английском цифры выше.
Для критичных встреч пересмотрите расшифровку после — это будет проверка, а не работа с нуля.
Скачайте Vext — 10 записей бесплатно, без аккаунта и карты. Работает с любым приложением встреч на macOS 14+.