Боты для встреч сейчас повсюду — Otter, Fireflies, Granola, Read и десятки других. Они присоединяются к звонку как участник, записывают всё и присылают вам расшифровку. А ещё они отображаются как «Otter Bot ведёт запись», что неловко, иногда противоречит политике компании и всё чаще вызывает активное сопротивление у участников.

Альтернатива — транскрибировать звонок со своей стороны: ваш Mac записывает аудио, которое уже воспроизводит, и аудио с микрофона, транскрибирует это локально и формирует расшифровку без какого-либо гостя в встрече. Это руководство о том, как сделать это именно для Zoom и Google Meet на Mac.

Почему люди отказываются от ботов

Чаще всего звучат три причины:

Неловкость. Бот в продажном звонке, на собеседовании или в чувствительном внутреннем разговоре создаёт иную атмосферу, чем человеческий инструмент транскрипции. Некоторые клиенты категорически против. Некоторые компании запрещают это политикой.

Приватность и место хранения данных. Боты прогоняют аудио через сторонние серверы. Если в звонке фигурируют клиентские данные, внутренняя стратегия, обсуждения интеллектуальной собственности или что-либо регулируемое, у вашего юротдела наверняка есть своё мнение. Локальная транскрипция означает, что аудио никогда не покидает тот Mac, который и так участвует в звонке.

Надёжность. Некоторые организаторы встреч выгоняют ботов. Боты не могут присоединиться, когда ужесточают авторизацию встречи. Иногда они отваливаются посреди звонка. У локального рекордера таких сценариев отказа нет — если вы слышите аудио, рекордер может его захватить.

Минус отказа от ботов: вы теряете централизованные возможности, которые боты обычно несут с собой (общие библиотеки, поиск по всей команде, автоматическую синхронизацию с CRM). Для индивидуальной работы и небольших команд это редко имеет значение. Для крупных организаций с устоявшимися процессами на Otter/Fireflies компромисс реален.

Как «транскрипция без бота» на самом деле работает на Mac

Три источника аудио, которые вы можете захотеть захватить:

  • Ваш микрофон — ваш собственный голос
  • Системное аудио — всё, что выходит из ваших динамиков, включая других участников звонка
  • Оба одновременно — то, что вам на самом деле нужно для транскрипции встреч

Захватить только микрофон легко. Захват системного аудио — сложная часть, потому что macOS намеренно не отдаёт системное аудио приложениям из соображений приватности.

Стандартный способ обойти это — виртуальное аудиоустройство (Loopback, BlackHole, агрегированные устройства). Приложение для диктовки/транскрипции использует виртуальное устройство как вход, а вы направляете системное аудио в это виртуальное устройство. Это работает, но возни много.

Некоторые приложения для диктовки на Mac делают это автоматически — они встраивают захват системного аудио и подают его как единую кнопку «записать эту встречу». Именно такой опыт большинству людей и нужен на самом деле.

Заметки по Zoom

У Zoom есть собственная встроенная запись, которая создаёт видеофайл и расшифровку (в Zoom Cloud Recording). Это работает нормально и бесплатно для платных тарифов Zoom. Подвох:

  • Расшифровка генерируется на стороне сервера после звонка — не в реальном времени, не локально
  • Доступна только организатору или назначенному записывающему
  • Качество расшифровки нормальное, но не отличное
  • Хранилище — это облако Zoom, если только вы не платите дополнительно за локальную запись

Если вы организатор на платном тарифе и не против того, чтобы расшифровка жила на серверах Zoom, это вариант с наименьшим трением. Если какое-либо из этих ограничений вам мешает, нужно что-то другое.

Заметки по Google Meet

У Google Meet есть встроенная транскрипция (только платные тарифы Workspace), которая создаёт Google Doc с расшифровкой после звонка. Те же компромиссы, что и у Zoom — на стороне сервера, после звонка, живёт в облаке Google, обычно включить может только организатор.

Если у вас нет платного тарифа Workspace, нативной транскрипции в Meet у вас нет вовсе. Вы либо используете бота, либо захватываете со своей стороны.

Локальные варианты на Mac для Zoom и Meet

Приложения, которые захватывают микрофон + системное аудио на Mac и создают расшифровку:

Vext — $49 единоразово. Режим встречи захватывает оба аудиопотока одновременно, транскрибирует с помощью Whisper, добавляет метки спикеров через локальную диаризацию и генерирует AI-резюме в конце. Работает с Zoom, Meet, FaceTime, Teams — со всем, что выдаёт аудио. Аудио остаётся на вашем Mac. Резюме и расшифровка хранятся в приложении.

MacWhisper — версия Pro (€64) записывает и транскрибирует. Менее интегрирован под встречи, чем Vext (в некоторых конфигурациях нет встроенных меток спикеров), но надёжен для файловой транскрипции, если вы записываете другим инструментом.

Audio Hijack + проход транскрипции — Audio Hijack ($64) чисто записывает системное аудио. Прогоните полученный файл через MacWhisper, Whisper от OpenAI или любой другой инструмент транскрипции. Больше настройки, больше гибкости.

Granola — другая модель. Записывает с вашего Mac, но отправляет аудио в своё облако для обработки. Отполированный UX, быстрые резюме, но не локально. Стоит упомянуть, потому что о нём спрашивают; он не относится к категории «без облака», если это требование.

Встроенные Voice Memos от Apple — записывают только микрофон. Других участников не захватят. Полезно для записи вашей половины разговора, если именно это вам нужно.

Разделение проходит между «полностью локальными» (Vext, MacWhisper, рабочий процесс с Audio Hijack) и «отполированными облачными» (Granola, Otter, Fireflies). У обоих есть свои оправданные сценарии использования.

Настройка Vext для Zoom или Meet

Поток, под который мы его создавали:

  1. Установите Vext: brew install muvon/tap/vext
  2. Откройте Vext, переключитесь в режим встречи в строке меню
  3. Начните звонок в Zoom или Meet как обычно
  4. В Vext нажмите Start Recording — он захватывает ваш микрофон + системное аудио
  5. Проведите встречу
  6. Остановите запись, когда звонок завершится
  7. Vext транскрибирует локально (Whisper), формирует метки спикеров и генерирует резюме

Никакой бот не присоединяется к звонку. Никто, кроме вас, ничего не видит. Расшифровка и резюме хранятся в Vext на вашем Mac.

Несколько практических замечаний:

  • При первой записи macOS запросит разрешение на захват системного аудио. Дайте его. (Это использует API захвата аудио macOS, а не виртуальное аудиоустройство — Loopback или BlackHole не требуются.)
  • Метки спикеров работают лучше всего, когда участники чётко чередуются. Накладывающаяся речь сложна для диаризации; слова вы получите, но метки могут размыться.
  • Резюме использует локальную LLM (по умолчанию Gemma 3 4B). Для типичных встреч качество приличное — пункты задач, ключевые решения, план по темам. Не так отполировано, как у GPT-4 на той же работе, но приватно и без затрат на API.
  • Скриншоты во время встречи: вы можете перетаскиванием выделить любую область экрана во время записи, и скриншот прикрепляется к расшифровке с правильной временной меткой. Полезно для слайдов, кода на экране коллеги, дизайн-ревью.

Чем вы жертвуете, отказываясь от бота

Если говорить честно:

Общие расшифровки. Otter и Fireflies делают тривиальным шаринг расшифровки с командой. С локальным инструментом вы экспортируете в TXT/Markdown и вставляете в Slack или загружаете на общий диск. Трение небольшое, но реальное.

Автоматическая синхронизация с CRM. Fireflies и Granola пишут резюме расшифровок прямо в Salesforce, HubSpot и так далее. У локальных инструментов таких интеграций нет. Их можно собрать с помощью Zapier и файлов экспорта, но это уже проект.

Командный поиск. В командном тарифе Otter есть общая библиотека с поиском. Локальные инструменты хранят расшифровки на вашем Mac — не в общекомандном индексе.

Субтитры в реальном времени для доступности. Боты выдают живые субтитры во время звонка. Локальные инструменты транскрибируют после. Если участнику нужны живые субтитры для доступности, используйте встроенные живые субтитры Zoom или Meet либо подключите отдельный инструмент субтитров.

Для индивидуальных рабочих процессов всё это обычно не имеет значения. Для командных — взвешивайте.

Что вы получаете

Приватность. Настоящую, сквозную. Аудио не покидает ваш Mac.

Никакой подписки. $49 единоразово против $20+ в месяц за сервисы с ботами.

Надёжность. Нет бота, которого могут выгнать, нет лимитов запросов к API, нет сбоев сервиса, влияющих на ваши расшифровки.

Сигнал доверия. Некоторые клиенты и партнёры активно предпочитают, чтобы в звонке не было бота. Особенно это верно в юриспруденции, здравоохранении, финансах и конкурентных переговорах.

Более чистые файлы. Никаких меток «Otter Bot присоединился к встрече». Только разговор.

Дерево решений

  • Платный Zoom/Workspace, вы организатор большинства звонков, обработка на стороне сервера устраивает: используйте встроенную транскрипцию. Сэкономьте деньги.
  • Много звонков, важен шаринг по всей команде, облако устраивает: Otter, Fireflies, Granola — выберите один.
  • В звонках есть чувствительный контент, предпочтительно без бота, нужна простая настройка: Vext или MacWhisper Pro.
  • Продвинутый пользователь, хотите максимум гибкости: Audio Hijack + Whisper.
  • Вам нужна только ваша половина звонка: Apple Voice Memos, бесплатно.

Как это выглядит на практике

Типичная неделя у того, кто перешёл с бота на локальную транскрипцию встреч:

  • 6–10 звонков в неделю, смесь внутренних + внешних
  • Vext записывает каждый; расшифровки генерируются автоматически
  • Бегло просмотреть резюме, скопировать пункты задач в любой трекер задач
  • Позже найти в конкретной расшифровке «о чём мы договорились по поводу ценообразования»
  • Общее время после звонка: 2 минуты на встречу

Версия этой недели с ботом выглядела так: пригласить бота, надеяться, что он присоединился, получить письмо с расшифровкой, кликнуть в Otter, скопировать пункты задач. Примерно столько же по общему времени. Различия в том, кто видел бота в звонке, куда ушло аудио и довольна ли политика хранения данных команды.

Для большинства индивидуальных и малокомандных сценариев локальный вариант теперь строго лучше. Для крупных организаций математика усложняется, и любой выбор можно обосновать.