Meeting-Bots sind heute überall — Otter, Fireflies, Granola, Read und Dutzende mehr. Sie treten dem Anruf als Teilnehmer bei, zeichnen alles auf und liefern dir ein Transkript. Sie tauchen dabei auch als „Otter Bot zeichnet auf" auf, was unangenehm ist, manchmal gegen Unternehmensrichtlinien verstößt und gegen das sich immer mehr Teilnehmer aktiv wehren.

Die Alternative besteht darin, den Anruf von deiner Seite aus zu transkribieren — dein Mac zeichnet das ohnehin abgespielte Audio sowie das Audio deines Mikrofons auf, transkribiert es lokal und erstellt das Transkript, ohne dass ein Gast im Meeting ist. In diesem Leitfaden geht es darum, wie du genau das für Zoom und Google Meet auf dem Mac umsetzt.

Warum sich die Leute von Bots abwenden

Drei Gründe kommen immer wieder zur Sprache:

Unbehagen. Ein Bot in einem Verkaufsgespräch, einem Vorstellungsgespräch oder einem heiklen internen Gespräch erzeugt eine andere Stimmung als ein menschliches Transkriptionswerkzeug. Manche Kunden lehnen ihn kategorisch ab. Manche Unternehmen verbieten ihn per Richtlinie.

Datenschutz und Datenstandort. Bots leiten Audio über Server von Drittanbietern. Wenn es im Gespräch um Kundendaten, interne Strategie, Diskussionen über geistiges Eigentum oder etwas Reguliertes geht, hat deine Rechtsabteilung wahrscheinlich eine Meinung dazu. Lokale Transkription bedeutet, dass das Audio den Mac, der ohnehin am Anruf teilnimmt, niemals verlässt.

Zuverlässigkeit. Bots werden von manchen Meeting-Hosts rausgeworfen. Sie scheitern beim Beitritt, wenn die Meeting-Authentifizierung verschärft wird. Manchmal fallen sie mitten im Gespräch aus. Ein lokaler Recorder hat diese Fehlermodi nicht — wenn du das Audio hören kannst, kann der Recorder es aufzeichnen.

Der Nachteil des Verzichts auf Bots: Du verlierst die zentralisierten Funktionen, die Bots üblicherweise mitbringen (gemeinsame Bibliotheken, teamweite Suche, automatischer CRM-Abgleich). Für Einzelarbeit und kleine Teams spielt das selten eine Rolle. Für größere Organisationen mit etablierten Otter-/Fireflies-Workflows ist der Kompromiss real.

Wie „ohne Bot transkribieren" auf dem Mac tatsächlich funktioniert

Drei Audioquellen, die du möglicherweise erfassen möchtest:

  • Dein Mikrofon — deine eigene Stimme
  • Systemaudio — alles, was aus deinen Lautsprechern kommt, einschließlich der anderen Gesprächsteilnehmer
  • Beides gleichzeitig — genau das, was du für die Meeting-Transkription tatsächlich willst

Nur dein Mikrofon zu erfassen ist einfach. Das Erfassen von Systemaudio ist der schwierige Teil, weil macOS Systemaudio aus Datenschutzgründen bewusst nicht für Apps freigibt.

Der übliche Weg darum herum ist ein virtuelles Audiogerät (Loopback, BlackHole, Aggregat-Geräte). Die Diktier-/Transkriptions-App nutzt das virtuelle Gerät als Eingang, und du leitest das Systemaudio in das virtuelle Gerät. Das funktioniert, ist aber fummelig.

Manche Mac-Diktier-Apps erledigen das automatisch — sie bündeln die Systemaudio-Erfassung und präsentieren sie als einen einzigen „Dieses Meeting aufzeichnen"-Knopf. Das ist die Erfahrung, die die meisten Leute tatsächlich wollen.

Zoom-spezifische Hinweise

Zoom hat eine eigene integrierte Aufzeichnung, die eine Videodatei und ein Transkript erzeugt (in Zoom Cloud Recording). Das funktioniert einwandfrei und ist für kostenpflichtige Zoom-Tarife kostenlos. Der Haken:

  • Das Transkript wird serverseitig nach dem Anruf erstellt — nicht in Echtzeit, nicht lokal
  • Nur für den Host oder den zugewiesenen Aufzeichner verfügbar
  • Die Transkriptqualität ist okay, nicht großartig
  • Die Speicherung erfolgt in Zooms Cloud, es sei denn, du zahlst extra für lokale Aufzeichnung

Wenn du der Host eines kostenpflichtigen Tarifs bist und nichts dagegen hast, dass das Transkript auf Zooms Servern liegt, ist dies die Option mit der geringsten Reibung. Wenn dich eine dieser Einschränkungen stört, brauchst du etwas anderes.

Google-Meet-spezifische Hinweise

Google Meet hat eine integrierte Transkription (nur für kostenpflichtige Workspace-Tarife) und erzeugt nach dem Anruf ein Google Doc mit dem Transkript. Dieselben Kompromisse wie bei Zoom — serverseitig, nach dem Anruf, liegt in Googles Cloud und kann normalerweise nur vom Host aktiviert werden.

Wenn du keinen kostenpflichtigen Workspace-Tarif hast, gibt es in Meet überhaupt keine native Transkription. Du nutzt dann entweder einen Bot oder erfasst von deiner Seite aus.

Lokale Mac-Optionen für Zoom und Meet

Apps, die Mikrofon- + Systemaudio auf dem Mac erfassen und ein Transkript erstellen:

Vext — 49 $ einmalig. Der Meeting-Modus erfasst beide Audiostreams gleichzeitig, transkribiert mit Whisper, fügt über lokale Diarisierung Sprecherbezeichnungen hinzu und erstellt am Ende eine KI-Zusammenfassung. Funktioniert mit Zoom, Meet, FaceTime, Teams — allem, was Audio erzeugt. Das Audio bleibt auf deinem Mac. Zusammenfassung und Transkript werden in der App gespeichert.

MacWhisper — Die Pro-Version (64 €) zeichnet auf und transkribiert. Weniger integriert als Vext für Meetings (in manchen Konfigurationen keine eingebauten Sprecherbezeichnungen), aber solide für dateibasierte Transkription, wenn du mit einem anderen Werkzeug aufzeichnest.

Audio Hijack + ein Transkriptionsdurchlauf — Audio Hijack (64 $) zeichnet Systemaudio sauber auf. Leite die resultierende Datei an MacWhisper, OpenAIs Whisper oder ein beliebiges anderes Transkriptionswerkzeug weiter. Mehr Einrichtung, mehr Flexibilität.

Granola — anderes Modell. Zeichnet von deinem Mac auf, sendet das Audio aber zur Verarbeitung in seine Cloud. Schicke Bedienoberfläche, schnelle Zusammenfassungen, aber nicht lokal. Erwähnenswert, weil die Leute danach fragen; es gehört nicht in die „kein-Cloud"-Kategorie, falls das die Anforderung ist.

Apples integrierte Sprachmemos — zeichnen nur das Mikrofon auf. Erfassen die anderen Teilnehmer nicht. Nützlich, um deinen Teil des Gesprächs aufzuzeichnen, falls du genau das willst.

Die Trennlinie verläuft zwischen „vollständig lokal" (Vext, MacWhisper, Audio-Hijack-Workflow) und „schicke Cloud" (Granola, Otter, Fireflies). Beide haben berechtigte Einsatzfälle.

Vext für Zoom oder Meet einrichten

Der Ablauf, für den wir es gebaut haben:

  1. Vext installieren: brew install muvon/tap/vext
  2. Vext öffnen, in der Menüleiste in den Meeting-Modus wechseln
  3. Deinen Zoom- oder Meet-Anruf wie gewohnt starten
  4. In Vext auf „Aufnahme starten" klicken — es erfasst dein Mikrofon + Systemaudio
  5. Das Meeting durchsprechen
  6. Die Aufnahme stoppen, wenn der Anruf endet
  7. Vext transkribiert lokal (Whisper), erstellt Sprecherbezeichnungen und erzeugt eine Zusammenfassung

Kein Bot tritt dem Anruf bei. Kein anderer Teilnehmer als du sieht irgendetwas. Transkript und Zusammenfassung werden in Vext auf deinem Mac gespeichert.

Ein paar praktische Hinweise:

  • Beim ersten Mal, wenn du aufzeichnest, fragt macOS nach der Erlaubnis, Systemaudio zu erfassen. Erteile sie. (Dies nutzt die Audio-Erfassungs-API von macOS, kein virtuelles Audiogerät — kein Loopback oder BlackHole erforderlich.)
  • Sprecherbezeichnungen funktionieren am besten, wenn die Teilnehmer sich klar abwechseln. Überlappende Sprache ist für die Diarisierung schwierig; du bekommst die Wörter, aber die Bezeichnungen können verschwimmen.
  • Die Zusammenfassung nutzt ein lokales LLM (standardmäßig Gemma 3 4B). Die Qualität ist für typische Meetings anständig — Aufgaben, wichtige Entscheidungen, Themenübersicht. Nicht so ausgefeilt wie GPT-4 bei derselben Aufgabe, aber privat und ohne API-Kosten.
  • Screenshots während des Meetings: Du kannst während der Aufnahme einen beliebigen Bildschirmbereich per Ziehen auswählen, und der Screenshot wird zum richtigen Zeitstempel an das Transkript angehängt. Nützlich für Folien, auf dem Bildschirm eines Kollegen gezeigten Code und Design-Reviews.

Worauf du beim Verzicht auf Bots verzichtest

Um ehrlich zu sein:

Gemeinsame Transkripte. Otter und Fireflies machen das Teilen eines Transkripts mit dem Team kinderleicht. Mit einem lokalen Werkzeug exportierst du nach TXT/Markdown und fügst es in Slack ein oder lädst es auf dein gemeinsames Laufwerk hoch. Die Reibung ist gering, aber real.

Automatischer CRM-Abgleich. Fireflies und Granola schreiben Transkript-Zusammenfassungen direkt in Salesforce, HubSpot usw. Lokale Werkzeuge haben diese Integrationen nicht. Du kannst sie mit Zapier und den Exportdateien selbst bauen, aber das ist ein Projekt.

Team-Suche. Otters Team-Tarif hat eine durchsuchbare gemeinsame Bibliothek. Lokale Werkzeuge speichern Transkripte auf deinem Mac — nicht in einem teamweiten Index.

Echtzeit-Untertitel für Barrierefreiheit. Bots erzeugen während des Anrufs Live-Untertitel. Lokale Werkzeuge transkribieren danach. Wenn ein Teilnehmer Live-Untertitel zur Barrierefreiheit benötigt, nutze die integrierten Live-Untertitel von Zoom oder Meet oder kombiniere mit einem separaten Untertitelungswerkzeug.

Für Einzel-Workflows spielt nichts davon üblicherweise eine Rolle. Für Team-Workflows wäge sie ab.

Was du bekommst

Datenschutz. Echt, durchgehend. Audio verlässt deinen Mac nicht.

Kein Abo. 49 $ einmalig statt 20 $+/Monat für die Bot-Dienste.

Zuverlässigkeit. Kein Bot, der rausgeworfen werden kann, keine API-Ratenbegrenzungen, keine Dienstausfälle, die deine Transkripte beeinträchtigen.

Vertrauenssignal. Manche Kunden und Partner bevorzugen es ausdrücklich, dass kein Bot im Anruf war. Besonders zutreffend in den Bereichen Recht, Gesundheitswesen, Finanzen und bei wettbewerbsrelevanten Verhandlungen.

Sauberere Dateien. Keine „Otter Bot ist dem Meeting beigetreten"-Zeitstempel. Nur das Gespräch.

Ein Entscheidungsbaum

  • Kostenpflichtiges Zoom/Workspace, Host der meisten Anrufe, mit serverseitiger Verarbeitung einverstanden: Nutze die integrierte Transkription. Spar dir das Geld.
  • Viele Anrufe, teamweites Teilen ist wichtig, mit Cloud einverstanden: Otter, Fireflies, Granola — wähle eins.
  • Anrufe betreffen sensible Inhalte, lieber kein Bot, einfache Einrichtung gewünscht: Vext oder MacWhisper Pro.
  • Power-User, maximale Flexibilität gewünscht: Audio Hijack + Whisper.
  • Du brauchst nur deinen Teil des Anrufs: Apple Sprachmemos, kostenlos.

Wie das in der Praxis aussieht

Eine typische Woche für jemanden, der von einem Bot zu lokaler Meeting-Transkription gewechselt ist:

  • 6–10 Anrufe pro Woche, Mischung aus intern + extern
  • Vext zeichnet jeden auf; Transkripte werden automatisch erstellt
  • Die Zusammenfassung überfliegen, Aufgaben in welchen Aufgaben-Tracker auch immer kopieren
  • Später ein bestimmtes Transkript nach „was haben wir zur Preisgestaltung entschieden" durchsuchen
  • Gesamtzeit nach dem Anruf: 2 Minuten pro Meeting

Die Bot-Version dieser Woche war: den Bot einladen, hoffen, dass er beigetreten ist, eine E-Mail mit dem Transkript erhalten, zu Otter durchklicken, Aufgaben kopieren. Ungefähr dieselbe Gesamtzeit. Die Unterschiede liegen darin, wer den Bot im Anruf gesehen hat, wohin das Audio ging und ob die Datenstandort-Richtlinie des Teams zufrieden war.

Für die meisten Einzel- und Kleinteam-Nutzungen ist die lokale Option inzwischen schlichtweg besser. Für größere Organisationen wird die Rechnung komplizierter, und beide Entscheidungen sind vertretbar.