Sprechererkennung für Mac-Meetingtranskription — Vext 1.1.0

Vext 1.0.0 wurde mit Meetingtranskription und einem einfachen Sprechermodell ausgeliefert: Ich für das eigene Mikrofon, Sie für den Systemton. Es funktionierte, aber es reduzierte Mehrpersonen-Gespräche auf eine einzige Stimme auf jeder Seite.

1.1.0 ist das Sprecher-Release. Vext erkennt jetzt individuelle Stimmen, lernt sie, erinnert sich über Meetings hinweg an sie und lässt die Farbgestaltung beliebig anpassen — alles auf dem Mac, ohne dass biometrische Daten das Gerät verlassen.

Hier ist, was neu ist.

Meetingübergreifende Spracherkennung

Einen Sprecher einmal benennen. Im nächsten Meeting, in dem diese Stimme erscheint, erkennt Vext sie und wendet den Namen automatisch an.

Es ist ein echtes Stimmprofil, kein Namens-Lookup. Wenn man ein Label speichert, merkt sich Vext still, wie diese Stimme klingt. Beim nächsten Drücken von Aufnahme hört es auf bereits benannte Personen und markiert sie, sobald sie sprechen.

Ein paar Dinge, die sich daraus ergeben:

Es wird mit der Zeit schärfer. Jedes Meeting gibt Vext einen etwas besseren Fingerabdruck jeder Stimme, sodass die Genauigkeit mit zunehmender Nutzung stille Fortschritte macht.
Es funktioniert über Mikrofon und Systemton. Sarah auf Zoom am Montag ist immer noch Sarah im Konferenzraum am Freitag.
Noch nicht benannte Stimmen erscheinen als Sprecher 1, Sprecher 2 — derselbe Pro-Meeting-Fallback wie bisher. Bei Gelegenheit benennen, oder es lassen.

Wer Otter oder Fireflies verwendet hat, kennt das Konzept — sie machen ähnliche Spracherkennung. Der Unterschied liegt darin, wo das Stimmprofil lebt. In Vext lebt es neben den Transkripten, auf dem Mac. Es gibt kein serverseitiges biometrisches Profil von einem selbst oder von irgendjemandem, mit dem man spricht. Nichts, das geleakt werden kann, nichts, das vorgeladen werden kann, nichts, wovon man sich abmelden muss.

Multi-Sprecher auf einem einzigen Mikrofon

Bisher war alles, was vom Mikrofon kam, mit Ich markiert. Das ist das richtige Modell für Einzeldiktat und Remote-Gespräche — aber es funktioniert nicht im Raum. Drei Personen, die sich um einen Laptop scharen, ein Interview, ein Panel.

1.1.0 trennt Stimmen auf dem Mikrofon genauso wie es das bereits für den Systemton tat. Zwei oder drei Personen, die sich ein Mikrofon teilen, erscheinen jetzt als Ich, Ich 2, Ich 3. Sobald man sie umbenennt, greift die meetingübergreifende Erkennung auch für diese Stimmen.

Präsenzmeetings erzeugen jetzt dieselben beschrifteten Transkripte wie Remote-Meetings.

Farben frei wählen

Jeder Sprecher hat jetzt eine Farbe — einmal gewählt, bleibt sie in jedem Transkript, in dem diese Stimme erscheint.

Das klingt kosmetisch. Ist es nicht. Die Transkriptansicht ist dicht, und einheitliche Farben machen sie übersichtlich: Ein 30-minütiges Meeting überfliegen, und man sieht auf einen Blick, wer dominiert hat, wer unterbrochen hat, wo Aufgaben vergeben wurden. Ältere Meetings von vor diesem Update erhalten sinnvolle Standardfarben, sodass nichts kaputt aussieht.

Ein ehrlicherer Hotkey

Zwei kleine Korrekturen, die lästige Reibungspunkte beseitigen:

Löst nicht mehr aus, während man tippt. Wenn man die Diktiertaste hält, während man noch einen Satz beendet, startet das Diktieren nicht mehr in dem Moment, in dem man die Finger von der Tastatur nimmt.

Screenshot-Modus aktiviert sich, bevor er angezeigt wird. Eine kurze Pause beim Hotkey bedeutet jetzt, dass gar nichts passiert — nur ein tatsächliches Ziehen öffnet das Overlay. Ergebnis: weniger Flimmern, weniger versehentliche Aufnahmen, mausgesteuerte Screenshots fühlen sich sofort an.

Autostart beim Login

Ja, endlich. In den Einstellungen umschalten — Vext registriert sich beim offiziellen Login-Items-System von macOS, sodass es über die Systemeinstellungen genauso verwaltet oder deaktiviert werden kann wie jede andere Startup-App.

Qualitätsverbesserungen

Eine Handvoll Korrekturen, die man spüren wird, ohne sie zu bemerken:

Zeitstempel bleiben synchron. Bei langen Meetings gab es früher eine leichte Drift zwischen dem Transkript und den aufgenommenen Screenshots. Beide Zeitachsen sind jetzt an dieselbe Wanduhr verankert — keine Drift mehr.
Transkripte öffnen sich sofort. Lange Meeting-Ansichten sind merklich schneller, besonders für Aufnahmen mit vielen Screenshots.
Keine Phantomphrasen mehr. Fast stilles oder reines Rausch-Audio führte früher manchmal zu transkribierten zufälligen Füllwörtern („weißt du", „mhm", „danke fürs Zuschauen"). 1.1.0 verwirft diese still.
Markdown-Zusammenfassungen. Meeting-Zusammenfassungen werden jetzt mit korrekten Überschriften, Listen und Fettdruck dargestellt — statt als ein Textblock.
Weniger zusammengeführte Sprecher. Zwei Personen mit ähnlichen Stimmen wurden früher gelegentlich zu einem Cluster zusammengefasst. Engeres Clustering hält sie getrennt.

Update

Falls Vext installiert ist:

brew upgrade muvon/tap/vext

Oder Vext 1.1.0 direkt herunterladen. Bestehende Meetings behalten ihre Daten — ältere Transkripte erhalten beim ersten Öffnen automatisch Standard-Sprecherfarben.

Wenn man sein Team einmal über die nächsten paar Meetings benennt, wird Vext bis Ende der Woche den Großteil der Arbeit selbst erledigen. Darum geht es.

Vext 1.1.0 herunterladen