Vext 1.2.0 — Deine Sprache. Deine Sprecher.

Zwei der häufigsten Anfragen seit dem Launch von 1.0: „Kann ich Vext auf Spanisch verwenden?" und „Warum vermischt mein Meeting-Transkript immer noch Sprecher, wenn Leute gleichzeitig reden?"

1.2.0 beantwortet beides.

Die gesamte Benutzeroberfläche ist nun in fünf Sprachen verfügbar. Und die Meeting-Diarisierungs-Engine wurde grundlegend architektonisch verändert — ein zweiter Offline-Durchgang, der deine vollständige Aufnahme nach Ende des Meetings erneut untersucht und jedes Sprecher-Label von Grund auf neu zuordnet. Die Ergebnisse sind für schnelle, überlappende Gespräche merklich besser.

Hier ist, was sich geändert hat.

Die Benutzeroberfläche ist jetzt mehrsprachig — und die Website auch

Das Diktieren hat immer in der Sprache funktioniert, die du sprichst — das ist Whisper bei der Arbeit. Was nicht lokalisiert war, war die App selbst: die Seitenleiste, Einstellungen, das Onboarding, Menüs, Berechtigungsaufforderungen. Alles, was du liest statt sagst.

1.2.0 behebt das. Die vollständige Benutzeroberfläche ist jetzt auf Englisch, Spanisch, Russisch, Hindi und Thai verfügbar. Die App folgt automatisch deiner macOS-Systemsprache, oder du kannst eine bestimmte Sprache unter Einstellungen → Allgemein festlegen — wechselt sofort, kein Neustart nötig.

Die Website wurde entsprechend aktualisiert. Wenn du Vext Teammitgliedern empfohlen hast, die nicht auf Englisch arbeiten, kannst du ihnen jetzt etwas schicken, das ihre Sprache spricht.

Weitere Sprachen folgen. Dies war ein Grundlagen-Release — die Übersetzungsinfrastruktur ist jetzt vorhanden, und das Hinzufügen einer neuen Sprache ist eine Frage der Übersetzung einer einzigen Datei.

Ein dedizierter Sprecher-Tab

Die Sprecher-Verwaltung wurde aus den Meeting-Transkripten herausgelöst und in einen eigenen Bereich in der Seitenleiste verschoben.

Der Sprecher-Tab zeigt alle Personen, die Vext über alle Meetings hinweg per Stimme erlernt hat. Du kannst jeden Sprecher umbenennen, aus 8 Badge-Farben wählen oder — die nützlichste Option — zwei Einträge zu einem zusammenführen. Wenn Vext dieselbe Person im Laufe der Zeit als zwei verschiedene Sprecher behandelt hat, kannst du sie zusammenführen: Das höherwertige Stimmprofil gewinnt, und jedes zukünftige Meeting erkennt die zusammengeführte Identität korrekt.

Klicke auf einen Sprecher und der rechte Bereich filtert auf nur die Meetings, in denen er vorkommt. Klicke auf eine Meeting-Zeile, um direkt dorthin zu springen. Für Menschen, die viele wiederkehrende Meetings aufnehmen — Standups, Kundengespräche, Team-Reviews — macht das die tatsächliche Verwaltung des Wer-ist-wer praktikabel, statt jede Woche dieselben Personen erneut zu beschriften.

Zwei-Pass-Diarisierung: Das, was Meetings tatsächlich verbessert

Die ursprüngliche Sprechererkennung arbeitete in einem einzigen Streaming-Durchgang. Jedes Audio-Chunk wurde beim Eintreffen mit einem Label versehen, ein Embedding pro Chunk. Das ist schnell, hat aber eine strukturelle Schwäche: schnelles Hin-und-Her und überlappende Sprache brechen es. Ein 30-Sekunden-Chunk mit vier Sprecherwechseln bekam ein einziges Label. Zwei Stimmen, die sich früh im Gespräch ähneln, könnten zusammengeführt werden, bevor die Engine genug Daten hat, um sie auseinanderzuhalten.

1.2.0 fügt einen zweiten Durchgang hinzu, der nach dem Ende des Meetings läuft.

Sobald das vorläufige Transkript gespeichert ist, geht Vext das vollständige Audio pro Stream mit einer gründlicheren Pipeline erneut durch — pyannote Community-1 für die Segmentierung, WeSpeaker-Embeddings mit Overlap-Frame-Maskierung und VBx-Bayessche Verfeinerung. Es untersucht jeden Chunk erneut und ordnet ihn dem global besten Cluster zu, dann schreibt es die korrigierten Labels zurück in das Transkript. Wenn es einen bekannten Sprecher erkennt, aktualisiert es dessen Stimmprofil in der Datenbank, damit zukünftige Meetings noch besser werden.

Du musst nichts tun. Das korrigierte Transkript erscheint einfach. Die temporären Audio-Archive werden gelöscht, sobald die Verfeinerung abgeschlossen ist.

Das ist am wichtigsten für genau die Meetings, bei denen die Diarisierung früher Schwierigkeiten hatte: Produkt-Reviews mit schnellen Iterationen, Kundengespräche mit drei Personen auf deren Seite, jedes Meeting, bei dem zwei Personen ähnliche Stimmen haben oder sich regelmäßig ins Wort fallen.

Sprecherwechsel innerhalb eines einzelnen Chunks aufteilen

Es gibt eine verwandte Verbesserung am Live-Aufnahme-Durchgang selbst.

Früher wurde, wenn ein einzelner VAD-Chunk mehrere Sprecherwechsel enthielt, er als ein Block unter einem einzigen Sprecher-Label transkribiert. Der Offline-Durchgang würde die Zuordnung irgendwann korrigieren, aber das Transkript sah falsch aus, während du noch im Meeting warst.

1.2.0 erkennt Sprecherwechsel innerhalb eines Chunks während der Aufnahme. Wenn die Timeline zwei verschiedene Sprecher im selben Audiosegment zeigt, schneidet Vext es am Wechselpunkt und transkribiert jeden Wechsel separat. Sehr kurze Flackerer unter 300 ms werden in den angrenzenden Lauf absorbiert — du willst nicht, dass das Transkript durch Sortformer-Rauschen fragmentiert wird — aber echte Sprecherwechsel erscheinen jetzt korrekt in Echtzeit, nicht erst nachdem der Offline-Durchgang abgeschlossen ist.

Zuverlässigkeitsverbesserungen

Einige Dinge, die still defekt waren und es jetzt nicht mehr sind.

Hotkeys kehren nach dem Schlafmodus zurück. Der globale Tastatur-Tap konnte nach dem Schlafmodus, schnellen Benutzerwechseln oder bestimmten System-Timeouts veralten — wurde noch als aktiviert gemeldet, ließ Ereignisse aber still fallen. Er installiert sich jetzt beim Aufwachen sauber neu und überwacht die Fälle, in denen macOS ihn automatisch deaktiviert.

Echo-Unterdrückung entfernt. Frühere Versionen wendeten Apples VoiceProcessingIO auf den Mikrofoneingang an. Diese API ändert den gemeinsamen Hardware-Status und überträgt AGC und Rauschunterdrückung auf jede andere App, die dasselbe Mikrofon liest — Videoanrufe, Aufnahmesoftware, alles andere, was gerade läuft. Meeting-Aufnahmen erfassen den Teilnehmer-Audio über einen separaten System-Audio-Tap, sodass das Mikrofon- und Anruf-Audio bereits physisch getrennt sind. Echo-Unterdrückung war dort nie nötig, und deren Entfernung verhindert, dass Vext deine Stimme versehentlich in anderen Apps schlechter klingen lässt, während ein Meeting aufgezeichnet wird.

Einstellungen neu gestaltet. Die Einstellungs-Seitenleiste wurde durch einen segmentierten Picker ersetzt: Allgemein, Hotkeys, Audio & STT, Sprache & LLM, Lizenz, Info. Übersichtlicher und auf kleineren Bildschirmen leichter zu navigieren.

Aktualisieren

brew upgrade muvon/tap/vext

Oder lade Vext 1.2.0 direkt herunter. Bestehende Meetings und Sprecher-Profile werden übernommen — der Offline-Diarisierungs-Durchgang wird automatisch ausgeführt, wenn du das nächste Mal ein Meeting öffnest, das vor diesem Update aufgezeichnet wurde.

Wenn du Meetings mit mehr als zwei Personen aufnimmst, öffne nach dem Update ein paar ältere. Die neu zugeordneten Transkripte sind tendenziell eine spürbare Verbesserung.

Vext 1.2.0 herunterladen