Halte eine Taste gedrückt. Sprich. Text erscheint an deinem Cursor. Das ist Vext — eine Sprache-zu-Text-App, die vollständig auf deinem Mac läuft. Keine Cloud. Kein Konto. Kein Abonnement.
Dieser Leitfaden deckt alles ab: Installation, Hotkey-Konfiguration, die drei Modi (Diktat, Meetings, Notizen), Enhance, Live-Übersetzung und alle weiteren Funktionen.
Installation
Installation über Homebrew:
brew install muvon/tap/vext
Oder lade es direkt von getvext.app herunter. Kein Konto erforderlich — installieren und sofort loslegen.
Voraussetzungen: macOS 14 Sonoma oder neuer, Apple Silicon (M1–M4).
Dein erstes Diktat
- Starte Vext aus dem Programme-Ordner
- Halte deinen Hotkey gedrückt
- Sprich
- Loslassen — Text erscheint an deinem Cursor
Drei Schritte. Kein Login. Der Text erscheint dort, wo sich dein Cursor befand, als du zu sprechen begonnen hast.
Drei Modi
Vext hat drei Modi für unterschiedliche Arbeitsabläufe.
Diktat
Das Kernfeature. Hotkey gedrückt halten, sprechen, loslassen — Text erscheint an deinem Cursor. Funktioniert in jedem Textfeld, in jeder App: Browser, Editoren, Terminals, Chat, E-Mail, Notizen.
Diktat ist der schnellste Weg, Wörter in einen Computer einzugeben. Du sprichst mit 130–150 Wörtern pro Minute. Du tippst mit 40–60. Bei einer Nachricht mit 100 Wörtern dauert das Diktieren etwa 40 Sekunden. Tippen dauert fast zwei Minuten.
Meetings
Nimm Meetings mit Sprecheridentifikation auf. Vext erfasst gleichzeitig dein Mikrofon und den Systemton, sodass es mit Zoom, Google Meet, FaceTime und jedem anderen Videoanruf funktioniert.
Am Ende des Meetings erhältst du:
- Ein vollständiges Transkript mit Sprecherbeschriftungen und Zeitstempeln
- Eine KI-generierte Zusammenfassung mit den wichtigsten Punkten und Aufgaben
- Alle Screenshots, die du während des Anrufs aufgenommen hast
Notizen
Schnelle Sprachnotizen, die mit einem einzigen Tastendruck erfasst werden. Sprich deinen Gedanken, und Vext transkribiert ihn, lässt ihn durch Enhance laufen und speichert ihn lokal.
Notizen durchlaufen dieselbe Verarbeitungspipeline wie Diktate — Bereinigung, Übersetzung, die gesamte Kette. Der Unterschied besteht darin, dass Notizen in Vext gespeichert werden, anstatt an deinem Cursor eingefügt zu werden.
Verwende Notizen, um Ideen mitten in einer Aufgabe festzuhalten, ohne die App zu wechseln, schnelle Erinnerungen aufzuzeichnen oder Kontext zu speichern, den du später benötigst.
Freihändiges Diktieren
Beim Standard-Diktat muss eine Taste gedrückt gehalten werden. Der freihändige Modus ändert dies — einmal drücken zum Starten, erneut drücken zum Stoppen. Kein Halten erforderlich.
Dies ist nützlich für längere Passagen, wenn deine Hände beschäftigt sind oder wenn du umhergehst und eine Idee durchdenkst. Die Taste wirkt als Umschalter statt als Push-to-Talk-Schaltfläche.
Enhance
Enhance ist eine KI-gestützte Nachbearbeitung, die auf deiner Transkription läuft, bevor sie in die Zwischenablage gelangt. Es bereinigt Füllwörter, korrigiert die Satzstruktur und glättet die rauen Kanten der gesprochenen Sprache — ohne das zu verändern, was du gesagt hast.
Vor Enhance:
„Also im Grunde dachte ich, dass wir wahrscheinlich ähm den API-Endpunkt in einen eigenen Service verschieben sollten, weil er irgendwie langsam wird"
Nach Enhance:
„Wir sollten den API-Endpunkt in einen eigenen Service verschieben, da er langsam wird."
Die Bedeutung bleibt erhalten. Der Ton bleibt erhalten. Enhance entfernt nur das Rauschen.
Das Rohtranskript wird immer zusammen mit der verbesserten Version gespeichert. Das Original geht nie verloren.
Live-Übersetzung
Lege in Vext eine Zielsprache fest und sprich in einer beliebigen Sprache. Der Text, der an deinem Cursor erscheint, ist bereits übersetzt.
Wenn Enhance ebenfalls aktiviert ist, erfolgen Bereinigung und Übersetzung in einem einzigen Durchlauf. Du sprichst unordentliches Französisch, sauberes Englisch erscheint an deinem Cursor.
Vext unterstützt die Übersetzung zwischen beliebigen Sprachpaaren aus den 99+ Sprachen, die Whisper-Modelle verstehen.
Screenshot-Aufnahme
Während einer Meeting-Aufnahme kannst du einen beliebigen Bereich deines Bildschirms erfassen. Ziehe, um einen Bereich auszuwählen, und der Screenshot wird automatisch an dein Transkript angehängt.
Dies ist nützlich, um Folien während einer Präsentation zu erfassen, einen Code-Ausschnitt festzuhalten, den jemand zeigt, oder ein besprochenes Design zu speichern. Mehrere Aufnahmen pro Aufzeichnungssitzung, alle zusammen mit dem Transkript gespeichert.
Audio-Ducking
Wenn du mit der Aufnahme beginnst, blendet Vext automatisch deinen Systemton herunter, damit deine Stimme klar durchkommt. Beim Loslassen der Taste wird die Lautstärke wieder eingeblendet.
Dies verhindert, dass dein Computer-Audio die Transkription stört — egal ob du Musik hörst, ein Video schaust oder an einem Anruf teilnimmst.
YOLO-Modus
Schalte den YOLO-Modus ein, und Vext drückt nach dem Einfügen deiner Transkription automatisch die Eingabetaste. Sprechen, loslassen, und dein Prompt wird bereits abgeschickt.
Dies ist für KI-Coding-Tools wie Claude Code, ChatGPT und Cursor konzipiert. Anstatt einen Prompt zu diktieren, ihn zu überprüfen, zu bearbeiten und Enter zu drücken — sprichst du einfach, und es läuft los. LLMs gehen mit unvollkommener Sprache besser um, als die meisten Menschen erwarten.
Transkriptions-Engines
Vext wird mit mehreren Sprache-zu-Text-Engines geliefert:
| Engine | Typ | Geschwindigkeit |
|---|---|---|
| Parakeet | Lokal | 150x Echtzeit |
| Apple Dictation | Lokal | 25x Echtzeit |
| OpenAI-kompatibel | API | Variiert |
Parakeet ist der Standard. Es läuft vollständig auf deiner Apple Silicon GPU und transkribiert mit 150-facher Echtzeit — eine 60-sekündige Aufnahme wird in weniger als einer halben Sekunde verarbeitet.
KI-Verarbeitungs-Engines
Enhance, Übersetzung und Zusammenfassung werden von lokalen LLMs betrieben:
| Modell | Typ | Größe |
|---|---|---|
| Gemma 3 4B | Lokal (Standard) | 2,8 GB |
| Qwen 3 4B | Lokal | 3,2 GB |
| LLaMA 3.2 3B | Lokal | 2,4 GB |
| Gemma 3 1B | Lokal | 0,8 GB |
| Phi-3.5 Mini | Lokal | 2,8 GB |
| OpenAI-kompatibel | API | — |
Alle lokalen Modelle laufen auf der GPU deines Macs. Keine Internetverbindung erforderlich.
Datenschutz
Deine Stimme verlässt deinen Mac nie. Es gibt keine Cloud-Verarbeitung, kein Konto, keine Telemetrie, keine Analyse. Audio wird auf dem Gerät verarbeitet und nach der Transkription nie gespeichert.
Wenn du eine API-basierte Engine verwendest (OpenAI-kompatibel), wird dein Audio an diesen Anbieter gesendet — aber dies ist opt-in und standardmäßig deaktiviert.
Preise
Vext enthält eine kostenlose Testversion: 100 Diktate, 50 Notizen und 10 Meeting-Aufnahmen. Keine Kreditkarte, kein Konto.
Wenn du bereit bist, schaltest du die unbegrenzte Nutzung für 49 $ frei — eine einmalige Zahlung innerhalb der App. Kostenlose Updates innerhalb deiner Version inklusive. Neue Hauptversionen sind für bestehende Nutzer zu 50 % Rabatt erhältlich.
Erste Schritte
- Installieren über
brew install muvon/tap/vextoder herunterladen von getvext.app - App starten und Hotkey gedrückt halten
- Fang an zu sprechen
Der Wechsel vom Tippen zur Sprache fühlt sich etwa 30 Minuten lang ungewohnt an. Danach fängt das Tippen an, sich wie der langsame Weg anzufühlen.