Spracheingabe für Claude Code, Cursor und KI-Coding-Tools

Spracheingabe passt natürlich zu KI-Coding-Tools, weil diese konversationell funktionieren — man beschreibt, was man möchte, die KI antwortet, man iteriert. Der Flaschenhals ist nicht die KI. Es ist, wie schnell man mit ihr kommunizieren kann.

Warum Sprache bei KI-Prompts besser funktioniert

Beim Tippen eines Prompts komprimiert man. Eine Aufgabe, die 80 Wörter Kontext benötigt, wird auf 12 komprimiert, weil Tippen langsam ist und man instinktiv die „offensichtlichen" Teile weglässt. Die KI rät dann falsch und man verbringt drei Folgeanfragen damit, sie zu korrigieren.

Beim Sprechen verschwindet die Komprimierung. Man nennt ganz natürlich Hintergrundinformationen, Einschränkungen und Begründungen. Die KI bekommt beim ersten Versuch, was sie braucht.

Getippter Prompt:

„Refaktoriere die Auth-Middleware"

Gesprochener Prompt:

„Die Auth-Middleware in middleware/auth.ts macht zu viele Dinge — sie validiert das JWT, prüft Berechtigungen, lädt das User-Objekt und setzt Rate-Limit-Header. Ich möchte sie in separate Middleware-Funktionen aufteilen, damit wir sie pro Route kombinieren können. Die JWT-Validierung bleibt als Basis, die anderen sind optional."

Derselbe Entwickler, dieselbe Absicht. Die gesprochene Version gibt der KI genug, um beim ersten Versuch korrekt zu arbeiten — ohne Rückfragen.

Vext für das Coding einrichten

1. Vext installieren

brew install muvon/tap/vext

Die App starten und bei Aufforderung die Bedienungshilfenberechtigung erteilen. Dies ermöglicht dem Hotkey-System, global zu funktionieren.

2. Den Hotkey konfigurieren

Der Standard ist Shift — eine halbe Sekunde gedrückt halten, um die Diktierfunktion zu starten. Das funktioniert gut, weil kurze Shift-Drücke (zum Großschreiben) ignoriert werden.

Hotkey und Haltschwelle lassen sich unter Einstellungen > Hotkeys ändern.

3. YOLO Mode aktivieren

YOLO Mode ist das, was die Integration mit KI-Coding-Tools ermöglicht. Wenn aktiviert, drückt Vext nach dem Einfügen der Transkription automatisch Return. Der Prompt geht direkt an die KI — kein manuelles Abschicken nötig.

Das ist mit Claude Code und terminalbasierten Agenten sicher, weil man jederzeit unterbrechen kann. Die Zeitersparnis durch nicht mehr nötiges Überprüfen jedes Prompts überwiegt das gelegentliche Umformulieren.

4. Enhance ausprobieren

Enhance aktivieren, um Füllwörter zu entfernen und die Satzstruktur vor dem Einfügen zu korrigieren. KI-Tools kommen mit unordentlicher Sprache gut zurecht, aber saubere Prompts liefern geringfügig bessere Ergebnisse und sind im Gesprächsverlauf leichter nachzulesen.

Workflows, die besonders von Spracheingabe profitieren

Der initiale Kontext-Dump

Die erste Nachricht an ein KI-Coding-Tool ist die wichtigste. Sie legt das gesamte Gespräch an. Sprache glänzt hier, weil man ganz natürlich Kontext voranstellt:

„Ich arbeite am Checkout-Flow. Wir haben ein React-Frontend mit einem Node-Backend. Der Warenkorb-Status wird mit Zustand verwaltet. Derzeit ruft der Zahlungsschritt Stripe direkt vom Frontend auf, was unsicher ist — ich muss das auf einen serverseitigen Endpunkt verlagern. Erstelle einen POST /api/checkout Endpunkt, der die Warenkorb-Artikel entgegennimmt, eine Stripe-Session erstellt und die Session-URL zurückgibt."

Das sind etwa 30 Sekunden Sprechen. Das Tippen würde über eine Minute dauern, und die meisten Entwickler würden die Hälfte des Kontexts weglassen.

Fehler beschreiben

Fehler sind von Natur aus erzählerisch — was passiert ist, was hätte passieren sollen, was man bereits versucht hat. Das passt perfekt zur Sprache:

„Wenn ich auf dem Einstellungsbereich auf Speichern klicke und die Netzwerkanfrage langsam ist, erscheint der Ladespinner, aber wenn ich wegnavigiere, bevor sie abgeschlossen ist, und dann zurückkomme, werden die alten Einstellungen angezeigt, obwohl das Speichern auf dem Backend tatsächlich erfolgreich war. Ich glaube, das Problem liegt darin, dass wir aus einem veralteten lokalen Cache lesen, statt nach der Navigation neu zu laden."

Code-Review-Kommentare

Code Reviews sind der Bereich, in dem viele Entwickler von knappen getippten Kommentaren zu ausführlicherem Feedback wechseln. Sprache beseitigt die Hürde:

„Diese Funktion macht drei Dinge — den Benutzer laden, Berechtigungen prüfen und die Antwort formatieren. Ich würde die Berechtigungsprüfung in eine eigene Middleware auslagern, damit wir sie auf den Admin-Routen wiederverwenden können. Außerdem verschluckt die Fehlerbehandlung in Zeile 42 die ursprüngliche Fehlermeldung, was das Debugging in der Produktion erschwert."

Architekturentscheidungen

Wenn man einen Ansatz durchdenken muss, ist Sprache schneller als Tippen und strukturierter als bloßes Nachdenken:

„Ich versuche, zwischen WebSockets und Server-Sent Events für die Echtzeit-Benachrichtigungen zu entscheiden. WebSockets bieten bidirektionale Kommunikation, aber wir brauchen für Benachrichtigungen nur Server-zu-Client. SSE ist einfacher, funktioniert zuverlässiger durch Proxies und Load Balancer, und wir können ein einfaches EventSource im Frontend verwenden. Der Kompromiss ist, dass wenn wir jemals Nachrichten vom Client senden müssen, wir einen separaten Endpunkt hinzufügen müssten. Was denkst du?"

Sprache + Screenshot, vollständig freihändig

Sprach-Prompts funktionieren gut allein, aber Coding erfordert oft visuellen Kontext — eine Fehlermeldung, einen UI-Fehler, ein Diagramm, ein Schaubild auf dem Bildschirm eines Kollegen. Vext löst das mit einer Funktion, die kein anderes Spracheingabe-Tool bietet: einen Screenshot während der freihändigen Diktierfunktion aufnehmen, und das Bild wird zusammen mit dem transkribierten Prompt in das KI-Tool eingefügt.

Der Ablauf:

Freihändiges Diktieren starten
Prompt sprechen: „Schau dir dieses Layout an — die Sidebar überlagert den Hauptinhalt auf schmalen Viewports. Korrigiere das Flexbox, damit sie sauber zusammenbricht."
Den Fehler auf dem Bildschirm per Drag auswählen
Die Diktationstaste drücken, um zu stoppen

Sowohl der transkribierte Text als auch der Screenshot landen in Claude Code (oder Cursor oder ChatGPT) an der Cursorposition. Mit aktiviertem YOLO Mode wird der Prompt automatisch abgeschickt. Die Tastatur wird nie berührt.

Anwendungsfälle, bei denen das besser als Tippen ist:

Fehlermeldung zeigen — den Stack Trace aufnehmen statt ihn zu beschreiben
UI-Fehler — zeigen, was kaputt ist, während man das erwartete Verhalten erklärt
Code eines Kollegen reviewen — den Diff aufnehmen, während man den Vorschlag bespricht
Diagramm- und Schaubildanalyse — Claude auf ein Grafana-Panel oder Architekturdiagramm zeigen und Fragen stellen
App-übergreifender Kontext — ein Figma-Mockup beschreiben, während man es im Editor implementiert

Dies kombiniert die drei Funktionen, die Vext für KI-Coding nützlich machen: freihändiges Diktieren, Screenshot-Aufnahme und YOLO Mode Auto-Submit. Zusammen ermöglichen sie es, im Flow mit der KI zu bleiben, ohne zum Tippen oder Einfügen unterbrechen zu müssen.

Tipps pro Tool

Claude Code (Terminal)

Claude Code verarbeitet natürliche Sprache gut — Prompts müssen nicht sorgfältig formatiert werden. Bei mehrstufigen Aufgaben Sprache für die initiale Beschreibung verwenden, dann kurze Folgeantworten tippen („ja", „anderen Ansatz versuchen", „das rückgängig machen").

Cursor

Sprache für das Composer-Panel verwenden. Lange Prompts mit vollständigem Kontext funktionieren deutlich besser als kurze Anweisungen. Cursor nutzt den Prompt, um die Codebasis nach relevantem Kontext zu durchsuchen — mehr Details bedeuten bessere Dateiauswahl.

ChatGPT / Claude.ai

Sprache funktioniert besonders gut bei chat-basierten Interfaces, bei denen der Gesprächsfluss wichtig ist. Sprache für die inhaltlichen Nachrichten verwenden und kurze Antworten tippen.

Häufige Bedenken

„Wird die KI meine unordentliche Sprache verstehen?"

Ja. Große Sprachmodelle verarbeiten Füllwörter, Neustarts und konversationellen Ausdruck problemlos. Ein weitschweifiger 100-Wörter-Sprachprompt mit vollem Kontext übertrifft fast immer eine polierte 15-Wörter-getippte Anweisung.

„Was ist mit Code-Snippets in Prompts?"

Die tippen. Sprache ist für die natürlichsprachigen Teile — Beschreibungen, Kontext, Anforderungen. Wenn man ein bestimmtes Code-Snippet einbeziehen muss, tippt oder fügt man es separat ein.

„Ist es unangenehm, mit dem Computer zu sprechen?"

Etwa 30 Minuten lang. Danach fühlt sich das Tippen von Prompts wie der langsame Weg an.

Erste Schritte

Vext herunterladen — kostenlose Testversion, kein Konto erforderlich. YOLO Mode aktivieren und die nächste Coding-Sitzung per Sprache ausprobieren.