Superwhisper und Vext sind derzeit die zwei meistgefragten lokalen Mac-Diktier-Apps. Beide führen die Spracherkennung vollständig auf deinem Mac aus, beide sind Einmalkäufe statt Abonnements, beide zielen auf Menschen ab, die poliertes Diktieren ohne die Cloud wollen.

Sie setzen auf unterschiedliche Ansätze. Das sind diese Ansätze und wie du entscheidest.

Hinweis: Wir entwickeln Vext. Wir werden dennoch versuchen, ehrlich über Superwhispers Stärken zu sein — so zu tun, als hätte es keine, hilft niemandem, der das hier liest.

Auf einen Blick

Superwhisper Vext
Preis $249 Lifetime $49 Lifetime (aktuelle Hauptversion)
Kostenloser Test Ja 100 Diktate, 50 Notizen, 10 Meetings
Plattform Mac (macOS 13+) Mac (macOS 14+), nur Apple Silicon
Sprach-Engine Whisper (mehrere Größen) Parakeet Standard, Whisper optional
Verarbeitung Lokal Lokal
Bereinigung Modusbasierte Prompts Enhance (einzelner LLM-Durchgang)
Meeting-Transkription Nein Ja
Live-Übersetzung Nein Ja
Sprecher-Labels Nein Ja (in Meetings)
Modi / Kontexte Ja (tiefgreifend) Drei feste Modi
Plattformübergreifend Nein Nein

Wofür jede App am besten geeignet ist

Superwhisper ist das bessere diktierfokussierte Tool. Das Modussystem ist das, was es auszeichnet. Du definierst verschiedene Prompts für verschiedene Schreibkontexte — E-Mails, Code, lockere Unterhaltung, technisches Schreiben — und wechselst zwischen ihnen per Hotkey. Jeder Modus hat seinen eigenen LLM-Prompt, der das Bereinigungsverhalten prägt. Wenn dein Alltag viel Kontextwechsel beinhaltet („Slack-Nachricht schreiben", „E-Mail entwerfen", „Code-Kommentar hinterlassen", „das für eine Führungskraft zusammenfassen"), passt Superwhispers Modussystem besser zu dieser Struktur als alles andere.

Der Politur des Diktiererlebnisses selbst — die Benutzeroberfläche, die Cursorbedienung, die seltenen Randfälle — ist ausgezeichnet. Jahre der Fokussierung auf eine Sache zeigen sich.

Vext ist das breitere Workflow-Tool. Diktieren ist einer von drei Modi. Die anderen beiden sind Meetings (Aufnehmen + Transkribieren + Zusammenfassen, mit Sprecher-Labels) und Notizen (schnelle lokal gespeicherte Sprachmemos). Dazu Funktionen, die Superwhisper nicht hat: Live-Übersetzung, Screenshot-Aufnahme während des Diktierens, YOLO Mode für KI-Tools, Freisprechdiktat, System-Audio-Ducking.

Wenn du nur Diktieren willst, gewinnt Superwhisper in der Fokussierung. Wenn du Diktieren plus Meetings plus Übersetzung in einer App willst, dafür haben wir Vext gebaut.

Wo sie sich überschneiden

Das Kern-Diktiererlebnis ist tatsächlich ähnlich:

  • Hotkey halten, sprechen, loslassen, Text erscheint am Cursor
  • Lokales Whisper oder Parakeet erledigt die Spracherkennung
  • Ein lokales LLM bereinigt Füllwörter und Struktur
  • Audio verlässt deinen Mac nie
  • Einmalkauf, kein Abonnement

Wenn du nur den grundlegenden Diktierablauf nutzt, fühlen sich beide Apps vertraut an. Der Unterschied liegt darin, wie jede die Randfälle handhabt.

Geschwindigkeit und Genauigkeit

Beide Apps verwenden dieselben zugrundeliegenden Modelle (Whisper-Varianten, Parakeet), sodass die Transkriptionsgenauigkeit durch das Modell begrenzt wird, nicht durch die App. Wo sie abweichen:

Standard-Engine. Superwhisper verwendet standardmäßig eine Whisper-Variante (du wählst sie beim Setup). Vext verwendet standardmäßig Parakeet für englisches Diktieren, das schneller ist (~150-fache Echtzeit auf M2) und die Genauigkeit von Whisper Small/Medium bei sauberem Englisch erreicht. Für Nicht-Englisch wechselt Vext auf Whisper. Superwhisper bleibt durchgehend bei Whisper.

Latenz bis zum ersten Token. Parakeet streamt Tokens während du sprichst; Whisper wartet auf das 30-Sekunden-Fenster. Bei kurzem Diktieren fühlt sich Parakeet unmittelbar an (~80 ms erstes Token auf M2). Whisper Small ist ~350 ms, Medium ~700 ms, Large-v3 ~1,4 s. Wenn Latenz wichtig ist und du hauptsächlich Englisch diktierst, gewinnt Vext standardmäßig. Beide Apps ermöglichen die Auswahl der Engine pro Aufgabe, also ist das bei beiden konfigurierbar.

Bereinigungsqualität. Superwhispers moduspezifische Prompts erzeugen besser abgestimmte Ausgaben beim Kontextwechsel — ein „lockerer Slack-Nachricht"-Modus liest sich anders als ein „formelle E-Mail"-Modus. Vexts Enhance ist ein allgemeiner Prompt mit der Option zur Anpassung. Für einen Diktier-Generalisten sind beide in Ordnung. Für jemanden, dem es wirklich darauf ankommt, dass der Ton zum Ziel passt, ist Superwhispers Modussystem die richtige Antwort.

Meeting-Transkription

Vext nimmt Meetings auf (Mikrofon + System-Audio gleichzeitig) und erstellt Transkripte mit Sprecher-Labels, Screenshots und KI-Zusammenfassungen. Funktioniert mit Zoom, Meet, FaceTime — alles, was Audio auf deinem Mac erzeugt.

Superwhisper macht keine Meetings. Du würdest es mit einem separaten Meeting-Tool kombinieren (Granola, MacWhisper für nachträgliche Dateien usw.).

Wenn du regelmäßig Meetings hast und eine App für alles Sprachbezogene willst, ist das der größte Unterschied zwischen den beiden Produkten.

Übersetzung

Vext: jede Sprache sprechen, in der Zielsprache tippen — stelle eine Zielsprache in den Einstellungen ein, diktiere in der Ausgangssprache, erhalte übersetzten Text am Cursor. Nützlich, wenn du in einer Nicht-Muttersprache liest, aber auf Englisch schreibst (oder umgekehrt), oder für internationale Arbeit.

Superwhisper hat Übersetzung über OpenAIs integrierten Übersetzungsmodus von Whisper (nur Audio zu Englisch), kein vollständiges bidirektionales Sprachpaar.

Wenn Übersetzung ein echter Workflow-Bedarf ist, ist Vext dafür gebaut. Wenn du nur in einer Sprache arbeitest, spielt das keine Rolle.

Preisgestaltung

Superwhisper kostet $249 Lifetime. Vext kostet $49 für die aktuelle Hauptversion, mit Hauptversions-Upgrades zu 50 % Rabatt für bestehende Kunden (also voraussichtlich $24,50 für die nächste Hauptversion).

Fünfjahreskosten-Übersicht:

  • Superwhisper: $249 einmalig
  • Vext: ~$49 + ~$25 + ~$25 = ungefähr $100 über fünf Jahre (je nachdem, wie viele Hauptversionen erscheinen)

In jedem Fall sind beide dramatisch günstiger als Wispr Flows $15/Monat ($900 über fünf Jahre).

Die $200 Differenz zwischen Superwhispers Preis und Vexts deckt Superwhispers längere Erfolgsgeschichte und die Tiefe der Politur beim Diktiererlebnis ab. Ob diese Lücke es wert ist, hängt davon ab, wie oft du diktierst und wie viel Wert du auf das Modussystem legst.

Hardware- und Betriebssystemanforderungen

Superwhisper: macOS 13+, Intel oder Apple Silicon, aber Apple Silicon wird dringend empfohlen.

Vext: macOS 14+, nur Apple Silicon (M1–M4). Intel-Macs werden nicht unterstützt.

Wenn du einen Intel-Mac hast, ist Superwhisper die einzige der beiden Optionen, die funktioniert.

Workflows, die zu jeder App passen

Superwhisper passt, wenn:

  • Du häufig mit unterschiedlichen Tönen für verschiedene Ziele diktierst
  • Du das polierteste, diktierfokussierte Tool willst
  • Du einen Intel-Mac oder älteres macOS hast
  • Du damit einverstanden bist, es mit separaten Tools für Meetings/Übersetzung/Notizen zu kombinieren

Vext passt, wenn:

  • Du Diktieren + Meetings + Übersetzung in einer App willst
  • Du viel in KI-Tools schreibst (YOLO Mode, Screenshot-Aufnahme)
  • Du Apple Silicon mit macOS 14+ hast
  • Der günstigere Preis wichtig ist
  • Du mehrsprachig arbeitest

Wo beide die falsche Wahl sind

Wenn du plattformübergreifend willst (Windows + Mac), passt keines. Wispr Flow ist die Cloud-basierte Antwort dort.

Wenn du Open-Source willst, qualifiziert sich keines — beide sind Closed-Source. VoiceInk ist die Option dort.

Wenn du die genaueste Dateitranskription mit Stapelverarbeitung von Aufnahmen willst, ist keines dafür gebaut. MacWhisper Pro ist die richtige Wahl.

Wenn du nur gelegentlich diktierst und deine Anforderungen grundlegend sind, ist Apple Dictation kostenlos und gut genug — keine der bezahlten Apps ist notwendig.

Die ehrliche Zusammenfassung

Superwhisper ist als reine Diktier-App ausgereifter. Das Modussystem macht tatsächlich einen Unterschied, wenn dein Workflow wie das Kontextwechseln zwischen Tonstilen aussieht. Der Preis spiegelt den Fokus wider.

Vext ist breiter — dieselben Local-First-Prinzipien, viermal günstiger für die Hauptversion, aber mit Meeting-Transkription, Übersetzung, Screenshot-Aufnahme, YOLO Mode und Freisprechdiktat zusätzlich zum Diktieren. Der Kompromiss für diese Breite ist weniger Tiefe bei einzelnen Funktionen.

Beide haben Testversionen. Der schnellste Weg zur Entscheidung ist, jede einen Tag lang mit deiner echten Arbeit zu verwenden. Die richtige Antwort ist diejenige, gegen die du zuerst aufhörst zu kämpfen.