· 8 min read

Voxtral Transcribe 2 im Test: Vergleich mit Whisper und ScreenApp

Voxtral Transcribe 2 im Test: Vergleich mit Whisper und ScreenApp

Mistral hat Voxtral Transcribe 2 veröffentlicht und die Spracherkennungslandschaft deutlich verändert. Am 5. Februar 2026 erschienen, umfasst diese neue Modellfamilie Voxtral Mini Transcribe V2 für Stapelverarbeitung und Voxtral Realtime für Live-Transkription mit unter 200ms Latenz. Mit offenen Gewichten unter Apache 2.0 und einem Preis von 0,003 Dollar pro Minute ist es der bisher aggressivste Vorstoß auf dem Transkriptions-API-Markt.

Aber reine Benchmark-Ergebnisse erzählen nur einen Teil der Geschichte. Wenn Sie Meetings transkribieren oder Live-Audio aufnehmen und transkribieren müssen, zählt das Gesamterlebnis: Genauigkeit in realen Gesprächen, Benutzerfreundlichkeit, Sprechererkennung und was nach der Transkription passiert. Schauen wir uns an, wie Voxtral im Vergleich zu Whisper, ScreenApp und anderen führenden Transkriptionstools abschneidet.

Was ist Voxtral Transcribe 2?

Voxtral Transcribe 2 ist eine Familie von zwei Spracherkennungsmodellen von Mistral AI. Das erste Modell, Voxtral Mini Transcribe V2, verarbeitet Stapeltranskriptionen. Sie laden eine Audiodatei hoch (bis zu 3 Stunden) und erhalten ein Transkript mit Sprecherbezeichnungen, wortgenauen Zeitstempeln und Kontextanpassung für fachspezifische Begriffe. Es unterstützt 13 Sprachen, darunter Englisch, Spanisch, Französisch, Deutsch, Japanisch, Koreanisch, Chinesisch, Hindi, Arabisch, Portugiesisch, Russisch, Italienisch und Niederländisch.

Das zweite Modell, Voxtral Realtime, ist speziell für Live-Transkription entwickelt. Anders als Stapelmodelle, die Audio in Abschnitten verarbeiten, verwendet Realtime eine Streaming-Architektur, die Audio bei Eingang transkribiert. Die Verzögerung ist auf unter 200ms konfigurierbar, was es schnell genug für Sprachassistenten, Live-Untertitel und Echtzeit-Meeting-Transkription macht.

Mistral gibt an, dass Voxtral Mini Transcribe V2 etwa 4% Wortfehlerrate beim FLEURS-Benchmark erreicht und damit GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal und Deepgram Nova übertrifft. Die Audioverarbeitung ist etwa 3x schneller als bei ElevenLabs Scribe v2, bei gleicher Qualität und einem Fünftel der Kosten.

Voxtral Realtime wird unter der Apache 2.0 Lizenz veröffentlicht. Sie können die Gewichte von Hugging Face herunterladen und auf eigener Hardware betreiben. Das 4B-Parameter-Modell ist klein genug für Edge-Geräte, was für datenschutzsensible Einsätze wichtig ist.

Voxtral vs. Whisper

OpenAIs Whisper ist seit 2022 das Standard-Open-Source-Transkriptionsmodell. Die large-v3 Variante wird weiterhin breit eingesetzt, und OpenAI bietet eine verwaltete API für 0,006 Dollar pro Minute an.

Whisper large-v3 meldet etwa 10,3% Wortfehlerrate bei mehrsprachigen Benchmarks, während Voxtral etwa 4% bei FLEURS beansprucht. Das ist ein erheblicher Unterschied, wobei Benchmark-Zahlen immer mit Vorsicht zu betrachten sind, da die Genauigkeit in der Praxis stark von Audioqualität, Akzenten und Fachgebiet abhängt.

Whispers verwaltete API enthält keine Sprecherzuordnung. Sie müssen sie mit einer separaten Diarisierungs-Pipeline kombinieren (wie pyannote) oder einen Drittanbieter nutzen, der Whisper mit Diarisierung ergänzt. Voxtral enthält die Diarisierung nativ im Stapelmodell, was die Pipeline erheblich vereinfacht.

Beim Preis kostet Whispers verwaltete API 0,006 Dollar pro Minute. Voxtral Mini Transcribe V2 kostet 0,003 Dollar pro Minute, genau die Hälfte. Voxtral Realtime kostet 0,006 Dollar pro Minute und entspricht damit Whispers Stapelpreis, bietet aber Live-Streaming.

Whisper ist als Open-Source verfügbar und zum Selbsthosten geeignet, ebenso Voxtral Realtime. Voxtral Mini Transcribe V2 (das Stapelmodell) ist derzeit jedoch nur per API verfügbar. Wenn Sie aus Kostengründen selbst hosten, hat Whisper noch ein größeres Ökosystem optimierter Inferenz-Tools (faster-whisper, WhisperX, whisper.cpp).

Die Kontextanpassung bei Voxtral ist bemerkenswert. Sie können bis zu 100 Wörter oder Phrasen übergeben, um das Modell zur korrekten Schreibweise von Namen, Fachbegriffen oder Jargon zu führen. Whisper bietet über seine API nichts Vergleichbares.

Voxtral vs. Cloud-Dienste

Neben Open-Source-Modellen konkurrieren mehrere Cloud-Transkriptionsdienste in diesem Bereich. AssemblyAI, Deepgram und Rev gehören zu den beliebtesten.

AssemblyAIs Universal-Modell bietet starke Genauigkeit mit Funktionen wie Stimmungsanalyse, Themenerkennung und Entitätserkennung. Der Preis liegt bei 0,0037 Dollar pro Sekunde (0,222 Dollar pro Minute) für ihr bestes Modell, deutlich teurer als Voxtral. AssemblyAI bietet jedoch eine wesentlich reichhaltigere Nachverarbeitungsschicht.

Deepgram Nova bietet wettbewerbsfähige Preise und Geschwindigkeit, ab 0,0043 Dollar pro Minute für voraufgenommenes Audio. Deepgrams Stärke sind die Anpassungsoptionen und niedrige Streaming-Latenz. Voxtral Realtime konkurriert direkt mit Deepgrams Streaming-Angebot.

Rev kombiniert KI-Transkription mit menschlicher Überprüfung. Ihr reiner KI-Tarif beginnt bei 0,02 Dollar pro Minute. Rev ist eine gute Wahl bei garantierter Genauigkeit, aber deutlich teurer als Voxtral.

Der entscheidende Unterschied: Voxtral ist ein Modell, keine Plattform. Es liefert ein Transkript, Zeitstempel und Sprecherbezeichnungen, aber kein durchsuchbares Archiv, keine KI-Zusammenfassungen, keine Aufgabenlisten und keinen Workflow rund um das Transkript.

Voxtral vs. ScreenApp

Hier verschiebt sich der Vergleich von Modellen zu Produkten. ScreenApp ist kein Transkriptionsmodell, sondern eine komplette Meeting- und Aufnahmeplattform, die KI-Transkription als Komponente eines größeren Workflows nutzt.

Wenn Sie ein Meeting mit ScreenApp aufnehmen, übernimmt die Plattform die gesamte Pipeline: Aufnahme, Transkription mit Sprecherzuordnung, KI-generierte Zusammenfassungen, Aufgabenlisten, durchsuchbare Archive und Freigabe. Sie müssen nicht darüber nachdenken, welches Modell im Hintergrund läuft.

ScreenApp funktioniert direkt in Ihrem Browser, ohne Software-Installation, ohne API-Schlüssel und ohne Infrastruktur-Wartung. Es integriert sich mit Zoom, Google Meet, Microsoft Teams und anderen Plattformen.

Für Entwickler, die Sprachanwendungen bauen, ist Voxtral spannend. Die Kombination aus niedriger Latenz, niedrigen Kosten und offenen Gewichten macht es zu einer hervorragenden Grundlage für eigene Sprach-Pipelines. Aber für Fachleute, die Meeting-Transkription, Vorlesungsnotizen oder Interviewaufzeichnungen benötigen, beseitigt ein Produkt wie ScreenApp die gesamte Komplexität.

Ein praktisches Beispiel: Wenn Sie Voxtrals API nutzen, um ein einstündiges Meeting zu transkribieren, erhalten Sie ein Texttranskript mit Sprecherbezeichnungen und Zeitstempeln. Gesamtkosten: 0,18 Dollar. Aber dann müssen Sie es speichern, durchsuchbar machen, eine Zusammenfassung erstellen, Aufgaben extrahieren und mit Ihrem Team teilen. Jeder dieser Schritte erfordert zusätzliche Tools.

Mit ScreenApp klicken Sie auf Aufnahme, nehmen am Meeting teil, und alles andere passiert automatisch. Der KI-Notizenassistent erstellt strukturierte Notizen. Das Transkript ist durchsuchbar. Sie können einen Link mit Ihrem Team teilen.

Vergleichstabelle

Funktion Voxtral Mini V2 Voxtral Realtime Whisper (API) ScreenApp
Typ API / Modell API / Offene Gewichte API / Offene Gewichte Web-Plattform
Preis $0,003/Min $0,006/Min $0,006/Min Kostenlos / ab $19/Mo
Echtzeit Nein (Stapel) Ja (unter 200ms) Nein (Stapel) Ja
Diarisierung Integriert Nein Nein (Pipeline nötig) Integriert
Sprachen 13 13 99+ 50+
KI-Zusammenfassungen Nein Nein Nein Ja
Selbst hostbar Nein (nur API) Ja (Apache 2.0) Ja (MIT) Nein
Einrichtung API-Integration API / Selbst hosten API / Selbst hosten Keine (Browser)

Wer sollte Voxtral nutzen?

Voxtral Transcribe 2 eignet sich am besten für Entwickler und Engineering-Teams, die sprachgesteuerte Anwendungen bauen. Wenn Sie einen Sprachassistenten, ein Live-Untertitelungssystem oder eine Callcenter-Automatisierung entwickeln, bietet Voxtral ein starkes Modell zu einem wettbewerbsfähigen Preis.

Die Open-Weights-Veröffentlichung von Voxtral Realtime ist besonders wertvoll für datenschutzsensible Einsätze. Gesundheits-, Rechts- und Finanzanwendungen, die kein Audio an Drittanbieter-APIs senden können, können das Modell auf eigener Infrastruktur betreiben.

Für einzelne Fachleute, Content-Creator und Teams, die Meeting-Transkription als Teil ihres Workflows benötigen, ist ein Produkt wie ScreenApp die bessere Wahl. Sie erhalten Transkription plus alles, was danach kommt: Zusammenfassungen, Notizen, Suche und Zusammenarbeit.

Das große Bild

VentureBeat hat 2026 zum “Jahr des Notizenmachens” erklärt. Die Kosten für hochwertige Transkription sind in nur zwei Jahren um eine Größenordnung gesunken. Voxtral für 0,003 Dollar pro Minute bedeutet, dass die Transkription eines achtstündigen Arbeitstags 1,44 Dollar kostet.

Das ändert die Wirtschaftlichkeit. Wenn Transkription fast nichts kostet, kann man jedes Gespräch transkribieren. Die Herausforderung verschiebt sich von “Können wir es uns leisten, das zu transkribieren?” zu “Wie machen wir all diese Transkripte nützlich?”

Genau hier bieten Tools wie ScreenApp Mehrwert. Rohe Transkription wird zur Massenware. Die Differenzierung liegt in dem, was danach passiert: intelligente Zusammenfassungen, durchsuchbare Archive, automatisierte Nachverfolgung und nahtloses Teilen.

Erste Schritte

Wenn Sie Voxtral Transcribe 2 ausprobieren möchten, besuchen Sie Mistrals Audio-Playground. Für den Produktiveinsatz ist die API über Mistrals Plattform verfügbar.

Wenn Sie Transkription möchten, die sofort ohne Einrichtung funktioniert, testen Sie ScreenApps Online-Transkriptgenerator. Laden Sie eine beliebige Audio- oder Videodatei hoch oder nehmen Sie direkt im Browser auf.

FAQ

Ist Voxtral Transcribe 2 kostenlos?

Voxtral Realtime ist unter Apache 2.0 als Open-Weights verfügbar und kann kostenlos auf eigener Hardware betrieben werden. Die API kostet 0,006 Dollar pro Minute. Voxtral Mini Transcribe V2 ist nur per API für 0,003 Dollar pro Minute verfügbar.

Wie genau ist Voxtral im Vergleich zu Whisper?

Mistral meldet etwa 4% Wortfehlerrate beim FLEURS-Benchmark für Voxtral Mini Transcribe V2, verglichen mit etwa 10,3% für Whisper large-v3. Praxisergebnisse hängen von Audioqualität und Fachgebiet ab.

Unterstützt Voxtral Sprecherzuordnung?

Ja, Voxtral Mini Transcribe V2 enthält integrierte Sprecherzuordnung mit präzisen Start- und Endzeiten für jeden Sprecher. Voxtral Realtime unterstützt derzeit keine Diarisierung.

Kann ich Voxtral für Meeting-Transkription nutzen?

Sie können die API nutzen, um Meeting-Audio zu transkribieren, müssen aber eine eigene Pipeline für Aufnahme, Speicherung, Zusammenfassung und Freigabe bauen. Für eine Komplettlösung übernehmen Tools wie ScreenApp den gesamten Workflow.

Welche Sprachen unterstützt Voxtral?

Voxtral unterstützt 13 Sprachen: Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.

FAQ

Ist Voxtral Transcribe 2 kostenlos?

Voxtral Realtime ist unter Apache 2.0 als Open-Weights verfügbar und kann kostenlos auf eigener Hardware betrieben werden. Die API kostet 0,006 Dollar pro Minute. Voxtral Mini Transcribe V2 ist nur per API für 0,003 Dollar pro Minute verfügbar.

Wie genau ist Voxtral im Vergleich zu Whisper?

Mistral meldet etwa 4% Wortfehlerrate beim FLEURS-Benchmark für Voxtral Mini Transcribe V2, verglichen mit etwa 10,3% für Whisper large-v3. Praxisergebnisse hängen von Audioqualität und Fachgebiet ab.

Unterstützt Voxtral Sprecherzuordnung?

Ja, Voxtral Mini Transcribe V2 enthält integrierte Sprecherzuordnung mit präzisen Start- und Endzeiten für jeden Sprecher. Voxtral Realtime unterstützt derzeit keine Diarisierung.

Kann ich Voxtral für Meeting-Transkription nutzen?

Sie können die API nutzen, um Meeting-Audio zu transkribieren, müssen aber eine eigene Pipeline für Aufnahme, Speicherung, Zusammenfassung und Freigabe bauen. Für eine Komplettlösung übernehmen Tools wie ScreenApp den gesamten Workflow.

Welche Sprachen unterstützt Voxtral?

Voxtral unterstützt 13 Sprachen: Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.

User
User
User
2,147,483+ Nutzer vertrauen uns

Weitere Einblicke entdecken

Entdecken Sie in unserem Blog weitere Produktivitätstipps, Technologie-Einblicke und Softwarelösungen.

Try ScreenApp Free

Start recording in 60 seconds • Keine Kreditkarte erforderlich