Voxtral Transcribe 2: Was Mistrals neues KI-Transkriptionsmodell bedeutet
Mistral AI hat am 5. Februar 2026 Voxtral Transcribe 2 veröffentlicht und damit zwei Speech-to-Text-Modelle vorgestellt, die neue Massstäbe bei Transkriptionsgenauigkeit und Geschwindigkeit setzen. Das Release umfasst Voxtral Mini Transcribe V2 für Stapelverarbeitung und Voxtral Realtime für Live-Transkription mit extrem niedriger Latenz.
Laut Mistrals Ankündigung unterstützen die Modelle 13 Sprachen und erzielen die niedrigste Wortfehlerrate zum niedrigsten Preis aller Transkriptions-APIs. Voxtral Realtime wird unter der Apache 2.0 Open-Weights-Lizenz bereitgestellt, sodass Entwickler es auf dem eigenen Gerät für datenschutzsensible Anwendungen einsetzen können.
Das ist relevant für alle, die Meetings, Interviews, Vorlesungen oder Podcasts aufnehmen. Der Transkriptionsmarkt ist gerade deutlich wettbewerbsfähiger geworden, und Tools wie ScreenApps Transkription, Otter.ai und Fireflies stehen nun einer leistungsstarken Open-Source-Alternative gegenüber. Hier erfahren Sie, was sich geändert hat und was es für Ihren Workflow bedeutet.
Verwandte Anleitungen: Beste kostenlose Audio-zu-Text-Konverter, KI-Meeting-Assistenten, Live-Transkriptions-Apps
Was ist Voxtral Transcribe 2?
Voxtral Transcribe 2 ist eine Familie von zwei Speech-to-Text-Modellen von Mistral AI, dem Pariser Unternehmen, das für Open-Source-Sprachmodelle bekannt ist. Die beiden Modelle dienen unterschiedlichen Anwendungsfällen.
Voxtral Mini Transcribe V2 übernimmt die Stapeltranskription. Sie laden eine Audiodatei hoch und erhalten ein Transkript mit Sprecherdiarisierung (wer hat was gesagt), Zeitstempel auf Wortebene und Kontextanpassung für Fachbegriffe. Die Verarbeitung kostet etwa 0,003 $ pro Minute und erreicht ungefähr 4 % Wortfehlerrate im FLEURS-Benchmark. Damit ist es günstiger als OpenAI Whispers API (0,006 $/min) und liefert dabei bessere Genauigkeit.
Voxtral Realtime wurde für Live-Transkription entwickelt. Es nutzt eine Streaming-Architektur, die Audio in Echtzeit transkribiert, mit konfigurierbarer Latenz bis unter 200 Millisekunden. Bei 2,4 Sekunden Verzögerung erreicht es die Genauigkeit des Batch-Modells. Bei 480 ms bleibt es innerhalb von 1-2 % Wortfehlerrate des Batch-Modells. Dieses Modell wird unter Apache 2.0 veröffentlicht, sodass jeder es lokal herunterladen und ausführen kann.
Beide Modelle unterstützen 13 Sprachen: Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.
Zwei Modelle, zwei Einsatzbereiche
Die Entscheidung, welches Modell zu Ihren Anforderungen passt, ist einfach.
Verwenden Sie Voxtral Mini Transcribe V2, wenn:
- Sie voraufgezeichnetes Audio haben (Meetings, Interviews, Podcasts)
- Sie Sprecherlabels und Zeitstempel benötigen
- Sie die höchstmögliche Genauigkeit wünschen
- Eine Bearbeitungszeit von Sekunden bis Minuten akzeptabel ist
- Sie Kontextanpassung für domänenspezifisches Vokabular benötigen
Verwenden Sie Voxtral Realtime, wenn:
- Sie Live-Untertitel oder Untertitelung benötigen
- Sie Sprachagenten oder Echtzeit-Assistenten entwickeln
- Latenz unter 500 ms wichtig ist
- Sie das Modell auf eigener Hardware ausführen möchten
- Datenschutz eine Verarbeitung auf dem Gerät erfordert
Der Unterschied ist wichtig, weil die meisten Transkriptionstools alles in ein Produkt bündeln. Mistral hat das Problem in zwei spezialisierte Lösungen aufgeteilt, die jeweils für ihren Einsatzzweck optimiert sind.
On-Device-Transkription
Die grösste Neuigkeit hier ist nicht Genauigkeit oder Geschwindigkeit. Es ist der Datenschutz.
Voxtral Realtime läuft auf dem Gerät mit einem 4-Milliarden-Parameter-Modell. Das bedeutet, Ihr Audio verlässt nie Ihren Computer, Ihr Telefon oder Ihren Server. Für Gesundheitsdienstleister, Juristen, Finanzberater und alle, die mit sensiblen Gesprächen umgehen, ändert das die Kalkulation grundlegend.
Die meisten Transkriptionsdienste senden Ihr Audio heute zur Verarbeitung an Cloud-Server. Otter.ai, Fireflies und auch ScreenApp verarbeiten Audio in der Cloud. OpenAIs Whisper API funktioniert genauso. Obwohl diese Dienste Datenschutzrichtlinien und Verschlüsselung haben, wird das Audio dennoch auf Drittanbieter-Infrastruktur übertragen und verarbeitet.
Mit Voxtral Realtime können Organisationen das Modell innerhalb ihres eigenen Netzwerks bereitstellen. Kein Audio verlässt das Gelände. Keine Vereinbarungen zur Datenverarbeitung mit Dritten erforderlich. Kein Risiko von Datenlecks bei einem Transkriptionsanbieter.
Der Kompromiss ist, dass Sie Ihre eigene Infrastruktur verwalten müssen. Ein 4B-Parametermodell benötigt eine ordentliche GPU (oder einen modernen Laptop mit ausreichend Speicher). Für Einzelpersonen bleiben Cloud-Dienste bequemer. Für Unternehmen mit Compliance-Anforderungen ist On-Device ein entscheidender Vorteil.
Wie Voxtral abschneidet
So steht Voxtral Transcribe 2 im Vergleich zu den wichtigsten Transkriptionstools, die 2026 verfügbar sind.
| Tool | Typ | On-Device | Diarisierung | Preis | Am besten für |
|---|---|---|---|---|---|
| Voxtral Transcribe 2 | API / Self-hosted | Ja (Realtime) | Ja | 0,003 $/min (API) | Entwickler, Datenschutz |
| OpenAI Whisper | API / Self-hosted | Ja (Open-Source) | Nein (nativ) | 0,006 $/min (API) | Entwickler, allgemein |
| ScreenApp | Web-App | Nein | Ja | Kostenlos / 19 $/Monat | Kompletter Workflow |
| Otter.ai | Web-App / Mobil | Nein | Ja | Kostenlos / 8,33 $/Monat | Meeting-Transkription |
| Fireflies.ai | Web-App / Bot | Nein | Ja | Kostenlos / 10 $/Monat | Meeting-Notizen und CRM |
Einige Punkte stechen in diesem Vergleich hervor. Voxtral ist die günstigste API-Option und die einzige, die sowohl On-Device-Bereitstellung als auch integrierte Diarisierung in einer einzigen Modellfamilie bietet. Whisper ist Open-Source, verfügt aber nicht über native Sprecherdiarisierung. Die Cloud-Dienste (ScreenApp, Otter.ai, Fireflies) bieten komplette Produkte mit Benutzeroberflächen, Integrationen und Workflows, die reine Transkriptionsmodelle nicht liefern.
Rohes Modell vs. Komplettlösung
Das ist die entscheidende Unterscheidung, die in der Berichterstattung über Voxtral meist übersehen wird.
Voxtral Transcribe 2 ist ein Transkriptionsmodell. Es wandelt Sprache in Text um. Das ist alles. Es gibt keine Aufnahmeoberfläche, keinen Meeting-Planer, keinen Zusammenfassungsgenerator, keine Suchfunktion, kein Sharing-System, keine Integrationen mit Zoom oder Google Meet.
Für Entwickler, die Transkription in ihre eigenen Produkte einbauen, ist Voxtral ausgezeichnet. Für Einzelpersonen und Teams, die Meetings, Vorlesungen oder Interviews transkribieren müssen, braucht man immer noch ein komplettes Tool.
ScreenApp übernimmt den gesamten Workflow: Bildschirm aufnehmen oder Audio hochladen, automatisches Transkript mit Sprecherdiarisierung erhalten, eine KI-Zusammenfassung generieren und später alle Transkripte durchsuchen. Die Transkription ist ein Schritt in einem grösseren Prozess.
Denken Sie so darüber nach: Voxtral ist ein Motor. ScreenApp ist das Auto. Die meisten Menschen brauchen das Auto. Entwickler und Unternehmen, die ihr eigenes Auto bauen, brauchen den Motor.
Deshalb nannte VentureBeat 2026 “das Jahr der Notizen”. Die zugrunde liegenden Modelle werden immer besser und günstiger, was die darauf aufbauenden kompletten Tools leistungsfähiger und erschwinglicher macht.
Datenschutzaspekte
Der Datenschutzwinkel verdient einen tieferen Blick, weil er verschiedene Nutzer unterschiedlich betrifft.
Für Einzelpersonen: Cloud-Transkriptionsdienste sind in der Regel ausreichend. Ihre Meeting-Aufnahmen werden bei der Übertragung und im Ruhezustand verschlüsselt. Die Bequemlichkeit eines gehosteten Dienstes überwiegt das theoretische Datenschutzrisiko für die meisten privaten und kleinunternehmerischen Anwendungsfälle.
Für regulierte Branchen: On-Device-Transkription ist bedeutsam. HIPAA-Compliance im Gesundheitswesen, Anwaltsprivileg in der Rechtsbranche und Finanzvorschriften schaffen Situationen, in denen das Senden von Audio an Drittanbieter-Server ein Compliance-Risiko darstellt. Voxtral Realtime, das innerhalb des Netzwerks eines Krankenhauses oder einer Anwaltskanzlei läuft, beseitigt dieses Risiko.
Für Unternehmen: Die Wahl hängt von Ihrem Bedrohungsmodell ab. Wenn Sie sich Sorgen machen, dass ein Transkriptionsanbieter gehackt wird, hilft On-Device. Wenn Sie sich Sorgen über Insider-Bedrohungen machen, hilft es nicht, weil das Audio immer noch auf Ihren internen Systemen existiert.
ScreenApp adressiert den Datenschutz durch Verschlüsselung und Datenverarbeitungsrichtlinien statt durch On-Device-Verarbeitung. Für die meisten Nutzer bietet das ausreichenden Schutz. Für Organisationen mit strengen Anforderungen an die Datenresidenz bieten On-Device-Modelle wie Voxtral eine zusätzliche Option. Mehr darüber, wie ScreenApp mit Audiodaten umgeht, erfahren Sie auf der Seite Sprach- und Aufnahmetest.
Was das für 2026 bedeutet
Der Transkriptionsmarkt bewegt sich schnell. Darauf sollten Sie für den Rest des Jahres 2026 achten.
Preise werden weiter fallen. Voxtral mit 0,003 $/min unterbietet Whisper mit 0,006 $/min. Dieser Druck wird alle Transkriptions-APIs in Richtung niedrigerer Preise drängen, was End-User-Tools zugute kommt, die auf diese APIs angewiesen sind.
On-Device wird Standard. Apple bietet bereits On-Device-Transkription in iOS an. Google hat ähnliche Fähigkeiten in Android. Voxtral bringt dies in die Open-Source-Welt mit Produktionsqualität. Innerhalb eines Jahres werden die meisten Transkriptionstools eine On-Device-Option anbieten.
Der Wert verschiebt sich zum Workflow. Wenn Transkription selbst günstig und genau wird, verlagert sich die Differenzierung auf das, was Sie mit dem Transkript tun. Zusammenfassung, Aktionspunkte-Extraktion, durchsuchbare Archive und Integrationen werden zum eigentlichen Produkt. Das ist bereits dort, wo Tools wie ScreenApp und Otter.ai konkurrieren.
Echtzeit-Transkription eröffnet neue Anwendungsfälle. Sub-200ms-Latenz ermöglicht Live-Untertitelung, Echtzeitübersetzung, Sprachagenten und Barrierefreiheitsfunktionen, die zuvor nicht praktikabel waren. Erwarten Sie, dass diese Fähigkeiten in Videokonferenztools, Kundensupportsystemen und Bildungsplattformen erscheinen.
Mit ScreenApp transkribieren
Wenn Sie heute Transkription benötigen und keine eigene Infrastruktur aufsetzen möchten, bietet ScreenApp alles an einem Ort.
- Aufnehmen oder hochladen unter screenapp.io/features/online-transcript-generator.
- Transkript erhalten mit Sprecherlabels und Zeitstempeln automatisch.
- Zusammenfassungen generieren mit dem KI-Summarizer, um Kernpunkte und Aktionspunkte zu extrahieren.
Keine Software zu installieren, keine Modelle zu konfigurieren, keine GPU erforderlich.
Nach der Transkription
Sobald Sie Ihr Transkript haben, bietet ScreenApp weitere Tools:
- KI-Notizenersteller: Strukturierte Meeting-Notizen aus jeder Aufnahme erstellen
- Transkript-Diarisierung: Genau sehen, wer was gesagt hat
- Live-Transkription: Audio in Echtzeit transkribieren
- Speech-to-Text-Erweiterung: Direkt im Browser transkribieren
FAQ
Ist Voxtral Transcribe 2 kostenlos?
Voxtral Realtime ist unter Apache 2.0 als Open-Weights verfügbar, sodass Sie es kostenlos auf Ihrer eigenen Hardware herunterladen und ausführen können. Die API über Mistrals Plattform kostet 0,003 $ pro Minute für Voxtral Mini Transcribe V2.
Wie schneidet Voxtral im Vergleich zu Whisper ab?
Voxtral erreicht niedrigere Wortfehlerraten als Whisper zum halben API-Preis (0,003 $/min vs. 0,006 $/min). Voxtral bietet auch native Sprecherdiarisierung, die Whisper fehlt. Beide können auf dem Gerät laufen.
Kann ich Voxtral für Meeting-Transkription nutzen?
Als reines Modell ja, aber Sie müssten Ihre eigene Aufnahme- und Wiedergabeoberfläche erstellen. Für einsatzbereite Meeting-Transkription bieten Tools wie ScreenApp, Otter.ai oder Fireflies ein komplettes Erlebnis.
Welche Sprachen unterstützt Voxtral?
Voxtral Transcribe 2 unterstützt 13 Sprachen: Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.
Ist On-Device-Transkription besser als Cloud?
Das hängt von Ihren Anforderungen ab. On-Device bietet besseren Datenschutz, da Audio Ihre Hardware nie verlässt. Cloud-Transkription ist bequemer und erfordert keine lokalen Rechenressourcen. Für die meisten Einzelpersonen ist Cloud ausreichend. Für regulierte Branchen ist On-Device wertvoll.
Was ist Sprecherdiarisierung?
Sprecherdiarisierung identifiziert, wer wann in einer Aufnahme gesprochen hat. Statt eines einzigen Textblocks erhalten Sie gelabelte Segmente wie “Sprecher 1: …” und “Sprecher 2: …”. Voxtral Mini Transcribe V2 und ScreenApp bieten beide diese Funktion.
Wird Voxtral Otter.ai oder ScreenApp ersetzen?
Nein. Voxtral ist ein Transkriptionsmodell, kein komplettes Produkt. Otter.ai und ScreenApp bieten Aufnahme, Transkription, Zusammenfassung, Suche, Teilen und Integrationen. Voxtral könnte die Transkriptionsebene in diesen Tools antreiben, ersetzt aber nicht den gesamten Workflow.
FAQ
Voxtral Realtime ist unter Apache 2.0 als Open-Weights verfügbar, sodass Sie es kostenlos auf Ihrer eigenen Hardware herunterladen und ausführen können. Die API über Mistrals Plattform kostet 0,003 $ pro Minute für Voxtral Mini Transcribe V2.
Voxtral erreicht niedrigere Wortfehlerraten als Whisper zum halben API-Preis (0,003 $/min vs. 0,006 $/min). Voxtral bietet auch native Sprecherdiarisierung, die Whisper fehlt. Beide können auf dem Gerät laufen.
Als reines Modell ja, aber Sie müssten Ihre eigene Aufnahme- und Wiedergabeoberfläche erstellen. Für einsatzbereite Meeting-Transkription bieten Tools wie ScreenApp, Otter.ai oder Fireflies ein komplettes Erlebnis.
Voxtral Transcribe 2 unterstützt 13 Sprachen: Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.
Das hängt von Ihren Anforderungen ab. On-Device bietet besseren Datenschutz, da Audio Ihre Hardware nie verlässt. Cloud-Transkription ist bequemer und erfordert keine lokalen Rechenressourcen. Für die meisten Einzelpersonen ist Cloud ausreichend. Für regulierte Branchen ist On-Device wertvoll.
Sprecherdiarisierung identifiziert, wer wann in einer Aufnahme gesprochen hat. Statt eines einzigen Textblocks erhalten Sie gelabelte Segmente wie "Sprecher 1: ..." und "Sprecher 2: ...". Voxtral Mini Transcribe V2 und ScreenApp bieten beide diese Funktion.
Nein. Voxtral ist ein Transkriptionsmodell, kein komplettes Produkt. Otter.ai und ScreenApp bieten Aufnahme, Transkription, Zusammenfassung, Suche, Teilen und Integrationen. Voxtral könnte die Transkriptionsebene in diesen Tools antreiben, ersetzt aber nicht den gesamten Workflow.