Voxtral Transcribe 2 Review: Vergelijking met Whisper en ScreenApp
Mistral heeft Voxtral Transcribe 2 uitgebracht en het spraakherkenningslandschap is aanzienlijk veranderd. Uitgebracht op 5 februari 2026, bevat deze nieuwe modelfamilie Voxtral Mini Transcribe V2 voor batchverwerking en Voxtral Realtime voor live transcriptie met latentie onder 200ms. Met open gewichten onder Apache 2.0 en een prijs van $0,003 per minuut is het de meest agressieve zet op de transcriptie-API-markt.
Maar benchmarks vertellen slechts een deel van het verhaal. Als je vergaderingen moet transcriberen of live audio moet opnemen en transcriberen, telt de volledige ervaring: nauwkeurigheid in echte gesprekken, gebruiksgemak, sprekeridentificatie en wat er na de transcriptie gebeurt.
Wat is Voxtral Transcribe 2
Voxtral Transcribe 2 is een familie van twee spraakherkenningsmodellen van Mistral AI. Het eerste model, Voxtral Mini Transcribe V2, verwerkt batchtranscripties. Je uploadt een audiobestand (tot 3 uur) en ontvangt een transcriptie met sprekerlabels, woordniveau-timestamps en contextaanpassing voor vakspecifieke terminologie. Het ondersteunt 13 talen waaronder Nederlands, Engels, Spaans, Frans, Duits, Japans, Koreaans, Chinees, Hindi, Arabisch, Portugees, Russisch en Italiaans.
Het tweede model, Voxtral Realtime, is speciaal ontworpen voor live transcriptie. In tegenstelling tot batchmodellen die audio in stukken verwerken, gebruikt Realtime een streaming-architectuur die audio transcribeert zodra het binnenkomt. De latentie is configureerbaar tot onder 200ms.
Mistral claimt dat Voxtral Mini Transcribe V2 ongeveer 4% woordfoutenpercentage behaalt op de FLEURS-benchmark, beter dan GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal en Deepgram Nova. Het verwerkt audio ongeveer 3x sneller dan ElevenLabs Scribe v2, met gelijke kwaliteit tegen een vijfde van de kosten.
Voxtral Realtime wordt uitgebracht onder de Apache 2.0-licentie. Je kunt de gewichten downloaden van Hugging Face en op eigen hardware draaien. Met 4 miljard parameters is het compact genoeg voor edge-apparaten.
Voxtral vs. Whisper
OpenAI’s Whisper is sinds 2022 het standaard open-source transcriptiemodel. De large-v3 variant wordt nog breed gebruikt, en OpenAI biedt een beheerde API aan voor $0,006 per minuut.
Whisper large-v3 rapporteert ongeveer 10,3% woordfoutenpercentage op meertalige benchmarks, terwijl Voxtral ongeveer 4% claimt op FLEURS. Een significant verschil, hoewel benchmarkcijfers altijd met enige voorzichtigheid moeten worden geïnterpreteerd.
Whispers beheerde API bevat geen sprekerdiarisatie. Je moet het combineren met een aparte diarisatiepipeline. Voxtral bevat diarisatie standaard in het batchmodel, wat de pipeline aanzienlijk vereenvoudigt.
Qua prijs kost Whispers API $0,006 per minuut. Voxtral Mini Transcribe V2 kost $0,003 per minuut, precies de helft. Voxtral Realtime kost $0,006 per minuut, gelijk aan Whisper maar met live streaming.
Voxtral vs. Clouddiensten
AssemblyAI biedt goede nauwkeurigheid met sentimentanalyse en onderwerpdetectie voor $0,222 per minuut. Deepgram Nova start vanaf $0,0043 per minuut. Rev combineert AI-transcriptie met menselijke controle vanaf $0,02 per minuut.
Het belangrijkste verschil: Voxtral is een model, geen platform. Het geeft je een transcriptie, timestamps en sprekerlabels. Geen doorzoekbaar archief, AI-samenvattingen of werkstroom rondom de transcriptie.
Voxtral vs. ScreenApp
Hier verschuift de vergelijking van modellen naar producten. ScreenApp is geen transcriptiemodel maar een compleet vergader- en opnameplatform dat AI-transcriptie gebruikt als onderdeel van een bredere werkstroom.
Wanneer je een vergadering opneemt met ScreenApp, handelt het platform de hele pipeline af: opname, transcriptie met sprekerdiarisatie, AI-gegenereerde samenvattingen, actiepunten, doorzoekbaar archief en delen.
ScreenApp werkt direct in je browser zonder software-installatie, zonder API-sleutels en zonder infrastructuurbeheer. Het integreert met Zoom, Google Meet, Microsoft Teams en andere platforms.
Met ScreenApp klik je op opnemen, neem je deel aan je vergadering, en de rest gaat automatisch. De AI-notitie-assistent genereert gestructureerde notities. De transcriptie is doorzoekbaar.
Vergelijkingstabel
| Functie | Voxtral Mini V2 | Voxtral Realtime | Whisper (API) | ScreenApp |
|---|---|---|---|---|
| Type | API / Model | API / Open gewichten | API / Open gewichten | Webplatform |
| Prijs | $0,003/min | $0,006/min | $0,006/min | Gratis / vanaf $19/mnd |
| Realtime | Nee (batch) | Ja (onder 200ms) | Nee (batch) | Ja |
| Diarisatie | Ingebouwd | Nee | Nee (pipeline nodig) | Ingebouwd |
| Talen | 13 | 13 | 99+ | 50+ |
| AI-samenvattingen | Nee | Nee | Nee | Ja |
Wie moet Voxtral gebruiken
Voxtral Transcribe 2 is het meest geschikt voor ontwikkelaars en engineeringteams die spraakgestuurde applicaties bouwen. Voor een voice agent, live ondertiteling of callcenterautomatisering biedt Voxtral een sterk model tegen een concurrerende prijs.
Voor professionals die vergadertranscriptie nodig hebben als onderdeel van hun werkstroom, is een product als ScreenApp de betere keuze.
Het grotere plaatje
VentureBeat riep 2026 uit tot “het jaar van notities maken.” De kosten van kwalitatieve transcriptie zijn in slechts twee jaar met een orde van grootte gedaald. Voxtral voor $0,003 per minuut betekent dat het transcriberen van een werkdag van acht uur $1,44 kost.
Ruwe transcriptie wordt een commodity. Het verschil zit in wat er daarna gebeurt: intelligente samenvattingen, doorzoekbare archieven en naadloos delen.
Aan de slag
Om Voxtral Transcribe 2 te proberen, bezoek Mistrals audio playground.
Voor transcriptie die direct werkt zonder configuratie, probeer ScreenApps online transcriptiegenerator.
FAQ
Is Voxtral Transcribe 2 gratis?
Voxtral Realtime is beschikbaar als open gewichten onder Apache 2.0 en kan gratis op eigen hardware worden gedraaid. De API kost $0,006 per minuut. Voxtral Mini Transcribe V2 is alleen beschikbaar via API voor $0,003 per minuut.
Hoe nauwkeurig is Voxtral vergeleken met Whisper?
Mistral rapporteert ongeveer 4% woordfoutenpercentage op FLEURS voor Voxtral Mini Transcribe V2, vergeleken met ongeveer 10,3% voor Whisper large-v3.
Ondersteunt Voxtral sprekerdiarisatie?
Ja, Voxtral Mini Transcribe V2 bevat ingebouwde sprekerdiarisatie. Voxtral Realtime ondersteunt momenteel geen diarisatie.
Kan ik Voxtral gebruiken voor vergadertranscriptie?
Je kunt de API gebruiken om vergaderaudio te transcriberen, maar je moet zelf een pipeline bouwen voor opname, opslag, samenvatting en delen. Voor een complete oplossing handelt ScreenApp de hele werkstroom af.
Welke talen ondersteunt Voxtral?
13 talen: Engels, Chinees, Hindi, Spaans, Arabisch, Frans, Portugees, Russisch, Duits, Japans, Koreaans, Italiaans en Nederlands.
FAQ
Voxtral Realtime is beschikbaar als open gewichten onder Apache 2.0 en kan gratis op eigen hardware worden gedraaid. De API kost $0,006 per minuut. Voxtral Mini Transcribe V2 is alleen beschikbaar via API voor $0,003 per minuut.
Mistral rapporteert ongeveer 4% woordfoutenpercentage op FLEURS voor Voxtral Mini Transcribe V2, vergeleken met ongeveer 10,3% voor Whisper large-v3.
Ja, Voxtral Mini Transcribe V2 bevat ingebouwde sprekerdiarisatie. Voxtral Realtime ondersteunt momenteel geen diarisatie.
Je kunt de API gebruiken om vergaderaudio te transcriberen, maar je moet zelf een pipeline bouwen voor opname, opslag, samenvatting en delen. Voor een complete oplossing handelt ScreenApp de hele werkstroom af.
13 talen: Engels, Chinees, Hindi, Spaans, Arabisch, Frans, Portugees, Russisch, Duits, Japans, Koreaans, Italiaans en Nederlands.