Voxtral Transcribe 2: Comparação com Whisper e ScreenApp
A Mistral lançou o Voxtral Transcribe 2 e o cenário do reconhecimento de voz ficou muito mais interessante. Lançada em 5 de fevereiro de 2026, esta nova família de modelos inclui o Voxtral Mini Transcribe V2 para processamento em lote e o Voxtral Realtime para transcrição ao vivo com latência inferior a 200ms. Com pesos abertos sob Apache 2.0 e preço de $0,003 por minuto, é a proposta mais agressiva no mercado de APIs de transcrição.
Mas benchmarks contam apenas parte da história. Se você precisa transcrever reuniões ou gravar e transcrever áudio ao vivo, o que realmente importa é a experiência completa: precisão em conversas reais, facilidade de uso, identificação de falantes e o que acontece depois da transcrição.
O que é o Voxtral Transcribe 2
O Voxtral Transcribe 2 é uma família de dois modelos de reconhecimento de voz da Mistral AI. O primeiro, Voxtral Mini Transcribe V2, lida com transcrição em lote. Você envia um arquivo de áudio (até 3 horas) e recebe uma transcrição com rótulos de falantes, timestamps por palavra e ajuste contextual para terminologia especializada. Suporta 13 idiomas incluindo português, inglês, espanhol, francês, alemão, japonês, coreano, chinês, hindi, árabe, russo, italiano e holandês.
O segundo modelo, Voxtral Realtime, foi projetado especificamente para transcrição ao vivo. Diferente dos modelos em lote que processam áudio em pedaços, o Realtime usa uma arquitetura de streaming que transcreve o áudio conforme ele chega. A latência é configurável abaixo de 200ms.
A Mistral afirma que o Voxtral Mini Transcribe V2 alcança aproximadamente 4% de taxa de erro por palavra no benchmark FLEURS, superando GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal e Deepgram Nova. Processa áudio cerca de 3x mais rápido que o ElevenLabs Scribe v2, com qualidade equivalente a um quinto do custo.
O Voxtral Realtime é lançado sob licença Apache 2.0. Você pode baixar os pesos do Hugging Face e executar em seu próprio hardware. Com 4 bilhões de parâmetros, funciona em dispositivos de borda.
Voxtral vs. Whisper
O Whisper da OpenAI é o modelo de transcrição open-source padrão desde 2022. A variante large-v3 continua amplamente utilizada, e a OpenAI oferece uma API gerenciada a $0,006 por minuto.
O Whisper large-v3 reporta aproximadamente 10,3% de taxa de erro por palavra em benchmarks multilíngues, enquanto o Voxtral reivindica cerca de 4% no FLEURS. É uma diferença significativa, embora números de benchmarks devam sempre ser interpretados com cautela.
A API gerenciada do Whisper não inclui diarização de falantes. É necessário combiná-la com um pipeline de diarização separado. O Voxtral inclui diarização nativamente no modelo em lote, simplificando consideravelmente o pipeline.
No preço, a API do Whisper custa $0,006 por minuto. O Voxtral Mini Transcribe V2 custa $0,003 por minuto, exatamente a metade. O Voxtral Realtime custa $0,006 por minuto, igualando o Whisper mas oferecendo streaming ao vivo.
Voxtral vs. Serviços Cloud
O AssemblyAI oferece boa precisão com análise de sentimento e detecção de tópicos por $0,222 por minuto. O Deepgram Nova começa em $0,0043 por minuto. O Rev combina transcrição de IA com revisão humana a partir de $0,02 por minuto.
A diferença chave: o Voxtral é um modelo, não uma plataforma. Ele fornece transcrição, timestamps e rótulos de falantes. Não oferece arquivo pesquisável, resumos de IA ou fluxo de trabalho em torno da transcrição.
Voxtral vs. ScreenApp
Aqui a comparação muda de modelos para produtos. O ScreenApp não é um modelo de transcrição, mas uma plataforma completa de reuniões e gravações que usa transcrição de IA como componente de um fluxo de trabalho mais amplo.
Quando você grava uma reunião com o ScreenApp, a plataforma cuida de todo o pipeline: gravação, transcrição com diarização de falantes, resumos gerados por IA, itens de ação, arquivo pesquisável e compartilhamento.
O ScreenApp funciona diretamente no navegador sem instalação de software, sem chaves de API e sem infraestrutura para manter. Integra-se com Zoom, Google Meet, Microsoft Teams e outras plataformas.
Com o ScreenApp, você clica em gravar, participa da reunião, e o resto acontece automaticamente. O assistente de notas IA gera notas estruturadas. A transcrição é pesquisável.
Tabela Comparativa
| Recurso | Voxtral Mini V2 | Voxtral Realtime | Whisper (API) | ScreenApp |
|---|---|---|---|---|
| Tipo | API / Modelo | API / Pesos abertos | API / Pesos abertos | Plataforma web |
| Preço | $0,003/min | $0,006/min | $0,006/min | Grátis / a partir de $19/mês |
| Tempo real | Não (lote) | Sim (abaixo de 200ms) | Não (lote) | Sim |
| Diarização | Integrada | Não | Não (pipeline necessário) | Integrada |
| Idiomas | 13 | 13 | 99+ | 50+ |
| Resumos IA | Não | Não | Não | Sim |
Quem deve usar o Voxtral
O Voxtral Transcribe 2 é ideal para desenvolvedores e equipes de engenharia que constroem aplicações baseadas em voz. Para agentes de voz, legendas ao vivo ou automação de contact centers, o Voxtral oferece um modelo sólido a preço competitivo.
Para profissionais que precisam de transcrição de reuniões como parte do fluxo de trabalho, um produto como o ScreenApp é a melhor escolha.
O Panorama Geral
A VentureBeat declarou 2026 como “o ano das anotações.” O custo da transcrição de qualidade caiu uma ordem de grandeza em apenas dois anos. O Voxtral a $0,003 por minuto significa que transcrever um dia de trabalho de oito horas custa $1,44.
A transcrição bruta está se tornando uma commodity. A diferenciação está no que vem depois: resumos inteligentes, arquivos pesquisáveis e compartilhamento fluido.
Para Começar
Para experimentar o Voxtral Transcribe 2, visite o playground de áudio da Mistral.
Para transcrição que funciona imediatamente sem configuração, experimente o gerador de transcrições online do ScreenApp.
FAQ
O Voxtral Transcribe 2 é gratuito?
O Voxtral Realtime está disponível como pesos abertos sob Apache 2.0 e pode ser executado gratuitamente em hardware próprio. A API custa $0,006 por minuto. O Voxtral Mini Transcribe V2 é apenas API a $0,003 por minuto.
Qual a precisão do Voxtral comparado ao Whisper?
A Mistral reporta aproximadamente 4% de taxa de erro por palavra no FLEURS para o Voxtral Mini Transcribe V2, contra aproximadamente 10,3% para o Whisper large-v3.
O Voxtral suporta diarização de falantes?
Sim, o Voxtral Mini Transcribe V2 inclui diarização integrada. O Voxtral Realtime atualmente não suporta diarização.
Posso usar o Voxtral para transcrever reuniões?
Você pode usar a API para transcrever áudio de reuniões, mas precisará construir seu próprio pipeline para gravação, armazenamento, resumo e compartilhamento. Para uma solução completa, o ScreenApp cuida de todo o fluxo de trabalho.
Quais idiomas o Voxtral suporta?
13 idiomas: inglês, chinês, hindi, espanhol, árabe, francês, português, russo, alemão, japonês, coreano, italiano e holandês.
FAQ
O Voxtral Realtime está disponível como pesos abertos sob Apache 2.0 e pode ser executado gratuitamente em hardware próprio. A API custa $0,006 por minuto. O Voxtral Mini Transcribe V2 é apenas API a $0,003 por minuto.
A Mistral reporta aproximadamente 4% de taxa de erro por palavra no FLEURS para o Voxtral Mini Transcribe V2, contra aproximadamente 10,3% para o Whisper large-v3.
Sim, o Voxtral Mini Transcribe V2 inclui diarização integrada. O Voxtral Realtime atualmente não suporta diarização.
Você pode usar a API para transcrever áudio de reuniões, mas precisará construir seu próprio pipeline para gravação, armazenamento, resumo e compartilhamento. Para uma solução completa, o ScreenApp cuida de todo o fluxo de trabalho.
13 idiomas: inglês, chinês, hindi, espanhol, árabe, francês, português, russo, alemão, japonês, coreano, italiano e holandês.