Voxtral Transcribe 2评测:与Whisper和ScreenApp的比较
Mistral刚刚发布了Voxtral Transcribe 2,语音识别领域变得更加有趣。这个于2026年2月5日发布的新模型家族包括用于批量处理的Voxtral Mini Transcribe V2和用于实时转录的Voxtral Realtime,后者延迟低于200毫秒。凭借Apache 2.0开放权重和每分钟0.003美元的定价,这是转录API市场上最具竞争力的方案。
但基准测试只能展现部分面貌。如果你需要转录会议或录制并转录实时音频,真正重要的是完整体验:真实对话中的准确性、易用性、说话人识别,以及转录之后发生什么。
Voxtral Transcribe 2是什么
Voxtral Transcribe 2是Mistral AI的两个语音识别模型系列。第一个模型Voxtral Mini Transcribe V2处理批量转录。上传最长3小时的音频文件,即可获得带说话人标签、逐词时间戳和专业术语上下文调整的转录文本。支持包括中文在内的13种语言。
第二个模型Voxtral Realtime专为实时转录设计。与按块处理音频的批量模型不同,Realtime采用流式架构,音频到达即刻转录。延迟可配置至200毫秒以下。
Mistral声称Voxtral Mini Transcribe V2在FLEURS基准测试中达到约4%的词错误率,超越GPT-4o mini Transcribe、Gemini 2.5 Flash、AssemblyAI Universal和Deepgram Nova。音频处理速度约为ElevenLabs Scribe v2的3倍,质量相当而成本仅为五分之一。
Voxtral Realtime以Apache 2.0许可证发布。你可以从Hugging Face下载权重并在自有硬件上运行。40亿参数的模型足够紧凑,适合边缘设备。
Voxtral对比Whisper
OpenAI的Whisper自2022年以来一直是标准开源转录模型。large-v3变体仍被广泛使用,OpenAI提供每分钟0.006美元的托管API。
Whisper large-v3在多语言基准测试中报告约10.3%的词错误率,而Voxtral在FLEURS上声称约4%。差距显著,但基准数字应谨慎解读。
Whisper的托管API不包含说话人分离。需要与单独的分离流水线组合。Voxtral在批量模型中原生集成了说话人分离,大大简化了流水线。
价格方面,Whisper API每分钟0.006美元。Voxtral Mini Transcribe V2每分钟0.003美元,恰好一半。Voxtral Realtime每分钟0.006美元,与Whisper持平但提供实时流传输。
Voxtral对比云服务
AssemblyAI提供情感分析和主题检测,每分钟0.222美元。Deepgram Nova起价每分钟0.0043美元。Rev结合AI转录与人工审核,纯AI每分钟0.02美元起。
关键区别:Voxtral是模型,不是平台。它提供转录文本、时间戳和说话人标签,但不提供可搜索的存档、AI摘要或工作流程。
Voxtral对比ScreenApp
在这里,比较从模型转向产品。ScreenApp不是转录模型,而是一个完整的会议和录制平台,将AI转录作为更大工作流程的组成部分。
当你用ScreenApp录制会议时,平台处理整个流水线:录制、带说话人分离的转录、AI生成的摘要、行动项目、可搜索的存档和分享。
ScreenApp直接在浏览器中运行,无需安装软件、无需API密钥、无需维护基础设施。与Zoom、Google Meet、Microsoft Teams等平台集成。
使用ScreenApp,你点击录制,参加会议,其余一切自动完成。AI笔记助手生成结构化笔记。
对比表
| 功能 | Voxtral Mini V2 | Voxtral Realtime | Whisper (API) | ScreenApp |
|---|---|---|---|---|
| 类型 | API / 模型 | API / 开放权重 | API / 开放权重 | Web平台 |
| 价格 | $0.003/分钟 | $0.006/分钟 | $0.006/分钟 | 免费 / $19/月起 |
| 实时 | 否(批量) | 是(低于200ms) | 否(批量) | 是 |
| 说话人分离 | 内置 | 否 | 否(需要流水线) | 内置 |
| 语言 | 13 | 13 | 99+ | 50+ |
| AI摘要 | 否 | 否 | 否 | 是 |
谁应该使用Voxtral
Voxtral Transcribe 2最适合构建语音应用的开发者和工程团队。对于语音代理、实时字幕或呼叫中心自动化,Voxtral以有竞争力的价格提供强大的模型。
需要将会议转录作为工作流程一部分的专业人士,ScreenApp是更好的选择。
大局观
VentureBeat宣布2026年为”笔记之年”。高质量转录的成本在短短两年内下降了一个数量级。Voxtral每分钟0.003美元意味着转录八小时工作日仅需1.44美元。
原始转录正在商品化。差异化在于之后发生的事情:智能摘要、可搜索的存档和无缝共享。
开始使用
要试用Voxtral Transcribe 2,请访问Mistral的音频试验场。
要获得无需设置即可使用的转录,请试用ScreenApp的在线转录生成器。
FAQ
Voxtral Transcribe 2免费吗?
Voxtral Realtime以Apache 2.0开放权重形式提供,可在自有硬件上免费运行。API每分钟0.006美元。Voxtral Mini Transcribe V2仅通过API提供,每分钟0.003美元。
Voxtral比Whisper准确多少?
Mistral报告Voxtral Mini Transcribe V2在FLEURS上约4%词错误率,而Whisper large-v3约10.3%。实际结果取决于音频质量。
Voxtral支持说话人分离吗?
是的,Voxtral Mini Transcribe V2包含内置说话人分离。Voxtral Realtime目前不支持。
我可以用Voxtral转录会议吗?
可以用API转录会议音频,但需要自建录制、存储、摘要和分享的流水线。ScreenApp提供完整的工作流程解决方案。
Voxtral支持哪些语言?
13种语言:英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语。
FAQ
Voxtral Realtime以Apache 2.0开放权重形式提供,可在自有硬件上免费运行。API每分钟0.006美元。Voxtral Mini Transcribe V2仅通过API提供,每分钟0.003美元。
Mistral报告Voxtral Mini Transcribe V2在FLEURS上约4%词错误率,而Whisper large-v3约10.3%。实际结果取决于音频质量。
是的,Voxtral Mini Transcribe V2包含内置说话人分离。Voxtral Realtime目前不支持。
可以用API转录会议音频,但需要自建录制、存储、摘要和分享的流水线。ScreenApp提供完整的工作流程解决方案。
13种语言:英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语。