Voxtral Transcribe 2レビュー:WhisperやScreenAppとの比較
Mistralが Voxtral Transcribe 2をリリースし、音声認識の状況が大きく変わりました。2026年2月5日に公開されたこの新しいモデルファミリーは、バッチ処理用のVoxtral Mini Transcribe V2とライブ文字起こし用のVoxtral Realtimeを含みます。Apache 2.0のオープンウェイトと1分あたり0.003ドルの価格設定で、文字起こしAPIマーケットにおける最も攻めた提案です。
しかし、ベンチマークだけでは全体像は見えません。会議の文字起こしやライブ音声の録音と文字起こしが必要な場合、本当に重要なのは総合的な体験です。実際の会話での精度、使いやすさ、話者識別、そして文字起こし後に何が起こるか。
Voxtral Transcribe 2とは
Voxtral Transcribe 2はMistral AIによる2つの音声認識モデルのファミリーです。1つ目のVoxtral Mini Transcribe V2はバッチ文字起こしを処理します。最大3時間の音声ファイルをアップロードすると、話者ラベル、単語レベルのタイムスタンプ、専門用語のコンテキスト調整付きの文字起こしが得られます。日本語を含む13言語をサポートしています。
2つ目のVoxtral Realtimeは、ライブ文字起こし専用に設計されています。音声をチャンクで処理するバッチモデルとは異なり、Realtimeは音声が到着するとすぐに文字起こしするストリーミングアーキテクチャを使用します。遅延は200ms以下に設定可能です。
MistralはVoxtral Mini Transcribe V2がFLEURSベンチマークで約4%の単語エラー率を達成し、GPT-4o mini Transcribe、Gemini 2.5 Flash、AssemblyAI Universal、Deepgram Novaを上回ると主張しています。ElevenLabs Scribe v2の約3倍の速度で音声を処理し、同等の品質で5分の1のコストです。
Voxtral RealtimeはApache 2.0ライセンスで公開されています。Hugging Faceからウェイトをダウンロードして自社のハードウェアで実行できます。40億パラメータのモデルはエッジデバイスでも動作可能です。
Voxtral vs. Whisper
OpenAIのWhisperは2022年以来、標準的なオープンソース文字起こしモデルです。large-v3バリアントは今でも広く使用されており、OpenAIは1分あたり0.006ドルでマネージドAPIを提供しています。
Whisper large-v3は多言語ベンチマークで約10.3%の単語エラー率を報告していますが、VoxtralはFLEURSで約4%を主張しています。大きな差ですが、ベンチマークの数値は常に慎重に解釈すべきです。
WhisperのマネージドAPIには話者分離が含まれていません。別途ダイアライゼーションパイプライン(pyannoteなど)と組み合わせるか、Whisperにダイアライゼーションを追加したサードパーティサービスを使う必要があります。Voxtralはバッチモデルにダイアライゼーションをネイティブで組み込んでおり、パイプラインを大幅に簡素化します。
価格面では、Whisper APIが1分あたり0.006ドル。Voxtral Mini Transcribe V2は1分あたり0.003ドルで、ちょうど半額です。Voxtral Realtimeは1分あたり0.006ドルで、Whisperのバッチ価格と同等ですがライブストリーミング機能を提供します。
Voxtralのコンテキスト調整機能は注目に値します。最大100の単語やフレーズを指定して、名前、技術用語、専門用語の正しい表記にモデルを誘導できます。WhisperのAPIには同等の機能がありません。
Voxtral vs. クラウドサービス
AssemblyAIは感情分析やトピック検出などの機能を備え、1分あたり0.222ドルで、Voxtralよりかなり高額です。Deepgram Novaは1分あたり0.0043ドルから。RevはAI文字起こしと人間のレビューを組み合わせ、AI単体で1分あたり0.02ドルからです。
重要な違い:Voxtralはモデルであり、プラットフォームではありません。文字起こし、タイムスタンプ、話者ラベルは提供しますが、検索可能なアーカイブ、AI要約、アクションアイテム、ワークフローは提供しません。
Voxtral vs. ScreenApp
ここで比較はモデルから製品へと移ります。ScreenAppは文字起こしモデルではなく、AI文字起こしをより大きなワークフローの一部として使用する完全な会議・録画プラットフォームです。
ScreenAppで会議を録画すると、プラットフォームがパイプライン全体を処理します。録画、話者分離付き文字起こし、AI生成の要約、アクションアイテム、検索可能なアーカイブ、共有まで。
ScreenAppはブラウザで直接動作し、ソフトウェアのインストール不要、APIキー不要、インフラ管理不要です。Zoom、Google Meet、Microsoft Teamsなどと統合します。
音声アプリケーションを構築する開発者にとってVoxtralは素晴らしい選択です。しかし会議の文字起こし、講義ノート、インタビュー記録が必要な専門家にとっては、ScreenAppのような製品がすべての複雑さを解消します。
ScreenAppでは、録画をクリックし、会議に参加するだけで残りはすべて自動です。AIノートアシスタントが構造化されたノートを生成します。
比較表
| 機能 | Voxtral Mini V2 | Voxtral Realtime | Whisper (API) | ScreenApp |
|---|---|---|---|---|
| タイプ | API / モデル | API / オープンウェイト | API / オープンウェイト | Webプラットフォーム |
| 価格 | $0.003/分 | $0.006/分 | $0.006/分 | 無料 / $19/月から |
| リアルタイム | いいえ(バッチ) | はい(200ms以下) | いいえ(バッチ) | はい |
| 話者分離 | 内蔵 | なし | なし(パイプライン必要) | 内蔵 |
| 言語数 | 13 | 13 | 99+ | 50+ |
| AI要約 | なし | なし | なし | あり |
| セルフホスト | 不可(APIのみ) | 可能(Apache 2.0) | 可能(MIT) | 不可 |
誰がVoxtralを使うべきか
Voxtral Transcribe 2は、音声アプリケーションを構築する開発者やエンジニアリングチームに最適です。ボイスエージェント、ライブ字幕システム、コンタクトセンター自動化を構築するなら、Voxtralは競争力のある価格で強力なモデルを提供します。
会議の文字起こしをワークフローの一部として必要とする個人の専門家やチームには、ScreenAppのような製品がより良い選択です。
全体像
VentureBeatは2026年を「ノートテイキングの年」と宣言しました。高品質な文字起こしのコストはわずか2年で桁違いに下がりました。Voxtralの1分あたり0.003ドルは、8時間の労働日の文字起こしが1.44ドルであることを意味します。
生の文字起こしはコモディティ化しています。差別化は文字起こし後に何が起こるかにあります。ScreenAppのようなツールがまさにそこで価値を提供します。
はじめに
Voxtral Transcribe 2を試すには、Mistralのオーディオプレイグラウンドにアクセスしてください。
設定不要ですぐに使える文字起こしなら、ScreenAppのオンライン文字起こしジェネレーターをお試しください。
FAQ
Voxtral Transcribe 2は無料ですか?
Voxtral RealtimeはApache 2.0のオープンウェイトで、自社ハードウェアで無料実行可能です。APIは1分あたり0.006ドルです。Voxtral Mini Transcribe V2はAPI限定で1分あたり0.003ドルです。
VoxtralはWhisperと比べてどのくらい正確ですか?
MistralはFLEURSベンチマークでVoxtral Mini Transcribe V2が約4%の単語エラー率、Whisper large-v3が約10.3%と報告しています。実際の結果は音声品質に依存します。
Voxtralは話者分離をサポートしていますか?
はい、Voxtral Mini Transcribe V2は話者ごとの正確な開始・終了時間を含む内蔵の話者分離を備えています。Voxtral Realtimeは現在、話者分離をサポートしていません。
Voxtralを会議の文字起こしに使えますか?
APIを使って会議音声を文字起こしできますが、録画、保存、要約、共有のためのパイプラインは自分で構築する必要があります。包括的なソリューションには、ScreenAppのようなツールがワークフロー全体を処理します。
Voxtralは何語をサポートしていますか?
英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語の13言語をサポートしています。
FAQ
Voxtral RealtimeはApache 2.0のオープンウェイトで、自社ハードウェアで無料実行可能です。APIは1分あたり0.006ドルです。Voxtral Mini Transcribe V2はAPI限定で1分あたり0.003ドルです。
MistralはFLEURSベンチマークでVoxtral Mini Transcribe V2が約4%の単語エラー率、Whisper large-v3が約10.3%と報告しています。実際の結果は音声品質に依存します。
はい、Voxtral Mini Transcribe V2は話者ごとの正確な開始・終了時間を含む内蔵の話者分離を備えています。Voxtral Realtimeは現在、話者分離をサポートしていません。
APIを使って会議音声を文字起こしできますが、録画、保存、要約、共有のためのパイプラインは自分で構築する必要があります。包括的なソリューションには、ScreenAppのようなツールがワークフロー全体を処理します。
英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語の13言語をサポートしています。