· 6 min read

Voxtral Transcribe 2: Perbandingan dengan Whisper dan ScreenApp

Voxtral Transcribe 2: Perbandingan dengan Whisper dan ScreenApp

Mistral baru saja merilis Voxtral Transcribe 2 dan lanskap pengenalan suara semakin menarik. Dirilis pada 5 Februari 2026, keluarga model baru ini mencakup Voxtral Mini Transcribe V2 untuk pemrosesan batch dan Voxtral Realtime untuk transkripsi langsung dengan latensi di bawah 200ms. Dengan bobot terbuka di bawah Apache 2.0 dan harga $0,003 per menit, ini adalah penawaran paling agresif di pasar API transkripsi.

Tapi benchmark hanya menceritakan sebagian cerita. Jika Anda perlu mentranskripsi rapat atau merekam dan mentranskripsi audio langsung, yang benar-benar penting adalah pengalaman lengkap: akurasi dalam percakapan nyata, kemudahan penggunaan, identifikasi pembicara, dan apa yang terjadi setelah transkripsi selesai.

Apa Itu Voxtral Transcribe 2

Voxtral Transcribe 2 adalah keluarga dua model pengenalan suara dari Mistral AI. Model pertama, Voxtral Mini Transcribe V2, menangani transkripsi batch. Anda mengunggah file audio (hingga 3 jam) dan mendapatkan transkripsi dengan label pembicara, timestamp per kata, dan penyesuaian konteks untuk terminologi khusus. Mendukung 13 bahasa termasuk Indonesia, Inggris, Spanyol, Prancis, Jerman, Jepang, Korea, Mandarin, Hindi, Arab, Portugis, Rusia, dan Italia.

Model kedua, Voxtral Realtime, dirancang khusus untuk transkripsi langsung. Berbeda dengan model batch yang memproses audio dalam potongan, Realtime menggunakan arsitektur streaming yang mentranskripsi audio saat datang. Latensi dapat dikonfigurasi di bawah 200ms.

Mistral mengklaim Voxtral Mini Transcribe V2 mencapai sekitar 4% tingkat kesalahan kata pada benchmark FLEURS, mengungguli GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal, dan Deepgram Nova. Pemrosesan audio sekitar 3x lebih cepat dari ElevenLabs Scribe v2 dengan kualitas setara dan seperlima biaya.

Voxtral Realtime dirilis di bawah lisensi Apache 2.0, artinya Anda bisa mengunduh bobot dari Hugging Face dan menjalankannya di perangkat sendiri. Model 4B parameter cukup ringkas untuk perangkat edge.

Voxtral vs. Whisper

Whisper dari OpenAI telah menjadi model transkripsi open-source standar sejak 2022. Varian large-v3 masih banyak digunakan, dan OpenAI menawarkan API terkelola seharga $0,006 per menit.

Whisper large-v3 melaporkan sekitar 10,3% tingkat kesalahan kata pada benchmark multibahasa, sementara Voxtral mengklaim sekitar 4% pada FLEURS. Ini perbedaan signifikan, meskipun angka benchmark selalu harus dilihat dengan hati-hati.

API Whisper tidak menyertakan diarisasi pembicara. Anda perlu menggabungkannya dengan pipeline diarisasi terpisah. Voxtral menyertakan diarisasi secara native di model batch, menyederhanakan pipeline secara signifikan.

Dari segi harga, API Whisper $0,006 per menit. Voxtral Mini Transcribe V2 $0,003 per menit, tepat setengahnya. Voxtral Realtime $0,006 per menit, setara dengan Whisper tetapi menawarkan streaming langsung.

Fitur penyesuaian konteks Voxtral patut dicatat. Anda bisa memberikan hingga 100 kata atau frasa untuk mengarahkan model ke ejaan yang benar untuk nama, istilah teknis, atau jargon. Whisper tidak menawarkan hal serupa melalui API-nya.

Voxtral vs. Layanan Cloud

AssemblyAI menawarkan akurasi kuat dengan fitur seperti analisis sentimen dan deteksi topik, dengan harga $0,222 per menit, jauh lebih mahal dari Voxtral. Deepgram Nova mulai dari $0,0043 per menit. Rev menggabungkan transkripsi AI dengan opsi tinjauan manusia dari $0,02 per menit.

Perbedaan kunci: Voxtral adalah model, bukan platform. Ia memberikan transkripsi, timestamp, dan label pembicara. Tidak ada arsip yang bisa dicari, ringkasan AI, item tindakan, atau alur kerja di sekitar transkripsi.

Voxtral vs. ScreenApp

Di sinilah perbandingan bergeser dari model ke produk. ScreenApp bukan model transkripsi, melainkan platform rapat dan rekaman lengkap yang menggunakan transkripsi AI sebagai komponen alur kerja yang lebih besar.

Saat Anda merekam rapat dengan ScreenApp, platform menangani seluruh pipeline: rekaman, transkripsi dengan diarisasi pembicara, ringkasan AI, item tindakan, arsip yang bisa dicari, dan berbagi. Anda tidak perlu memikirkan model apa yang berjalan di belakang.

ScreenApp bekerja langsung di browser tanpa instalasi software, tanpa kunci API, dan tanpa infrastruktur yang perlu dikelola. Terintegrasi dengan Zoom, Google Meet, Microsoft Teams, dan platform lainnya.

Untuk developer yang membangun aplikasi suara, Voxtral sangat menarik. Tapi untuk profesional yang membutuhkan transkripsi rapat, catatan kuliah, atau rekaman wawancara, produk seperti ScreenApp menghilangkan semua kompleksitas.

Contoh praktis: menggunakan API Voxtral untuk mentranskripsi rapat satu jam menghasilkan teks dengan label dan timestamp. Total biaya: $0,18. Tapi kemudian Anda perlu menyimpannya, membuatnya bisa dicari, membuat ringkasan, mengekstrak tugas, dan membagikannya. Setiap langkah membutuhkan alat tambahan.

Dengan ScreenApp, Anda klik rekam, ikuti rapat, dan sisanya otomatis. Asisten catatan AI menghasilkan catatan terstruktur. Transkripsi bisa dicari. Anda bisa membagikan tautan ke tim.

Tabel Perbandingan

Fitur Voxtral Mini V2 Voxtral Realtime Whisper (API) ScreenApp
Tipe API / Model API / Bobot terbuka API / Bobot terbuka Platform web
Harga $0,003/mnt $0,006/mnt $0,006/mnt Gratis / mulai $19/bln
Real-time Tidak (batch) Ya (di bawah 200ms) Tidak (batch) Ya
Diarisasi Bawaan Tidak Tidak (perlu pipeline) Bawaan
Bahasa 13 13 99+ 50+
Ringkasan AI Tidak Tidak Tidak Ya
Self-host Tidak (API saja) Ya (Apache 2.0) Ya (MIT) Tidak

Siapa yang Harus Menggunakan Voxtral

Voxtral Transcribe 2 paling cocok untuk developer dan tim engineering yang membangun aplikasi berbasis suara. Untuk agen suara, sistem subtitle langsung, atau otomatisasi pusat kontak, Voxtral menawarkan model yang kuat dengan harga kompetitif.

Bobot terbuka Voxtral Realtime sangat berharga untuk deployment yang sensitif terhadap privasi. Aplikasi kesehatan, hukum, dan keuangan yang tidak bisa mengirim audio ke API pihak ketiga bisa menjalankan model di infrastruktur sendiri.

Untuk profesional yang membutuhkan transkripsi rapat sebagai bagian dari alur kerja, produk seperti ScreenApp adalah pilihan yang lebih baik. Anda mendapat transkripsi plus semua yang mengikutinya: ringkasan, catatan, pencarian, dan kolaborasi.

Gambaran Besar

VentureBeat menyebut 2026 sebagai “tahun pencatatan.” Biaya transkripsi berkualitas tinggi telah turun satu orde magnitudo dalam dua tahun saja. Voxtral seharga $0,003 per menit berarti mentranskripsi hari kerja delapan jam hanya $1,44.

Transkripsi mentah menjadi komoditas. Diferensiasinya ada pada apa yang terjadi setelahnya: ringkasan cerdas, arsip yang bisa dicari, tindak lanjut otomatis, dan berbagi yang mulus. Di situlah alat seperti ScreenApp memberikan nilai.

Untuk Memulai

Untuk mencoba Voxtral Transcribe 2, kunjungi playground audio Mistral.

Untuk transkripsi yang langsung berfungsi tanpa pengaturan, coba generator transkripsi online ScreenApp. Unggah file audio atau video apa pun, atau rekam langsung di browser Anda.

FAQ

Apakah Voxtral Transcribe 2 gratis?

Voxtral Realtime tersedia sebagai bobot terbuka di bawah Apache 2.0 dan bisa dijalankan gratis di perangkat sendiri. API-nya $0,006 per menit. Voxtral Mini Transcribe V2 hanya tersedia melalui API seharga $0,003 per menit.

Seberapa akurat Voxtral dibandingkan Whisper?

Mistral melaporkan sekitar 4% tingkat kesalahan kata pada FLEURS untuk Voxtral Mini Transcribe V2, dibandingkan sekitar 10,3% untuk Whisper large-v3. Hasil nyata tergantung kualitas audio.

Apakah Voxtral mendukung diarisasi pembicara?

Ya, Voxtral Mini Transcribe V2 menyertakan diarisasi bawaan dengan waktu mulai dan selesai yang tepat untuk setiap pembicara. Voxtral Realtime saat ini tidak mendukung diarisasi.

Bisakah saya menggunakan Voxtral untuk transkripsi rapat?

Anda bisa menggunakan API untuk mentranskripsi audio rapat, tapi perlu membangun pipeline sendiri untuk rekaman, penyimpanan, ringkasan, dan berbagi. Untuk solusi lengkap, alat seperti ScreenApp menangani seluruh alur kerja.

Bahasa apa saja yang didukung Voxtral?

Voxtral mendukung 13 bahasa: Inggris, Mandarin, Hindi, Spanyol, Arab, Prancis, Portugis, Rusia, Jerman, Jepang, Korea, Italia, dan Belanda.

FAQ

Apakah Voxtral Transcribe 2 gratis?

Voxtral Realtime tersedia sebagai bobot terbuka di bawah Apache 2.0 dan bisa dijalankan gratis di perangkat sendiri. API-nya $0,006 per menit. Voxtral Mini Transcribe V2 hanya tersedia melalui API seharga $0,003 per menit.

Seberapa akurat Voxtral dibandingkan Whisper?

Mistral melaporkan sekitar 4% tingkat kesalahan kata pada FLEURS untuk Voxtral Mini Transcribe V2, dibandingkan sekitar 10,3% untuk Whisper large-v3. Hasil nyata tergantung kualitas audio.

Apakah Voxtral mendukung diarisasi pembicara?

Ya, Voxtral Mini Transcribe V2 menyertakan diarisasi bawaan dengan waktu mulai dan selesai yang tepat untuk setiap pembicara. Voxtral Realtime saat ini tidak mendukung diarisasi.

Bisakah saya menggunakan Voxtral untuk transkripsi rapat?

Anda bisa menggunakan API untuk mentranskripsi audio rapat, tapi perlu membangun pipeline sendiri untuk rekaman, penyimpanan, ringkasan, dan berbagi. Untuk solusi lengkap, alat seperti ScreenApp menangani seluruh alur kerja.

Bahasa apa saja yang didukung Voxtral?

Voxtral mendukung 13 bahasa: Inggris, Mandarin, Hindi, Spanyol, Arab, Prancis, Portugis, Rusia, Jerman, Jepang, Korea, Italia, dan Belanda.

User
User
User
Bergabung dengan 2,147,483+ pengguna

Temukan Lebih Banyak Wawasan

Jelajahi blog kami untuk tips produktivitas, wawasan teknologi, dan solusi perangkat lunak yang lebih banyak.

Try ScreenApp Free

Start recording in 60 seconds • Tidak perlu kartu kredit