Voxtral Transcribe 2 İnceleme: Whisper ve ScreenApp ile Karşılaştırma
Mistral, Voxtral Transcribe 2’yi yayınladı ve konuşma tanıma alanı çok daha ilgi çekici hale geldi. 5 Şubat 2026’da yayınlanan bu yeni model ailesi, toplu işleme için Voxtral Mini Transcribe V2’yi ve 200ms altı gecikmeyle canlı transkripsiyon için Voxtral Realtime’ı içeriyor. Apache 2.0 altında açık ağırlıklar ve dakikada $0,003 fiyatıyla transkripsiyon API pazarındaki en agresif hamle.
Ancak karşılaştırma ölçütleri hikayenin sadece bir kısmını anlatır. Toplantıları yazıya dökmeniz veya canlı ses kaydedip yazıya dökmeniz gerekiyorsa, gerçekten önemli olan tam deneyimdir: gerçek konuşmalardaki doğruluk, kullanım kolaylığı, konuşmacı tanımlama ve transkripsiyon sonrası ne olduğu.
Voxtral Transcribe 2 Nedir
Voxtral Transcribe 2, Mistral AI tarafından oluşturulan iki konuşma tanıma modelinden oluşan bir ailedir. İlk model Voxtral Mini Transcribe V2, toplu transkripsiyon işler. 3 saate kadar ses dosyası yüklersiniz ve konuşmacı etiketleri, kelime düzeyinde zaman damgaları ve uzmanlık terminolojisi için bağlam ayarlaması içeren bir transkript alırsınız. 13 dili destekler.
İkinci model Voxtral Realtime, canlı transkripsiyon için özel olarak tasarlanmıştır. Sesi parçalar halinde işleyen toplu modellerden farklı olarak, Realtime sesi geldiği anda yazıya döken bir akış mimarisi kullanır. Gecikme 200ms altına yapılandırılabilir.
Mistral, Voxtral Mini Transcribe V2’nin FLEURS karşılaştırmasında yaklaşık %4 kelime hata oranına ulaştığını ve GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal ve Deepgram Nova’yı geçtiğini iddia ediyor. Sesi ElevenLabs Scribe v2’den yaklaşık 3 kat daha hızlı işliyor, aynı kalitede ve beşte bir maliyetle.
Voxtral Realtime, Apache 2.0 lisansı altında yayınlanıyor. Ağırlıkları Hugging Face’den indirip kendi donanımınızda çalıştırabilirsiniz.
Voxtral vs. Whisper
OpenAI’nin Whisper’ı 2022’den beri standart açık kaynak transkripsiyon modelidir. large-v3 varyantı hala yaygın olarak kullanılıyor ve OpenAI dakikada $0,006’dan yönetilen API sunuyor.
Whisper large-v3, çok dilli karşılaştırmalarda yaklaşık %10,3 kelime hata oranı bildirirken, Voxtral FLEURS’ta yaklaşık %4 iddia ediyor. Önemli bir fark, ancak karşılaştırma rakamları her zaman dikkatle yorumlanmalıdır.
Whisper’ın yönetilen API’si konuşmacı ayrımı içermiyor. Ayrı bir diarizasyon boru hattıyla birleştirmeniz gerekiyor. Voxtral, toplu modelde diarizasyonu yerel olarak içeriyor.
Fiyat olarak Whisper API dakikada $0,006. Voxtral Mini Transcribe V2 dakikada $0,003, tam yarısı. Voxtral Realtime dakikada $0,006, Whisper’a eşit ama canlı akış sunuyor.
Voxtral vs. Bulut Hizmetleri
AssemblyAI dakikada $0,222’den duygu analizi ve konu tespiti sunuyor. Deepgram Nova dakikada $0,0043’ten başlıyor. Rev AI transkripsiyon ve insan incelemesini dakikada $0,02’den birleştiriyor.
Temel fark: Voxtral bir model, platform değil. Transkript, zaman damgaları ve konuşmacı etiketleri verir. Aranabilir arşiv, yapay zeka özetleri veya iş akışı sağlamaz.
Voxtral vs. ScreenApp
Burada karşılaştırma modellerden ürünlere geçiyor. ScreenApp bir transkripsiyon modeli değil, yapay zeka transkripsiyonunu daha geniş bir iş akışının parçası olarak kullanan eksiksiz bir toplantı ve kayıt platformudur.
ScreenApp ile toplantı kaydettiğinizde, platform tüm boru hattını yönetir: kayıt, konuşmacı ayrımı ile transkripsiyon, yapay zeka tarafından oluşturulan özetler, eylem öğeleri, aranabilir arşiv ve paylaşım.
ScreenApp doğrudan tarayıcınızda çalışır, yazılım kurulumu, API anahtarları veya altyapı yönetimi gerektirmez. Zoom, Google Meet, Microsoft Teams ve diğer platformlarla entegre olur.
ScreenApp ile kaydet’e tıklarsınız, toplantıya katılırsınız ve geri kalanı otomatik olur. Yapay zeka not asistanı yapılandırılmış notlar oluşturur.
Karşılaştırma Tablosu
| Özellik | Voxtral Mini V2 | Voxtral Realtime | Whisper (API) | ScreenApp |
|---|---|---|---|---|
| Tür | API / Model | API / Açık ağırlıklar | API / Açık ağırlıklar | Web platformu |
| Fiyat | $0,003/dk | $0,006/dk | $0,006/dk | Ücretsiz / $19/aydan |
| Gerçek zamanlı | Hayır (toplu) | Evet (200ms altı) | Hayır (toplu) | Evet |
| Diarizasyon | Yerleşik | Hayır | Hayır (boru hattı gerekli) | Yerleşik |
| Diller | 13 | 13 | 99+ | 50+ |
| Yapay zeka özetleri | Hayır | Hayır | Hayır | Evet |
Voxtral’ı Kim Kullanmalı
Voxtral Transcribe 2, sesli uygulamalar geliştiren yazılımcılar ve mühendislik ekipleri için en uygunudur. Ses ajanları, canlı altyazı veya çağrı merkezi otomasyonu için rekabetçi fiyata güçlü bir model sunar.
Toplantı transkripsiyonuna ihtiyaç duyan profesyoneller için ScreenApp gibi bir ürün daha iyi bir seçimdir.
Büyük Resim
VentureBeat, 2026’yı “not tutma yılı” ilan etti. Kaliteli transkripsiyon maliyeti sadece iki yılda bir büyüklük sırası düştü. Voxtral dakikada $0,003, sekiz saatlik bir iş gününün transkripsiyonunun $1,44’a mal olduğu anlamına geliyor.
Ham transkripsiyon bir meta haline geliyor. Fark, sonrasında olan şeylerde: akıllı özetler, aranabilir arşivler ve sorunsuz paylaşım.
Başlarken
Voxtral Transcribe 2’yi denemek için Mistral’in ses alanını ziyaret edin.
Kurulum gerektirmeden hemen çalışan transkripsiyon için ScreenApp’in çevrimiçi transkript oluşturucusunu deneyin.
FAQ
Voxtral Transcribe 2 ücretsiz mi?
Voxtral Realtime, Apache 2.0 altında açık ağırlıklar olarak mevcuttur ve kendi donanımınızda ücretsiz çalıştırılabilir. API dakikada $0,006. Voxtral Mini Transcribe V2 yalnızca API üzerinden dakikada $0,003.
Voxtral, Whisper’a göre ne kadar doğru?
Mistral, FLEURS’ta Voxtral Mini Transcribe V2 için yaklaşık %4, Whisper large-v3 için yaklaşık %10,3 kelime hata oranı bildiriyor.
Voxtral konuşmacı ayrımını destekliyor mu?
Evet, Voxtral Mini Transcribe V2 yerleşik konuşmacı ayrımı içerir. Voxtral Realtime şu anda diarizasyonu desteklemiyor.
Voxtral’ı toplantı transkripsiyonu için kullanabilir miyim?
API’yi toplantı sesini yazıya dökmek için kullanabilirsiniz, ancak kayıt, depolama, özetleme ve paylaşım için kendi boru hattınızı oluşturmanız gerekir. Kapsamlı bir çözüm için ScreenApp tüm iş akışını yönetir.
Voxtral hangi dilleri destekliyor?
13 dil: İngilizce, Çince, Hintçe, İspanyolca, Arapça, Fransızca, Portekizce, Rusça, Almanca, Japonca, Korece, İtalyanca ve Felemenkçe.
FAQ
Voxtral Realtime, Apache 2.0 altında açık ağırlıklar olarak mevcuttur ve kendi donanımınızda ücretsiz çalıştırılabilir. API dakikada $0,006. Voxtral Mini Transcribe V2 yalnızca API üzerinden dakikada $0,003.
Mistral, FLEURS'ta Voxtral Mini Transcribe V2 için yaklaşık %4, Whisper large-v3 için yaklaşık %10,3 kelime hata oranı bildiriyor.
Evet, Voxtral Mini Transcribe V2 yerleşik konuşmacı ayrımı içerir. Voxtral Realtime şu anda diarizasyonu desteklemiyor.
API'yi toplantı sesini yazıya dökmek için kullanabilirsiniz, ancak kayıt, depolama, özetleme ve paylaşım için kendi boru hattınızı oluşturmanız gerekir. Kapsamlı bir çözüm için ScreenApp tüm iş akışını yönetir.
13 dil: İngilizce, Çince, Hintçe, İspanyolca, Arapça, Fransızca, Portekizce, Rusça, Almanca, Japonca, Korece, İtalyanca ve Felemenkçe.