Voxtral Transcribe 2: So sánh với Whisper và ScreenApp
Mistral vừa phát hành Voxtral Transcribe 2 và bức tranh nhận dạng giọng nói trở nên thú vị hơn rất nhiều. Ra mắt ngày 5 tháng 2 năm 2026, bộ mô hình mới này bao gồm Voxtral Mini Transcribe V2 cho xử lý hàng loạt và Voxtral Realtime cho phiên âm trực tiếp với độ trễ dưới 200ms. Với trọng số mở theo Apache 2.0 và giá $0,003 mỗi phút, đây là đề xuất hung hăng nhất trên thị trường API phiên âm.
Nhưng các điểm chuẩn chỉ kể một phần câu chuyện. Nếu bạn cần phiên âm cuộc họp hoặc ghi và phiên âm âm thanh trực tiếp, điều thực sự quan trọng là trải nghiệm đầy đủ: độ chính xác trong hội thoại thực, dễ sử dụng, nhận diện người nói và những gì xảy ra sau phiên âm.
Voxtral Transcribe 2 là gì
Voxtral Transcribe 2 là bộ hai mô hình nhận dạng giọng nói từ Mistral AI. Mô hình đầu tiên, Voxtral Mini Transcribe V2, xử lý phiên âm hàng loạt. Bạn tải lên tệp âm thanh (tối đa 3 giờ) và nhận bản phiên âm với nhãn người nói, dấu thời gian theo từng từ và điều chỉnh ngữ cảnh cho thuật ngữ chuyên ngành. Hỗ trợ 13 ngôn ngữ.
Mô hình thứ hai, Voxtral Realtime, được thiết kế riêng cho phiên âm trực tiếp. Khác với mô hình hàng loạt xử lý âm thanh theo từng đoạn, Realtime sử dụng kiến trúc phát trực tuyến để phiên âm âm thanh ngay khi nhận được. Độ trễ có thể cấu hình xuống dưới 200ms.
Mistral tuyên bố Voxtral Mini Transcribe V2 đạt khoảng 4% tỷ lệ lỗi từ trên bộ kiểm tra FLEURS, vượt qua GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal và Deepgram Nova. Xử lý âm thanh nhanh gấp khoảng 3 lần ElevenLabs Scribe v2, chất lượng tương đương với chi phí bằng một phần năm.
Voxtral Realtime được phát hành theo giấy phép Apache 2.0. Bạn có thể tải trọng số từ Hugging Face và chạy trên phần cứng riêng.
Voxtral vs. Whisper
Whisper của OpenAI là mô hình phiên âm mã nguồn mở tiêu chuẩn từ năm 2022. Phiên bản large-v3 vẫn được sử dụng rộng rãi, và OpenAI cung cấp API quản lý với giá $0,006 mỗi phút.
Whisper large-v3 báo cáo khoảng 10,3% tỷ lệ lỗi từ trên các bộ kiểm tra đa ngôn ngữ, trong khi Voxtral tuyên bố khoảng 4% trên FLEURS. Một khoảng cách đáng kể.
API quản lý của Whisper không bao gồm phân tách người nói. Bạn cần kết hợp với pipeline phân tách riêng. Voxtral bao gồm phân tách người nói nguyên bản trong mô hình hàng loạt.
Về giá, API Whisper $0,006 mỗi phút. Voxtral Mini Transcribe V2 $0,003 mỗi phút, đúng bằng một nửa. Voxtral Realtime $0,006 mỗi phút, bằng Whisper nhưng cung cấp phát trực tuyến.
Voxtral vs. Dịch vụ đám mây
AssemblyAI cung cấp phân tích cảm xúc và phát hiện chủ đề với giá $0,222 mỗi phút. Deepgram Nova bắt đầu từ $0,0043 mỗi phút. Rev kết hợp phiên âm AI với đánh giá con người từ $0,02 mỗi phút.
Khác biệt chính: Voxtral là mô hình, không phải nền tảng. Nó cung cấp bản phiên âm, dấu thời gian và nhãn người nói. Không có kho lưu trữ tìm kiếm được, tóm tắt AI hay quy trình làm việc.
Voxtral vs. ScreenApp
Ở đây so sánh chuyển từ mô hình sang sản phẩm. ScreenApp không phải mô hình phiên âm mà là nền tảng cuộc họp và ghi âm hoàn chỉnh sử dụng phiên âm AI như một thành phần của quy trình làm việc rộng hơn.
Khi bạn ghi cuộc họp với ScreenApp, nền tảng xử lý toàn bộ pipeline: ghi âm, phiên âm với phân tách người nói, tóm tắt AI, mục hành động, kho lưu trữ tìm kiếm được và chia sẻ.
ScreenApp hoạt động trực tiếp trong trình duyệt không cần cài đặt phần mềm, không cần khóa API và không cần quản lý cơ sở hạ tầng.
Với ScreenApp, bạn nhấn ghi, tham gia cuộc họp, và mọi thứ còn lại diễn ra tự động. Trợ lý ghi chú AI tạo ghi chú có cấu trúc.
Bảng So Sánh
| Tính năng | Voxtral Mini V2 | Voxtral Realtime | Whisper (API) | ScreenApp |
|---|---|---|---|---|
| Loại | API / Mô hình | API / Trọng số mở | API / Trọng số mở | Nền tảng web |
| Giá | $0,003/phút | $0,006/phút | $0,006/phút | Miễn phí / từ $19/tháng |
| Thời gian thực | Không (hàng loạt) | Có (dưới 200ms) | Không (hàng loạt) | Có |
| Phân tách người nói | Tích hợp | Không | Không (cần pipeline) | Tích hợp |
| Ngôn ngữ | 13 | 13 | 99+ | 50+ |
| Tóm tắt AI | Không | Không | Không | Có |
Ai nên dùng Voxtral
Voxtral Transcribe 2 phù hợp nhất cho lập trình viên và đội ngũ kỹ thuật xây dựng ứng dụng giọng nói. Cho trợ lý giọng nói, phụ đề trực tiếp hay tự động hóa tổng đài, Voxtral cung cấp mô hình mạnh với giá cạnh tranh.
Cho chuyên gia cần phiên âm cuộc họp, ScreenApp là lựa chọn tốt hơn.
Bức tranh lớn
VentureBeat tuyên bố 2026 là “năm của ghi chú.” Chi phí phiên âm chất lượng cao đã giảm một bậc trong chỉ hai năm. Voxtral với $0,003 mỗi phút nghĩa là phiên âm ngày làm việc tám tiếng chỉ tốn $1,44.
Phiên âm thô đang trở thành hàng hóa phổ thông. Sự khác biệt nằm ở những gì xảy ra sau đó.
Bắt đầu
Để thử Voxtral Transcribe 2, truy cập sân chơi âm thanh của Mistral.
Để phiên âm hoạt động ngay không cần thiết lập, thử trình tạo phiên âm trực tuyến của ScreenApp.
FAQ
Voxtral Transcribe 2 có miễn phí không?
Voxtral Realtime có trọng số mở theo Apache 2.0, chạy miễn phí trên phần cứng riêng. API giá $0,006 mỗi phút. Voxtral Mini Transcribe V2 chỉ qua API $0,003 mỗi phút.
Voxtral chính xác hơn Whisper bao nhiêu?
Mistral báo cáo khoảng 4% tỷ lệ lỗi từ trên FLEURS cho Voxtral Mini Transcribe V2, so với khoảng 10,3% cho Whisper large-v3.
Voxtral có hỗ trợ phân tách người nói không?
Có, Voxtral Mini Transcribe V2 bao gồm phân tách người nói tích hợp. Voxtral Realtime hiện không hỗ trợ.
Tôi có thể dùng Voxtral để phiên âm cuộc họp không?
Bạn có thể dùng API để phiên âm, nhưng cần xây dựng pipeline riêng cho ghi âm, lưu trữ, tóm tắt và chia sẻ. Để có giải pháp hoàn chỉnh, ScreenApp xử lý toàn bộ quy trình.
Voxtral hỗ trợ những ngôn ngữ nào?
13 ngôn ngữ: Anh, Trung, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý và Hà Lan.
FAQ
Voxtral Realtime có trọng số mở theo Apache 2.0, chạy miễn phí trên phần cứng riêng. API giá $0,006 mỗi phút. Voxtral Mini Transcribe V2 chỉ qua API $0,003 mỗi phút.
Mistral báo cáo khoảng 4% tỷ lệ lỗi từ trên FLEURS cho Voxtral Mini Transcribe V2, so với khoảng 10,3% cho Whisper large-v3.
Có, Voxtral Mini Transcribe V2 bao gồm phân tách người nói tích hợp. Voxtral Realtime hiện không hỗ trợ.
Bạn có thể dùng API để phiên âm, nhưng cần xây dựng pipeline riêng cho ghi âm, lưu trữ, tóm tắt và chia sẻ. Để có giải pháp hoàn chỉnh, ScreenApp xử lý toàn bộ quy trình.
13 ngôn ngữ: Anh, Trung, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý và Hà Lan.