· 5 min read

Voxtral Transcribe 2: сравнение с Whisper и ScreenApp

Voxtral Transcribe 2: сравнение с Whisper и ScreenApp

Mistral выпустила Voxtral Transcribe 2, и ландшафт распознавания речи стал значительно интереснее. Выпущенная 5 февраля 2026 года, эта новая семья моделей включает Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для транскрибации в реальном времени с задержкой менее 200мс. С открытыми весами под Apache 2.0 и ценой $0,003 за минуту, это самое агрессивное предложение на рынке API транскрибации.

Но бенчмарки рассказывают лишь часть истории. Если вам нужно транскрибировать встречи или записывать и транскрибировать аудио в реальном времени, по-настоящему важен полный опыт: точность в реальных разговорах, удобство использования, идентификация говорящих и то, что происходит после транскрибации.

Что такое Voxtral Transcribe 2

Voxtral Transcribe 2 — это семья из двух моделей распознавания речи от Mistral AI. Первая модель, Voxtral Mini Transcribe V2, обрабатывает пакетную транскрибацию. Вы загружаете аудиофайл (до 3 часов) и получаете транскрипт с метками спикеров, временными метками на уровне слов и контекстной настройкой для специализированной терминологии. Поддерживает 13 языков, включая русский, английский, испанский, французский, немецкий, японский, корейский, китайский, хинди, арабский, португальский, итальянский и нидерландский.

Вторая модель, Voxtral Realtime, создана специально для транскрибации в реальном времени. В отличие от пакетных моделей, обрабатывающих аудио фрагментами, Realtime использует потоковую архитектуру, которая транскрибирует аудио по мере поступления. Задержка настраивается до уровня ниже 200мс.

Mistral утверждает, что Voxtral Mini Transcribe V2 достигает примерно 4% уровня ошибок на слово по бенчмарку FLEURS, превосходя GPT-4o mini Transcribe, Gemini 2.5 Flash, AssemblyAI Universal и Deepgram Nova. Обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs Scribe v2, при том же качестве и пятой части стоимости.

Voxtral Realtime выпускается под лицензией Apache 2.0. Можно скачать веса с Hugging Face и запустить на собственном оборудовании. Модель с 4 миллиардами параметров достаточно компактна для граничных устройств.

Voxtral vs. Whisper

Whisper от OpenAI является стандартной open-source моделью транскрибации с 2022 года. Вариант large-v3 по-прежнему широко используется, а OpenAI предлагает управляемый API за $0,006 за минуту.

Whisper large-v3 сообщает о примерно 10,3% уровня ошибок на слово в многоязычных бенчмарках, тогда как Voxtral заявляет около 4% на FLEURS. Значительная разница, хотя цифры бенчмарков всегда следует интерпретировать с осторожностью.

Управляемый API Whisper не включает диаризацию спикеров. Необходимо комбинировать его с отдельным пайплайном диаризации. Voxtral включает диаризацию нативно в пакетную модель, значительно упрощая пайплайн.

По цене API Whisper стоит $0,006 за минуту. Voxtral Mini Transcribe V2 стоит $0,003 за минуту, ровно вдвое дешевле. Voxtral Realtime стоит $0,006 за минуту, как Whisper, но предлагает потоковую передачу.

Voxtral vs. облачные сервисы

AssemblyAI предлагает хорошую точность с анализом настроений и определением тем за $0,222 за минуту. Deepgram Nova начинается с $0,0043 за минуту. Rev сочетает ИИ-транскрибацию с человеческой проверкой от $0,02 за минуту.

Ключевое отличие: Voxtral — это модель, а не платформа. Она даёт транскрипт, временные метки и метки спикеров. Не предоставляет поисковый архив, ИИ-резюме или рабочий процесс вокруг транскрипта.

Voxtral vs. ScreenApp

Здесь сравнение переходит от моделей к продуктам. ScreenApp — это не модель транскрибации, а полноценная платформа для встреч и записей, использующая ИИ-транскрибацию как компонент более широкого рабочего процесса.

Когда вы записываете встречу с ScreenApp, платформа берёт на себя весь пайплайн: запись, транскрибацию с диаризацией спикеров, ИИ-генерируемые резюме, пункты действий, поисковый архив и общий доступ.

ScreenApp работает прямо в браузере без установки ПО, без API-ключей и без инфраструктуры. Интегрируется с Zoom, Google Meet, Microsoft Teams и другими платформами.

С ScreenApp вы нажимаете «Записать», участвуете во встрече, и всё остальное происходит автоматически. ИИ-ассистент заметок создаёт структурированные заметки.

Сравнительная таблица

Функция Voxtral Mini V2 Voxtral Realtime Whisper (API) ScreenApp
Тип API / Модель API / Открытые веса API / Открытые веса Веб-платформа
Цена $0,003/мин $0,006/мин $0,006/мин Бесплатно / от $19/мес
Реальное время Нет (пакетная) Да (менее 200мс) Нет (пакетная) Да
Диаризация Встроенная Нет Нет (нужен пайплайн) Встроенная
Языки 13 13 99+ 50+
ИИ-резюме Нет Нет Нет Да

Кому подходит Voxtral

Voxtral Transcribe 2 лучше всего подходит разработчикам и инженерным командам, создающим голосовые приложения. Для голосовых агентов, живых субтитров или автоматизации контакт-центров Voxtral предлагает мощную модель по конкурентной цене.

Для профессионалов, которым нужна транскрибация встреч как часть рабочего процесса, ScreenApp — лучший выбор.

Общая картина

VentureBeat объявил 2026 год «годом заметок». Стоимость качественной транскрибации снизилась на порядок всего за два года. Voxtral за $0,003 в минуту означает, что транскрибация восьмичасового рабочего дня стоит $1,44.

Сырая транскрибация становится товаром массового потребления. Дифференциация заключается в том, что происходит после: умные резюме, поисковые архивы и бесшовный обмен.

Начало работы

Чтобы попробовать Voxtral Transcribe 2, посетите аудио-площадку Mistral.

Для транскрибации, которая работает сразу без настройки, попробуйте онлайн-генератор транскриптов ScreenApp.

FAQ

Voxtral Transcribe 2 бесплатен?

Voxtral Realtime доступен как открытые веса под Apache 2.0 и может бесплатно работать на вашем оборудовании. API стоит $0,006 в минуту. Voxtral Mini Transcribe V2 доступен только через API за $0,003 в минуту.

Насколько точен Voxtral по сравнению с Whisper?

Mistral сообщает о примерно 4% уровня ошибок на слово на FLEURS для Voxtral Mini Transcribe V2, по сравнению с примерно 10,3% для Whisper large-v3.

Поддерживает ли Voxtral диаризацию?

Да, Voxtral Mini Transcribe V2 включает встроенную диаризацию. Voxtral Realtime в настоящее время не поддерживает диаризацию.

Можно ли использовать Voxtral для транскрибации встреч?

Можно использовать API для транскрибации аудио встреч, но вам нужно будет построить свой пайплайн для записи, хранения, резюмирования и обмена. Для комплексного решения ScreenApp обрабатывает весь рабочий процесс.

Какие языки поддерживает Voxtral?

13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и нидерландский.

FAQ

Voxtral Transcribe 2 бесплатен?

Voxtral Realtime доступен как открытые веса под Apache 2.0 и может бесплатно работать на вашем оборудовании. API стоит $0,006 в минуту. Voxtral Mini Transcribe V2 доступен только через API за $0,003 в минуту.

Насколько точен Voxtral по сравнению с Whisper?

Mistral сообщает о примерно 4% уровня ошибок на слово на FLEURS для Voxtral Mini Transcribe V2, по сравнению с примерно 10,3% для Whisper large-v3.

Поддерживает ли Voxtral диаризацию?

Да, Voxtral Mini Transcribe V2 включает встроенную диаризацию. Voxtral Realtime в настоящее время не поддерживает диаризацию.

Можно ли использовать Voxtral для транскрибации встреч?

Можно использовать API для транскрибации аудио встреч, но вам нужно будет построить свой пайплайн для записи, хранения, резюмирования и обмена. Для комплексного решения ScreenApp обрабатывает весь рабочий процесс.

Какие языки поддерживает Voxtral?

13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и нидерландский.

User
User
User
Присоединяйтесь к 2,147,483+ пользователям

Откройте для себя больше идей

Изучите наш блог для получения дополнительных советов по продуктивности, технологических идей и программных решений.

Try ScreenApp Free

Start recording in 60 seconds • Кредитная карта не требуется