Voxtral Transcribe 2: Qué significa el nuevo modelo de transcripción de Mistral
Mistral AI lanzó Voxtral Transcribe 2 el 5 de febrero de 2026, presentando dos modelos de conversión de voz a texto que llevan la precisión y velocidad de transcripción a nuevos niveles. El lanzamiento incluye Voxtral Mini Transcribe V2 para procesamiento por lotes y Voxtral Realtime para transcripción en vivo con latencia ultrabaja.
Según el anuncio de Mistral, los modelos soportan 13 idiomas y alcanzan la tasa de error de palabras más baja al precio más bajo de cualquier API de transcripción. Voxtral Realtime se distribuye bajo la licencia Apache 2.0 de pesos abiertos, lo que permite a los desarrolladores desplegarlo en el dispositivo para aplicaciones sensibles a la privacidad.
Esto es relevante para cualquiera que grabe reuniones, entrevistas, clases o podcasts. El mercado de la transcripción se ha vuelto considerablemente más competitivo, y herramientas como la transcripción de ScreenApp, Otter.ai y Fireflies ahora enfrentan una alternativa de código abierto muy potente. Esto es lo que cambió y lo que significa para tu flujo de trabajo.
Guías relacionadas: Mejores convertidores de audio a texto gratuitos, Asistentes de reuniones con IA, Apps de transcripción en vivo
Qué es Voxtral Transcribe 2
Voxtral Transcribe 2 es una familia de dos modelos de conversión de voz a texto de Mistral AI, la empresa parisina conocida por sus modelos de lenguaje de código abierto. Los dos modelos sirven para casos de uso diferentes.
Voxtral Mini Transcribe V2 se encarga de la transcripción por lotes. Subes un archivo de audio y obtienes una transcripción con diarización de hablantes (quién dijo qué), marcas de tiempo a nivel de palabra y ajuste de contexto para términos técnicos. Procesa audio a aproximadamente $0.003 por minuto y alcanza alrededor del 4% de tasa de error de palabras en el benchmark FLEURS. Eso lo hace más barato que la API de OpenAI Whisper ($0.006/min) con mejor precisión.
Voxtral Realtime está diseñado para transcripción en vivo. Utiliza una arquitectura de streaming que transcribe el audio a medida que llega, con latencia configurable hasta menos de 200 milisegundos. Con 2.4 segundos de retraso, iguala la precisión del modelo por lotes. Con 480 ms, se mantiene dentro del 1-2% de tasa de error de palabras del modelo por lotes. Este es el modelo publicado bajo Apache 2.0, así que cualquiera puede descargarlo y ejecutarlo localmente.
Ambos modelos soportan 13 idiomas: inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés.
Dos modelos, dos casos de uso
Entender qué modelo se adapta a tus necesidades es sencillo.
Usa Voxtral Mini Transcribe V2 cuando:
- Tengas audio pregrabado (reuniones, entrevistas, podcasts)
- Necesites etiquetas de hablante y marcas de tiempo
- Quieras la mayor precisión posible
- Un tiempo de respuesta de segundos a minutos sea aceptable
- Necesites ajuste de contexto para vocabulario de dominio específico
Usa Voxtral Realtime cuando:
- Necesites subtítulos en vivo
- Estés construyendo agentes de voz o asistentes en tiempo real
- La latencia por debajo de 500 ms sea importante
- Quieras ejecutar el modelo en tu propio hardware
- La privacidad requiera procesamiento en el dispositivo
La distinción importa porque la mayoría de las herramientas de transcripción agrupan todo en un solo producto. Mistral dividió el problema en dos soluciones especializadas, cada una optimizada para su caso de uso.
Transcripción en el dispositivo
La noticia más importante aquí no es la precisión ni la velocidad. Es la privacidad.
Voxtral Realtime funciona en el dispositivo con un modelo de 4 mil millones de parámetros. Eso significa que tu audio nunca sale de tu computadora, teléfono o servidor. Para profesionales de la salud, abogados, asesores financieros y cualquiera que maneje conversaciones sensibles, esto cambia completamente el cálculo.
La mayoría de los servicios de transcripción actuales envían tu audio a servidores en la nube para procesarlo. Otter.ai, Fireflies y también ScreenApp procesan audio en la nube. La API de Whisper de OpenAI funciona de la misma manera. Aunque estos servicios tienen políticas de privacidad y cifrado, el audio sigue viajando y siendo procesado en infraestructura de terceros.
Con Voxtral Realtime, las organizaciones pueden desplegar el modelo dentro de su propia red. Ningún audio sale de las instalaciones. No se necesitan acuerdos de procesamiento de datos con terceros. No hay riesgo de filtraciones de datos en un proveedor de transcripción.
La contrapartida es que necesitas gestionar tu propia infraestructura. Ejecutar un modelo de 4B parámetros requiere una GPU decente (o un portátil moderno con suficiente memoria). Para individuos, los servicios en la nube siguen siendo más convenientes. Para empresas con requisitos de cumplimiento, el procesamiento en el dispositivo cambia las reglas del juego.
Cómo se compara Voxtral
Así se compara Voxtral Transcribe 2 con las principales herramientas de transcripción disponibles en 2026.
| Herramienta | Tipo | On-Device | Diarización | Precio | Ideal para |
|---|---|---|---|---|---|
| Voxtral Transcribe 2 | API / Self-hosted | Sí (Realtime) | Sí | $0.003/min (API) | Desarrolladores, privacidad |
| OpenAI Whisper | API / Self-hosted | Sí (código abierto) | No (nativo) | $0.006/min (API) | Desarrolladores, uso general |
| ScreenApp | App web | No | Sí | Gratis / $19/mes | Flujo de trabajo completo |
| Otter.ai | App web / Móvil | No | Sí | Gratis / $8.33/mes | Transcripción de reuniones |
| Fireflies.ai | App web / Bot | No | Sí | Gratis / $10/mes | Notas de reuniones y CRM |
Algunos puntos destacan en esta comparación. Voxtral es la opción de API más barata y la única que ofrece tanto despliegue en el dispositivo como diarización integrada en una sola familia de modelos. Whisper es de código abierto pero carece de diarización nativa de hablantes. Los servicios en la nube (ScreenApp, Otter.ai, Fireflies) ofrecen productos completos con interfaces, integraciones y flujos de trabajo que los modelos de transcripción puros no proporcionan.
Modelo crudo vs. herramienta completa
Esta es la distinción crítica que la mayoría de la cobertura sobre Voxtral pasa por alto.
Voxtral Transcribe 2 es un modelo de transcripción. Convierte voz en texto. Eso es todo. No hay interfaz de grabación, ni planificador de reuniones, ni generador de resúmenes, ni función de búsqueda, ni sistema para compartir, ni integraciones con Zoom o Google Meet.
Para desarrolladores que construyen transcripción en sus propios productos, Voxtral es excelente. Para individuos y equipos que necesitan transcribir reuniones, clases o entrevistas, todavía necesitas una herramienta completa.
ScreenApp maneja todo el flujo de trabajo: graba tu pantalla o sube audio, obtén una transcripción automática con diarización de hablantes, genera un resumen con IA y busca en todas tus transcripciones después. La transcripción es un paso en un proceso más amplio.
Piénsalo así: Voxtral es un motor. ScreenApp es el auto. La mayoría de las personas necesitan el auto. Los desarrolladores y empresas que construyen su propio auto necesitan el motor.
Por eso VentureBeat llamó a 2026 “el año de la toma de notas”. Los modelos subyacentes siguen mejorando y abaratándose, lo que hace que las herramientas completas construidas sobre ellos sean más potentes y asequibles.
Consideraciones de privacidad
El ángulo de la privacidad merece una mirada más profunda porque afecta a diferentes usuarios de manera diferente.
Para individuos: Los servicios de transcripción en la nube generalmente están bien. Tus grabaciones de reuniones están cifradas en tránsito y en reposo. La conveniencia de un servicio alojado supera el riesgo teórico de privacidad para la mayoría de los casos de uso personales y de pequeñas empresas.
Para industrias reguladas: La transcripción en el dispositivo es significativa. El cumplimiento de HIPAA en salud, el privilegio abogado-cliente en derecho y las regulaciones financieras crean situaciones donde enviar audio a servidores de terceros introduce riesgo de cumplimiento. Voxtral Realtime ejecutándose dentro de la red de un hospital o un bufete de abogados elimina ese riesgo.
Para empresas: La elección depende de tu modelo de amenazas. Si te preocupa que un proveedor de transcripción sea vulnerado, on-device ayuda. Si te preocupan las amenazas internas, no ayuda porque el audio sigue existiendo en tus sistemas internos.
ScreenApp aborda la privacidad a través de cifrado y políticas de manejo de datos en lugar de procesamiento en el dispositivo. Para la mayoría de los usuarios, esto proporciona protección adecuada. Para organizaciones con requisitos estrictos de residencia de datos, los modelos on-device como Voxtral ofrecen una opción adicional. Puedes conocer más sobre cómo ScreenApp maneja los datos de audio en la página de prueba de voz y grabación.
Qué significa esto para 2026
El mercado de la transcripción se mueve rápido. Esto es lo que hay que observar para el resto de 2026.
Los precios seguirán bajando. Voxtral a $0.003/min supera a Whisper a $0.006/min. Esta presión empujará todas las API de transcripción hacia precios más bajos, lo que beneficia a las herramientas que dependen de estas API.
On-device se convertirá en estándar. Apple ya ofrece transcripción en el dispositivo en iOS. Google tiene capacidades similares en Android. Voxtral trae esto al mundo del código abierto con calidad de producción. En un año, espera que la mayoría de las herramientas de transcripción ofrezcan una opción on-device.
El valor se traslada al flujo de trabajo. Cuando la transcripción en sí se vuelve barata y precisa, la diferenciación se mueve a lo que haces con la transcripción. Resumen, extracción de tareas, archivos buscables e integraciones se convierten en el verdadero producto. Ahí es donde herramientas como ScreenApp y Otter.ai ya compiten.
La transcripción en tiempo real abre nuevos casos de uso. La latencia inferior a 200 ms habilita subtitulado en vivo, traducción en tiempo real, agentes de voz y funciones de accesibilidad que antes no eran prácticas.
Transcribe con ScreenApp
Si necesitas transcripción hoy y no quieres configurar tu propia infraestructura, ScreenApp ofrece todo en un solo lugar.
- Graba o sube tu audio en screenapp.io/features/online-transcript-generator.
- Obtén tu transcripción con etiquetas de hablante y marcas de tiempo automáticamente.
- Genera resúmenes usando el resumidor con IA para extraer puntos clave y tareas.
Sin software que instalar, sin modelos que configurar, sin GPU necesaria.
Después de la transcripción
Una vez que tengas tu transcripción, ScreenApp te ofrece más herramientas:
- Tomador de notas con IA: Genera notas estructuradas de reuniones desde cualquier grabación
- Diarización de transcripciones: Ve exactamente quién dijo qué con etiquetas de hablante
- Transcripción en vivo: Transcribe audio en tiempo real
- Extensión Speech to Text: Transcribe directamente desde tu navegador
FAQ
Es Voxtral Transcribe 2 gratuito?
Voxtral Realtime es de pesos abiertos bajo Apache 2.0, así que puedes descargarlo y ejecutarlo gratis en tu propio hardware. La API a través de la plataforma de Mistral cuesta $0.003 por minuto para Voxtral Mini Transcribe V2.
Cómo se compara Voxtral con Whisper?
Voxtral alcanza tasas de error de palabras más bajas que Whisper a la mitad del precio de API ($0.003/min vs $0.006/min). Voxtral también incluye diarización nativa de hablantes, que Whisper no tiene. Ambos pueden ejecutarse en el dispositivo.
Puedo usar Voxtral para transcribir reuniones?
Como modelo crudo, sí, pero necesitarías construir tu propia interfaz de grabación y reproducción. Para transcripción de reuniones lista para usar, herramientas como ScreenApp, Otter.ai o Fireflies proporcionan una experiencia completa.
Qué idiomas soporta Voxtral?
Voxtral Transcribe 2 soporta 13 idiomas: inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés.
La transcripción on-device es mejor que la nube?
Depende de tus necesidades. On-device ofrece mejor privacidad ya que el audio nunca sale de tu hardware. La transcripción en la nube es más conveniente y no requiere recursos de cómputo locales. Para la mayoría de los individuos, la nube es suficiente. Para industrias reguladas, on-device es valioso.
Qué es la diarización de hablantes?
La diarización de hablantes identifica quién habló cuándo en una grabación. En lugar de un solo bloque de texto, obtienes segmentos etiquetados como “Hablante 1: …” y “Hablante 2: …”. Tanto Voxtral Mini Transcribe V2 como ScreenApp ofrecen esta función.
Voxtral reemplazará a Otter.ai o ScreenApp?
No. Voxtral es un modelo de transcripción, no un producto completo. Otter.ai y ScreenApp ofrecen grabación, transcripción, resumen, búsqueda, compartir e integraciones. Voxtral podría alimentar la capa de transcripción dentro de estas herramientas, pero no reemplaza todo el flujo de trabajo.
FAQ
Voxtral Realtime es de pesos abiertos bajo Apache 2.0, así que puedes descargarlo y ejecutarlo gratis en tu propio hardware. La API a través de la plataforma de Mistral cuesta $0.003 por minuto para Voxtral Mini Transcribe V2.
Voxtral alcanza tasas de error de palabras más bajas que Whisper a la mitad del precio de API ($0.003/min vs $0.006/min). Voxtral también incluye diarización nativa de hablantes, que Whisper no tiene. Ambos pueden ejecutarse en el dispositivo.
Como modelo crudo, sí, pero necesitarías construir tu propia interfaz de grabación y reproducción. Para transcripción de reuniones lista para usar, herramientas como ScreenApp, Otter.ai o Fireflies proporcionan una experiencia completa.
Voxtral Transcribe 2 soporta 13 idiomas: inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés.
Depende de tus necesidades. On-device ofrece mejor privacidad ya que el audio nunca sale de tu hardware. La transcripción en la nube es más conveniente y no requiere recursos de cómputo locales. Para la mayoría de los individuos, la nube es suficiente. Para industrias reguladas, on-device es valioso.
La diarización de hablantes identifica quién habló cuándo en una grabación. En lugar de un solo bloque de texto, obtienes segmentos etiquetados como "Hablante 1: ..." y "Hablante 2: ...". Tanto Voxtral Mini Transcribe V2 como ScreenApp ofrecen esta función.
No. Voxtral es un modelo de transcripción, no un producto completo. Otter.ai y ScreenApp ofrecen grabación, transcripción, resumen, búsqueda, compartir e integraciones. Voxtral podría alimentar la capa de transcripción dentro de estas herramientas, pero no reemplaza todo el flujo de trabajo.