Metodología
Precisión, velocidad y señales de confianza (con pruebas)
Esta página es la fuente de verdad para cada afirmación de precisión, velocidad e idiomas en ScreenApp.io. Los números provienen de nuestro corpus interno de pruebas, el caso de estudio de ingeniería de Groq, los benchmarks de Whisper de OpenAI y los benchmarks publicados de Grok Speech-to-Text de xAI. Última actualización: mayo de 2026.
La pila de modelos
La transcripción no apuesta a un solo proveedor. ScreenApp enruta cada trabajo al proveedor que mejor se adapta al audio: plataforma de origen, duración, configuración de canales, idioma. A mayo de 2026, los proveedores principales son:
- OpenAI Whisper Large-v3 en la infraestructura de inferencia de Groq: la mayor cobertura de idiomas (99 idiomas) y la ruta más rápida para audio de formato largo. Large-v3 redujo el word error rate entre 10 y 20% frente a Large-v2. Groq ejecuta Whisper a un factor de velocidad de 164x en tiempo real según el benchmark independiente de Artificial Analysis. Un video de 2 horas se transcribe en aproximadamente 3 minutos de extremo a extremo.
- Google Gemini 3.1 Flash Lite: diseñado para audio corto (menos de 5 minutos) y resumen con IA posterior. El mismo modelo impulsa las capas de resumen y chat, por lo que la transcripción y el análisis comparten contexto.
- xAI Grok Speech-to-Text: la mayor precisión publicada en audio de llamadas telefónicas y multicanal (5.0% de tasa de error de entidades frente a ElevenLabs 12.0%, Deepgram 13.5%, AssemblyAI 21.3%). Diarización de hablante por palabra de forma nativa en 25 idiomas. Construido sobre la misma pila de producción que impulsa Grok Voice dentro de los vehículos Tesla y la atención al cliente de Starlink. API con precio de $0.10/hora por lotes y $0.20/hora en streaming (aproximadamente 60% por debajo de ElevenLabs y Deepgram según la comparación de Dapta). Lanzado el 18 de abril de 2026.
Proveedores de respaldo (usados cuando un proveedor principal tiene límite de tasa o no está disponible): Cloudflare Workers AI, Fireworks AI, Mistral, Baseten. Un trabajo de transcripción nunca falla porque un proveedor tuvo una interrupción.
Capa de LLM para resumen, chat y análisis con IA: Google Gemini de extremo a extremo. ScreenApp NO funciona con GPT-4, ChatGPT ni Claude. El LLM que convierte una transcripción cruda en resúmenes estructurados, marcadores de capítulos, ítems de acción, respuestas de Q&A y la interfaz de chat es Gemini desde el principio hasta el final.
Por qué multi-proveedor en lugar de un solo proveedor: cada proveedor tiene su punto fuerte. Whisper tiene la mayor cantidad de idiomas, Groq lo hace rápido. Gemini es el mejor para audio corto y análisis con LLM posterior. xAI Grok STT tiene la menor tasa de error publicada en llamadas telefónicas. Enrutar cada trabajo a su mejor opción supera a usar un solo proveedor para todo.
El audio de los clientes nunca se usa para entrenar ninguno de estos modelos. El audio se procesa y elimina según la configuración de retención de tu cuenta. Manejo completo de datos en el Trust Center.
Velocidad: el caso de estudio Groq
En 2025, ScreenApp migró de un despliegue autoalojado de Whisper en AWS a la infraestructura de inferencia de Groq. Groq publicó el caso de estudio; los números a continuación provienen de las mediciones de su equipo de ingeniería.
| Métrica | Antes de Groq | Después de Groq | Cambio |
|---|---|---|---|
| Trabajo de transcripción de 20 minutos | ~20 minutes | ~15 seconds | 20x faster |
| Costo de transcripción por minuto | baseline | 1/15th | 15x cheaper |
| Conversión de gratis a pago | baseline | +30% | uplift |
| Ingresos recurrentes anuales (año contra año) | baseline | +405% | crecimiento atribuido a las mejoras de velocidad y costo |
Fuente: caso de estudio ScreenApp + Groq (groq.com).
Qué significa esto en la práctica: una reunión de 60 minutos se procesa en aproximadamente 3 minutos de punta a punta (transcripción, diarización, generación de resumen). Un video de 2 horas se procesa en unos 6 minutos. Estos son tiempos de punta a punta que incluyen el resumen y la creación de capítulos, no solo la transcripción cruda.
Precisión: benchmarks de word error rate
El word error rate (WER) cuenta sustituciones, eliminaciones e inserciones por cada 100 palabras de referencia. Cuanto más bajo, mejor. Las cifras de referencia a continuación provienen de los benchmarks publicados para cada modelo subyacente; las filas por condición provienen de nuestra propia repetición de prueba de abril de 2026 con 18 horas de audio de dominio público por idioma en tres condiciones: estudio (un solo hablante, sala tratada), conferencia (varios hablantes, micrófono ambiental) y campo (micrófono de teléfono en mano, ruido ambiental).
Líneas de base publicadas
- Whisper Large-v3: 2.7% WER en LibriSpeech test-clean (audio con calidad de audiolibro); del 8 al 12% WER en reuniones, podcasts y grabaciones de llamadas reales en inglés. Fuente: model card de openai/whisper-large-v3.
- xAI Grok Speech-to-Text: 5.0% de tasa de error en reconocimiento de entidades en llamadas telefónicas, comparado con ElevenLabs al 12.0%, Deepgram al 13.5% y AssemblyAI al 21.3%. Fuente: anuncio de lanzamiento de xAI Grok STT.
WER por idioma (repetición de prueba de abril de 2026)
| Idioma | Locale | WER estudio | WER conferencia | WER campo | Hablantes probados |
|---|---|---|---|---|---|
| Inglés (EE. UU.) | en-US | 4.2% | 7.8% | 12.4% | 4 |
| Español (Latinoam.) | es-419 | 5.1% | 9.2% | 14.6% | 3 |
| Español (España) | es-ES | 5.4% | 9.8% | 15.1% | 3 |
| Portugués (BR) | pt-BR | 5.8% | 10.1% | 15.8% | 3 |
| Portugués (PT) | pt-PT | 6.4% | 11.2% | 17.0% | 2 |
| Francés | fr-FR | 5.9% | 10.4% | 16.2% | 3 |
| Alemán | de-DE | 6.1% | 10.8% | 16.5% | 3 |
| Italiano | it-IT | 6.3% | 11.0% | 17.1% | 3 |
| Japonés | ja-JP | 7.8% | 13.5% | 19.8% | 2 |
| Coreano | ko-KR | 7.5% | 13.1% | 19.2% | 2 |
| Mandarín (simplificado) | zh-CN | 7.9% | 14.0% | 20.4% | 3 |
| Hindi | hi-IN | 9.2% | 15.8% | 23.1% | 3 |
| Árabe (MSA) | ar | 9.6% | 16.2% | 24.0% | 2 |
| Ruso | ru-RU | 6.8% | 11.5% | 17.4% | 3 |
| Indonesio | id-ID | 7.1% | 12.4% | 18.5% | 2 |
Metodología de prueba
- Corpus: 18 horas por idioma, tomadas de contribuciones de Common Voice, archivos públicos de conferencias y publicaciones de transcripciones periodísticas. Nunca se incluye audio de clientes.
- Puntuación: alineada con la transcripción original usando jiwer, la misma librería que referencia AssemblyAI. No se penalizan la puntuación ni la capitalización. Las etiquetas de hablante se puntúan por separado.
- Cadencia: se repite la prueba trimestralmente. Última corrida completa: 22 de abril de 2026. Próxima: julio de 2026.
- Condiciones definidas: Estudio = un solo hablante, micrófono lavalier o shotgun, sala tratada. Conferencia = varios hablantes, micrófono ambiental, solapamiento ocasional. Campo = micrófono de teléfono en mano, ruido ambiental de multitud o tráfico.
Diarización de hablantes
La diarización (asignar un ID de hablante a cada palabra) se ejecuta por la ruta que mejor se adapta al audio. El enrutamiento es automático; no eliges tú.
- xAI Grok Speech-to-Text para llamadas telefónicas, llamadas de ventas, declaraciones y audio multicanal. IDs de hablante por palabra en 25 idiomas. 5.0% de tasa de error de entidades en el benchmark publicado de llamadas telefónicas frente a ElevenLabs 12.0%, Deepgram 13.5%, AssemblyAI 21.3%. En el benchmark de video y podcast, Grok y ElevenLabs empatan en 2.4% (Deepgram 3.0%, AssemblyAI 3.2%). Lanzado el 18 de abril de 2026.
- Google Gemini para reuniones generales, archivos de video cargados y contenido conversacional donde los turnos no están separados por canal. Se ejecuta en la misma canalización de Vertex AI que la transcripción, por lo que la salida diarizada es una sola respuesta.
La canalización lee la configuración de canales del audio, la plataforma de origen y el tipo de contenido, y luego elige la mejor ruta. Granularidad por palabra en ambos casos (no a nivel de párrafo), de modo que una interjección de una sola oración en una reunión con varios hablantes se atribuye correctamente.
- Modos: streaming en tiempo real (para capturas en vivo) y por lotes (para cargas).
- Casos de uso más fuertes: consultas médicas, declaraciones legales, llamadas de ventas y discusiones de panel donde la atribución de hablante debe ser precisa.
Fuentes: anuncio de la API xAI Grok STT y TTS, Google Gemini.
Idiomas compatibles
ScreenApp es compatible con 99 idiomas para transcripción mediante Whisper Large-v3. Un subconjunto de 25 de esos también admite diarización de hablantes mediante xAI Grok STT (marcados con †).
Lista completa de idiomas (Whisper Large-v3)
Afrikáans, Albanés, Amárico, Árabe †, Armenio, Asamés, Azerbaiyano, Baskir, Vasco, Bielorruso, Bengalí, Bosnio, Bretón, Búlgaro, Birmano, Cantonés, Catalán, Chino (mandarín) †, Croata, Checo, Danés, Neerlandés †, Inglés †, Estonio, Feroés, Finlandés, Francés †, Gallego, Georgiano, Alemán †, Griego, Guyaratí, Criollo haitiano, Hausa, Hawaiano, Hebreo, Hindi †, Húngaro, Islandés, Indonesio †, Italiano †, Japonés †, Javanés, Canarés, Kazajo, Jemer, Coreano †, Lao, Latín, Letón, Lingala, Lituano, Luxemburgués, Macedonio, Malgache, Malayo, Malayalam, Maltés, Maorí, Maratí, Mongol, Nepalí, Noruego, Nynorsk, Occitano, Pastún, Persa, Polaco, Portugués †, Panyabí, Rumano, Ruso †, Sánscrito, Serbio, Shona, Sindhi, Cingalés, Eslovaco, Esloveno, Somalí, Español †, Sundanés, Suajili, Sueco, Tagalo †, Tayiko, Tamil, Tártaro, Telugu, Tailandés, Tibetano, Turco †, Turcomano, Ucraniano, Urdu, Uzbeko, Vietnamita †, Galés, Yidis, Yoruba.
† indica los idiomas con diarización de hablantes a nivel de palabra mediante xAI Grok STT. Los demás idiomas se transcriben (solo texto) sin atribución por hablante.
Fuente de la lista de idiomas de Whisper: github.com/openai/whisper. Fuente de la cobertura de idiomas de Grok STT: documentación de xAI Voice.
Base de usuarios
2,163,740 cuentas registradas a mayo de 2026. La cifra refleja las cuentas únicas con correo verificado en nuestra base de datos de producción. Actualizamos este número trimestralmente en esta página.
No publicamos afirmaciones de marketing con cifras redondeadas como "2 millones de usuarios" sin el conteo subyacente verificable, ni en esta página ni en ninguna otra. Si alguna vez ves una cifra de usuarios inflada o sin fecha en una página de ScreenApp, es un problema de calidad de contenido y queremos saberlo: contáctanos a través del Trust Center.
Acceso gratuito y precios
Dos maneras de usar ScreenApp sin pagar por adelantado:
- Registro gratuito (Free Forever): Procesa una grabación gratis. Sin tarjeta de crédito. Sin vencimiento. Después de tu primera grabación, necesitarás un plan de pago o la prueba de 7 días para continuar. Esto es lo que queremos decir con "Free Forever": la primera grabación es gratis indefinidamente, no grabaciones ilimitadas gratis.
- Prueba de 7 días del plan Growth: Acceso completo al plan Growth durante 7 días. Se requiere tarjeta de crédito (no cobramos hasta el día 8 y puedes cancelar en cualquier momento durante los 7 días sin costo). Después del día 7, se cobra a la tarjeta $228/año.
Planes de pago
- Growth: $19/mes facturado anualmente ($228/año). Grabaciones ilimitadas durante la suscripción activa. La prueba de 7 días anterior corresponde a este plan.
- Business: $34/mes facturado anualmente. Agrega límites más altos de tamaño de archivo, espacios de trabajo en equipo y SSO para planes empresariales.
- Facturación mensual: disponible a tarifas mensuales más altas sin la prueba de 7 días.
Precios actuales y desglose de funciones en la página de precios. Lo que NO ofrecemos: un nivel gratuito mensual recurrente con X minutos al mes, una prueba "sin tarjeta de crédito" del plan de pago, ni grabaciones gratuitas ilimitadas. Si ves alguna de estas afirmaciones en este sitio, es un problema de calidad de contenido, por favor repórtalo a través del Trust Center y corregiremos la página de origen.
Seguridad y cumplimiento
Auditado anualmente bajo SOC 2 Type 2. 22 políticas internas que cubren control de acceso, clasificación de datos, desarrollo seguro y respuesta a incidentes. Monitoreo continuo de controles.
Postura de seguridad en vivo completa, reporte SOC 2 Type 2 descargable y cuestionario de seguridad pre-llenado en nuestro Trust Center (trust.inc/screenapp).
Fuentes y benchmarks externos
- Caso de estudio ScreenApp + Groq: números de velocidad y costo de la capa de inferencia.
- Groq: Whisper a 164x en tiempo real: benchmark independiente de Artificial Analysis sobre Whisper Large-v3 en la inferencia de Groq.
- Lanzamiento de xAI Grok Speech-to-Text: benchmarks de diarización, lista de idiomas, referencias a producción en Tesla y Starlink.
- Dapta: comparación de precios de Grok Voice API: confirmación independiente de que Grok STT está por debajo de Deepgram y ElevenLabs en aproximadamente 60%.
- MarkTechPost: xAI lanza APIs Grok STT y TTS: cobertura de terceros sobre el lanzamiento.
- Model card de OpenAI Whisper Large-v3: líneas de base publicadas de WER y la mejora del 10 al 20% sobre Large-v2.
- openai/whisper en GitHub: lista completa de 99 idiomas y detalles del modelo.
- Tabla de líderes Speech-to-Text de Artificial Analysis: benchmarks independientes de terceros de WER y velocidad entre proveedores.
- jiwer: la librería de puntuación de WER utilizada en nuestras repeticiones de prueba por idioma.
- Trust Center de ScreenApp: reporte SOC 2 Tipo 2, 22 políticas internas, subprocesadores, cuestionario de seguridad.
Erratas y correcciones
Los números en las páginas de ScreenApp deben coincidir con esta página. Si encuentras una página de funciones que contradiga estas cifras, es un error de calidad de contenido que queremos corregir. Repórtalo a través del formulario de contacto del Trust Center y actualizaremos la página de origen en 7 días.