Metodología

Precisión, velocidad y señales de confianza (con pruebas)

Esta página es la fuente de verdad para cada afirmación de precisión, velocidad e idiomas en ScreenApp.io. Los números provienen de nuestro corpus interno de pruebas, el caso de estudio de ingeniería de Groq, los benchmarks de Whisper de OpenAI y los benchmarks publicados de Grok Speech-to-Text de xAI. Última actualización: mayo de 2026.

La pila de modelos

La transcripción no apuesta a un solo proveedor. ScreenApp enruta cada trabajo al proveedor que mejor se adapta al audio: plataforma de origen, duración, configuración de canales, idioma. A mayo de 2026, los proveedores principales son:

OpenAI Whisper Large-v3 en la infraestructura de inferencia de Groq: la mayor cobertura de idiomas (99 idiomas) y la ruta más rápida para audio de formato largo. Large-v3 redujo el word error rate entre 10 y 20% frente a Large-v2. Groq ejecuta Whisper a un factor de velocidad de 164x en tiempo real según el benchmark independiente de Artificial Analysis. Un video de 2 horas se transcribe en aproximadamente 3 minutos de extremo a extremo.
Google Gemini 3.1 Flash Lite: diseñado para audio corto (menos de 5 minutos) y resumen con IA posterior. El mismo modelo impulsa las capas de resumen y chat, por lo que la transcripción y el análisis comparten contexto.
xAI Grok Speech-to-Text: la mayor precisión publicada en audio de llamadas telefónicas y multicanal (5.0% de tasa de error de entidades frente a ElevenLabs 12.0%, Deepgram 13.5%, AssemblyAI 21.3%). Diarización de hablante por palabra de forma nativa en 25 idiomas. Construido sobre la misma pila de producción que impulsa Grok Voice dentro de los vehículos Tesla y la atención al cliente de Starlink. API con precio de $0.10/hora por lotes y $0.20/hora en streaming (aproximadamente 60% por debajo de ElevenLabs y Deepgram según la comparación de Dapta). Lanzado el 18 de abril de 2026.

Proveedores de respaldo (usados cuando un proveedor principal tiene límite de tasa o no está disponible): Cloudflare Workers AI, Fireworks AI, Mistral, Baseten. Un trabajo de transcripción nunca falla porque un proveedor tuvo una interrupción.

Capa de LLM para resumen, chat y análisis con IA: Google Gemini de extremo a extremo. ScreenApp NO funciona con GPT-4, ChatGPT ni Claude. El LLM que convierte una transcripción cruda en resúmenes estructurados, marcadores de capítulos, ítems de acción, respuestas de Q&A y la interfaz de chat es Gemini desde el principio hasta el final.

Por qué multi-proveedor en lugar de un solo proveedor: cada proveedor tiene su punto fuerte. Whisper tiene la mayor cantidad de idiomas, Groq lo hace rápido. Gemini es el mejor para audio corto y análisis con LLM posterior. xAI Grok STT tiene la menor tasa de error publicada en llamadas telefónicas. Enrutar cada trabajo a su mejor opción supera a usar un solo proveedor para todo.

El audio de los clientes nunca se usa para entrenar ninguno de estos modelos. El audio se procesa y elimina según la configuración de retención de tu cuenta. Manejo completo de datos en el Trust Center.

Velocidad: el caso de estudio Groq

En 2025, ScreenApp migró de un despliegue autoalojado de Whisper en AWS a la infraestructura de inferencia de Groq. Groq publicó el caso de estudio; los números a continuación provienen de las mediciones de su equipo de ingeniería.

Métrica	Antes de Groq	Después de Groq	Cambio
Trabajo de transcripción de 20 minutos	~20 minutes	~15 seconds	20x faster
Costo de transcripción por minuto	baseline	1/15th	15x cheaper
Conversión de gratis a pago	baseline	+30%	uplift
Ingresos recurrentes anuales (año contra año)	baseline	+405%	crecimiento atribuido a las mejoras de velocidad y costo

Fuente: caso de estudio ScreenApp + Groq (groq.com).

Qué significa esto en la práctica: una reunión de 60 minutos se procesa en aproximadamente 3 minutos de punta a punta (transcripción, diarización, generación de resumen). Un video de 2 horas se procesa en unos 6 minutos. Estos son tiempos de punta a punta que incluyen el resumen y la creación de capítulos, no solo la transcripción cruda.

Precisión: benchmarks de word error rate

El word error rate (WER) cuenta sustituciones, eliminaciones e inserciones por cada 100 palabras de referencia. Cuanto más bajo, mejor. Las cifras de referencia a continuación provienen de los benchmarks publicados para cada modelo subyacente; las filas por condición provienen de nuestra propia repetición de prueba de abril de 2026 con 18 horas de audio de dominio público por idioma en tres condiciones: estudio (un solo hablante, sala tratada), conferencia (varios hablantes, micrófono ambiental) y campo (micrófono de teléfono en mano, ruido ambiental).

Líneas de base publicadas

Whisper Large-v3: 2.7% WER en LibriSpeech test-clean (audio con calidad de audiolibro); del 8 al 12% WER en reuniones, podcasts y grabaciones de llamadas reales en inglés. Fuente: model card de openai/whisper-large-v3.
xAI Grok Speech-to-Text: 5.0% de tasa de error en reconocimiento de entidades en llamadas telefónicas, comparado con ElevenLabs al 12.0%, Deepgram al 13.5% y AssemblyAI al 21.3%. Fuente: anuncio de lanzamiento de xAI Grok STT.

WER por idioma (repetición de prueba de abril de 2026)

Idioma	Locale	WER estudio	WER conferencia	WER campo	iPhone mic WER †	Hablantes probados
Inglés (EE. UU.)	en-US	4.2%	7.8%	12.4%	14.9%	4
Español (Latinoam.)	es-419	5.1%	9.2%	14.6%	17.5%	3
Español (España)	es-ES	5.4%	9.8%	15.1%	18.1%	3
Portugués (BR)	pt-BR	5.8%	10.1%	15.8%	19.0%	3
Portugués (PT)	pt-PT	6.4%	11.2%	17.0%	20.4%	2
Francés	fr-FR	5.9%	10.4%	16.2%	19.4%	3
Alemán	de-DE	6.1%	10.8%	16.5%	19.8%	3
Italiano	it-IT	6.3%	11.0%	17.1%	20.5%	3
Japonés	ja-JP	7.8%	13.5%	19.8%	23.8%	2
Coreano	ko-KR	7.5%	13.1%	19.2%	23.0%	2
Mandarín (simplificado)	zh-CN	7.9%	14.0%	20.4%	24.5%	3
Hindi	hi-IN	9.2%	15.8%	23.1%	27.7%	3
Árabe (MSA)	ar	9.6%	16.2%	24.0%	28.8%	2
Ruso	ru-RU	6.8%	11.5%	17.4%	20.9%	3
Indonesio	id-ID	7.1%	12.4%	18.5%	22.2%	2

† iPhone mic WER is a projection, not a measurement. Computed as Field WER × 1.2 to account for the noise-cancellation, beam-forming, and codec losses that iPhone built-in microphones introduce on top of a handheld phone mic. The July 2026 retest will replace this column with measured numbers from an iPhone 14, iPhone 15, and iPhone 16 across the same 18 hours per language.

Metodología de prueba

Corpus: 18 horas por idioma, tomadas de contribuciones de Common Voice, archivos públicos de conferencias y publicaciones de transcripciones periodísticas. Nunca se incluye audio de clientes.
Puntuación: alineada con la transcripción original usando jiwer, la misma librería que referencia AssemblyAI. No se penalizan la puntuación ni la capitalización. Las etiquetas de hablante se puntúan por separado.
Cadencia: se repite la prueba trimestralmente. Última corrida completa: 22 de abril de 2026. Próxima: julio de 2026.
Condiciones definidas: Estudio = un solo hablante, micrófono lavalier o shotgun, sala tratada. Conferencia = varios hablantes, micrófono ambiental, solapamiento ocasional. Campo = micrófono de teléfono en mano, ruido ambiental de multitud o tráfico.

Diarización de hablantes

La diarización (asignar un ID de hablante a cada palabra) se ejecuta por la ruta que mejor se adapta al audio. El enrutamiento es automático; no eliges tú.

xAI Grok Speech-to-Text para llamadas telefónicas, llamadas de ventas, declaraciones y audio multicanal. IDs de hablante por palabra en 25 idiomas. 5.0% de tasa de error de entidades en el benchmark publicado de llamadas telefónicas frente a ElevenLabs 12.0%, Deepgram 13.5%, AssemblyAI 21.3%. En el benchmark de video y podcast, Grok y ElevenLabs empatan en 2.4% (Deepgram 3.0%, AssemblyAI 3.2%). Lanzado el 18 de abril de 2026.
Google Gemini para reuniones generales, archivos de video cargados y contenido conversacional donde los turnos no están separados por canal. Se ejecuta en la misma canalización de Vertex AI que la transcripción, por lo que la salida diarizada es una sola respuesta.

La canalización lee la configuración de canales del audio, la plataforma de origen y el tipo de contenido, y luego elige la mejor ruta. Granularidad por palabra en ambos casos (no a nivel de párrafo), de modo que una interjección de una sola oración en una reunión con varios hablantes se atribuye correctamente.

Modos: streaming en tiempo real (para capturas en vivo) y por lotes (para cargas).
Casos de uso más fuertes: consultas médicas, declaraciones legales, llamadas de ventas y discusiones de panel donde la atribución de hablante debe ser precisa.

Fuentes: anuncio de la API xAI Grok STT y TTS, Google Gemini.

Idiomas compatibles

ScreenApp es compatible con 99 idiomas para transcripción mediante Whisper Large-v3. Un subconjunto de 25 de esos también admite diarización de hablantes mediante xAI Grok STT (marcados con †).

Lista completa de idiomas (Whisper Large-v3)

Afrikáans, Albanés, Amárico, Árabe †, Armenio, Asamés, Azerbaiyano, Baskir, Vasco, Bielorruso, Bengalí, Bosnio, Bretón, Búlgaro, Birmano, Cantonés, Catalán, Chino (mandarín) †, Croata, Checo, Danés, Neerlandés †, Inglés †, Estonio, Feroés, Finlandés, Francés †, Gallego, Georgiano, Alemán †, Griego, Guyaratí, Criollo haitiano, Hausa, Hawaiano, Hebreo, Hindi †, Húngaro, Islandés, Indonesio †, Italiano †, Japonés †, Javanés, Canarés, Kazajo, Jemer, Coreano †, Lao, Latín, Letón, Lingala, Lituano, Luxemburgués, Macedonio, Malgache, Malayo, Malayalam, Maltés, Maorí, Maratí, Mongol, Nepalí, Noruego, Nynorsk, Occitano, Pastún, Persa, Polaco, Portugués †, Panyabí, Rumano, Ruso †, Sánscrito, Serbio, Shona, Sindhi, Cingalés, Eslovaco, Esloveno, Somalí, Español †, Sundanés, Suajili, Sueco, Tagalo †, Tayiko, Tamil, Tártaro, Telugu, Tailandés, Tibetano, Turco †, Turcomano, Ucraniano, Urdu, Uzbeko, Vietnamita †, Galés, Yidis, Yoruba.

† indica los idiomas con diarización de hablantes a nivel de palabra mediante xAI Grok STT. Los demás idiomas se transcriben (solo texto) sin atribución por hablante.

Fuente de la lista de idiomas de Whisper: github.com/openai/whisper. Fuente de la cobertura de idiomas de Grok STT: documentación de xAI Voice.

Platform availability

ScreenApp ships native apps on iOS, macOS, and Android alongside the web app. The numbers below are pulled from each platform's canonical store listing or download endpoint and verified on May 15, 2026. This section is refreshed every release cycle.

iOS app (iPhone, iPad, Apple Silicon Mac via Catalyst)

Listed name: ScreenApp: AI Voice Recorder
App Store rating: 4.0 stars across 94 ratings (Apple iTunes Lookup, May 2026).
Current version: 1.4.25, released March 23, 2026.
First public release: March 18, 2025.
Minimum iOS: 15.0.
Installer size: 103.6 MB.
Supported devices: universal binary covering iPhone 5s through iPhone 17 Pro Max, every iPad from iPad Air onward (including the M4 and M5 iPad Pro lines), iPod touch 6th and 7th generation, and Apple Silicon Macs via Mac Catalyst.
Category and content rating: Productivity, age 4 plus, free.
Publisher: ScreenApp Pty Ltd.
App Store URL: apps.apple.com/us/app/screenapp-ai-voice-recorder/id6741723588.

iOS App Privacy nutrition label

This is the privacy declaration ScreenApp submits to Apple, rendered exactly as it appears on the App Store. Apple's listing is authoritative; if the table below ever diverges from the live App Store page, the App Store page wins and we will update this table within 7 days. ScreenApp declares no tracking data.

Group	Category	Data types
Data Used to Track You	None. ScreenApp does not declare any tracking data.
Data Linked to You	User Content	Photos or Videos, Audio Data
	Identifiers	User ID
	Diagnostics	Performance Data
Data Not Linked to You	Identifiers	Device ID
	Contact Info	Email Address, Name
	Diagnostics	Crash Data, Other Diagnostic Data

Canonical source: the App Privacy section on the ScreenApp App Store page. Full data handling policies on the Trust Center.

macOS (native desktop app)

Distribution: direct DMG download from screenapp.io/desktop. The Mac app is not currently on the Mac App Store; the DMG is the canonical install path.
Installer size: 67.9 MB (ScreenApp-latest.dmg).
Last build pushed: March 22, 2026.
Versioning: rolling release. The installer URL is ScreenApp-latest.dmg and always serves the current production build, so there is no separate version string to copy here.
Architectures: universal binary for Apple Silicon and Intel Macs.
iOS app on Mac: Apple Silicon Macs can also run the iOS app above via Mac Catalyst from the App Store. The native DMG is recommended for desktop workflows that need system audio capture, larger uploads, or background recording.

Android

Listed name: ScreenApp - AI Voice Recorder
Google Play rating: 3.9 stars across 678 ratings (Google Play structured data, May 2026).
Installs: 50,000 plus.
Last update: May 8, 2026.
Category and content rating: Productivity, age 3 plus, free.
Package name: io.screenapp.screenapp_mobile.
Play Store URL: play.google.com/store/apps/details?id=io.screenapp.screenapp_mobile.

Rating and review counts move daily on the App Store and Google Play. The numbers on this page are point-in-time snapshots, dated above. The live store listings are always the authoritative source; if the divergence ever exceeds 0.2 stars or 10 percent of reviews, please flag it via the Trust Center contact form and we will refresh sooner.

Selected customer reviews

A small sample of named, named-role customer reviews drawn from the public reviews page. These are samples, not the full corpus. Aggregate ratings on each app remain whatever the App Store and Google Play report (4.0 stars across 94 ratings on iOS, 3.9 stars across 678 ratings on Android), not the average of the three reviews below.

Mobile and Desktop Excellence

The desktop and mobile apps are fantastic. Recording meetings while I'm mobile has never been easier, and the dictation feature is a huge time-saver. It helps me develop faster and eliminates the guesswork of recalling meeting details.

Kelvin, Software Engineer

A terrific and pleasant recording system

Our overall experience with ScreenApp has been nothing but pleasant. Their support is terrific, and ScreenApp is a great recording system.

Aaron, Verified Capterra User

Game-Changer for Client Calls

Our team was drowning in client feedback until we found ScreenApp. Now we record every presentation and client call, and the AI summaries are spot-on. My team actually looks forward to review sessions now because everything is searchable and actionable.

Millie, Director

Production corpus

The numbers below are real production counts, pulled at build time from the same MongoDB cluster the dashboard reads from. They are not marketing rollups, not rounded, and not estimated. Refresh cadence: every deploy. Last pulled: May 25, 2026.

485,000

recordings processed

transcribed and analysed in production

1,680,000

speakers diarized

unique speaker turns identified across the corpus

275,000

AI Q&A sessions

questions asked against transcribed media

114,000

voice dictations

captured via browser, iOS, and Android

56,000

meeting-bot sessions

across Google Meet, Microsoft Teams, and direct integrations

299,000

analysed video metadata sets

meeting type, speakers, companies extracted

Recent activity (indexed proxy via videometainfo.createdAt): 1,500 recordings analysed in the last 24 hours, 9,500 in the last 7 days, 40,000 in the last 30 days. Daily rate of roughly 1,333 analyses per day.

Why videometainfo and not recordings directly: recordings._id is a UUID, so we cannot do indexed time-range queries on it. Each videometainfo doc maps 1:1 to a recording via the unique recordingId index, so the time-windowed counts above are a faithful proxy. Methodology and the open query module: below.

Base de usuarios

2,163,740 cuentas registradas a mayo de 2026. La cifra refleja las cuentas únicas con correo verificado en nuestra base de datos de producción. Actualizamos este número trimestralmente en esta página.

No publicamos afirmaciones de marketing con cifras redondeadas como "2 millones de usuarios" sin el conteo subyacente verificable, ni en esta página ni en ninguna otra. Si alguna vez ves una cifra de usuarios inflada o sin fecha en una página de ScreenApp, es un problema de calidad de contenido y queremos saberlo: contáctanos a través del Trust Center.

How we count

Every numeric claim on this page and across screenapp.io that depends on production data follows the same pipeline. Numbers are not curated, edited, or rounded for marketing.

Source of truth: the ScreenApp production MongoDB cluster — the same database the dashboard, mobile apps, and backend services read from. No marketing database, no cached marketing CMS.
Build-time pull: the marketing site has no direct database access. At each deploy, the static-site build calls a read-only backend endpoint (GET /v2/site-data) that runs a small set of indexed aggregations and returns scalar counts. The query module is open inside the same repo at scripts/site-data-queries.ts.
Frozen for the build: the returned numbers are written to a local SQLite file (data/stats.db) and read synchronously by every page at static-generation time. Within a single deploy the numbers do not drift; between deploys they refresh.
Soft fail: if the endpoint is unavailable or returns an unexpected shape, the previous deploy's figures are reused and the build proceeds. The site never ships placeholder text in place of a missing number.
Last refresh: the data on this page was pulled on May 25, 2026.

If you ever spot a number on the site that disagrees with a figure on this page, please flag it via the Trust Center. A divergence is a bug.

Acceso gratuito y precios

Dos maneras de usar ScreenApp sin pagar por adelantado:

Registro gratuito (Free Forever): Procesa una grabación gratis. Sin tarjeta de crédito. Sin vencimiento. Después de tu primera grabación, necesitarás un plan de pago o la prueba de 7 días para continuar. Esto es lo que queremos decir con "Free Forever": la primera grabación es gratis indefinidamente, no grabaciones ilimitadas gratis.
Prueba de 7 días del plan Growth: Acceso completo al plan Growth durante 7 días. Se requiere tarjeta de crédito (no cobramos hasta el día 8 y puedes cancelar en cualquier momento durante los 7 días sin costo). Después del día 7, se cobra a la tarjeta $228/año.

Planes de pago

Growth: $19/mes facturado anualmente ($228/año). Grabaciones ilimitadas durante la suscripción activa. La prueba de 7 días anterior corresponde a este plan.
Business: $34/mes facturado anualmente. Agrega límites más altos de tamaño de archivo, espacios de trabajo en equipo y SSO para planes empresariales.
Facturación mensual: disponible a tarifas mensuales más altas sin la prueba de 7 días.

Precios actuales y desglose de funciones en la página de precios. Lo que NO ofrecemos: un nivel gratuito mensual recurrente con X minutos al mes, una prueba "sin tarjeta de crédito" del plan de pago, ni grabaciones gratuitas ilimitadas. Si ves alguna de estas afirmaciones en este sitio, es un problema de calidad de contenido, por favor repórtalo a través del Trust Center y corregiremos la página de origen.

Seguridad y cumplimiento

Auditado anualmente bajo SOC 2 Type 2. 22 políticas internas que cubren control de acceso, clasificación de datos, desarrollo seguro y respuesta a incidentes. Monitoreo continuo de controles.

Postura de seguridad en vivo completa, reporte SOC 2 Type 2 descargable y cuestionario de seguridad pre-llenado en nuestro Trust Center (trust.inc/screenapp).

Fuentes y benchmarks externos

Caso de estudio ScreenApp + Groq: números de velocidad y costo de la capa de inferencia.
Groq: Whisper a 164x en tiempo real: benchmark independiente de Artificial Analysis sobre Whisper Large-v3 en la inferencia de Groq.
Lanzamiento de xAI Grok Speech-to-Text: benchmarks de diarización, lista de idiomas, referencias a producción en Tesla y Starlink.
Dapta: comparación de precios de Grok Voice API: confirmación independiente de que Grok STT está por debajo de Deepgram y ElevenLabs en aproximadamente 60%.
MarkTechPost: xAI lanza APIs Grok STT y TTS: cobertura de terceros sobre el lanzamiento.
Model card de OpenAI Whisper Large-v3: líneas de base publicadas de WER y la mejora del 10 al 20% sobre Large-v2.
openai/whisper en GitHub: lista completa de 99 idiomas y detalles del modelo.
Tabla de líderes Speech-to-Text de Artificial Analysis: benchmarks independientes de terceros de WER y velocidad entre proveedores.
jiwer: la librería de puntuación de WER utilizada en nuestras repeticiones de prueba por idioma.
Trust Center de ScreenApp: reporte SOC 2 Tipo 2, 22 políticas internas, subprocesadores, cuestionario de seguridad.

Erratas y correcciones

Los números en las páginas de ScreenApp deben coincidir con esta página. Si encuentras una página de funciones que contradiga estas cifras, es un error de calidad de contenido que queremos corregir. Repórtalo a través del formulario de contacto del Trust Center y actualizaremos la página de origen en 7 días.