语音翻译器功能
此语音翻译器可在 99 种语言之间转换语音;翻译质量与源语言的词错误率相关。可上传录音或在浏览器中实时讲话。无需下载,无需账户,无时长限制。
拖入音频文件,获取翻译文本。 上传 MP3、WAV、M4A、MP4、OGG 或 FLAC 文件。模型会转录源语言,翻译成您选择的目标语言,并将结果导出为纯文本、SRT 或 VTT 格式,用于字幕。时长达 3 小时的文件可一次性处理。
实时翻译在同一浏览器标签页中运行。 点击麦克风,讲话,翻译文本将在 1.5 秒内出现。适用于国际支持电话、供应商会议和双语面试等不容等待录音完成的场景(2026 年 4 月延迟基准测试)。
主要功能:
- 从任何源语言自动检测并语音翻译成英语
- 实时语音翻译,延迟低于 1.5 秒
- 上传长达 3 小时的音频文件(MP3、WAV、M4A、MP4、OGG、FLAC)
- 免费的会议、通话和演示文稿实时语音翻译器
- 以 96% 以上的准确率处理口音、方言和背景噪音
- 语音输出,使翻译作为有声音频播放
- 基于浏览器,无需安装
- 带时间戳的文本记录,便于文档归档和搜索
该工具专为录制的会议、播客、采访、客户支持电话和视频内容而构建。使用实时模式进行实时对话,或上传文件进行批处理,并获取可搜索的文本记录。
语言对质量矩阵
翻译质量与转录质量相关。源语言词错误率(WER)低的语言对会产生更清晰的翻译,因为翻译过程中需要解释的模糊输入更少。以下数据来自2026 年 4 月 WER 重测。
| 语言对 | 平均 WER(转录) | 翻译质量 | 备注 |
|---|---|---|---|
| 英语,西班牙语 | 4-5% | 优秀 | 交易量最大、训练最多 |
| 英语,葡萄牙语 | 5-6% | 优秀 | 支持巴西和欧洲变体 |
| 英语,法语 | 5-6% | 优秀 | 覆盖魁北克法语 |
| 英语,德语 | 6-7% | 良好 | 复合词处理正确 |
| 英语,日语 | 7-8% | 良好 | 标点符号重构 |
| 英语,中文 | 7-8% | 良好 | 简体和繁体 |
| 英语,韩语 | 7-8% | 良好 | 保留敬语级别 |
| 西班牙语,葡萄牙语 | 5-6% | 优秀 | 相互理解度高 |
| 英语,阿拉伯语 | 9-10% | 可接受 | 仅限现代标准阿拉伯语,方言覆盖有限 |
| 英语,印地语 | 9-10% | 可接受 | 处理与英语的语码转换 |
对于未列出的语言对,请在每种语言的准确性表格中查找源语言的 WER,并在 WER 级别和最终翻译之间大致增加一个质量等级。10% 以上 WER 范围的语言对仍能产生有用的翻译以理解大意,但预期会有更多专有名词和习语的润色。
如何使用语音翻译器
无论您是上传录音还是实时讲话,该工具都分三步运行。
- 上传音频文件(MP3、WAV、M4A、MP4、OGG、FLAC)或点击麦克风进行实时讲话
- AI 从 100 多种语言选项中自动检测源语言
- 语音以 96% 以上的准确率转换为您的目标语言,并带有时间戳
- 复制文本或下载翻译后的文本记录
支持的语言包括西班牙语、法语、德语、中文、日语、韩语、阿拉伯语、印地语、葡萄牙语、俄语、意大利语和荷兰语,以及 90 多种其他语言。
实时语音翻译器模式可即时处理对话,延迟低于 1.5 秒。它专为商务会议、客户电话、面试和国际演示而设计。在通话过程中点击即可讲话和翻译,无需切换标签页。
麦克风输入直接在浏览器中捕捉您的语音。点击麦克风按钮,授予权限并讲话。AI 会检测语言,翻译内容并显示结果。在桌面和移动浏览器上均可使用。
语音翻译器与其他工具对比
| 功能 | ScreenApp | Maestra | Sonix | Notta | Speechmatics | Veed.io |
|---|---|---|---|---|---|---|
| 支持的语言 | 100+ | 125+ | 53 | 58 | 50+ | 125+ |
| 自动检测源语言 | 是 | 是 | 是 | 是 | 是 | 是 |
| 用于配音输出的语音克隆 | 否(文本转语音) | 是 | 否 | 否 | 否 | 是 |
| 文件大小/长度限制 | 每次上传 3 小时 | 每个文件 5 GB | 4 GB / 5 小时 | 2 GB / 5 小时 | 每个文件 2 GB | 每个文件 2 GB |
| 免费层级 | 无限分钟 | 30 分钟试用 | 30 分钟试用 | 120 分钟/月 | 8 小时/月 | |
| 导出格式 | TXT, SRT, VTT, DOCX | SRT, VTT, TXT, DOCX | SRT, VTT, TXT, DOCX | TXT, SRT, DOCX, PDF | TXT, SRT, JSON | SRT, VTT, TXT |
| 价格(付费) | 免费 | 29 美元/月 | 22 美元/小时 | 14.99 美元/月 | 0.30 美元/小时 API | 24 美元/月 |
- 对比 Maestra: Maestra 克隆说话者的声音,用于目标语言的配音播放,这对于视频本地化非常有用。其免费试用限制为 30 分钟。ScreenApp 使用通用的文本转语音(TTS)声音而非克隆,但免费使用无分钟限制,并直接导出 SRT/VTT。
- 对比 Sonix: Sonix 覆盖 53 种语言,在 30 分钟试用后每小时收费 22 美元。ScreenApp 免费翻译 99 种语言,尽管 Sonix 在长会议录音中具有更强的说话人分离标签。
- 对比 Notta: Notta 每月提供 120 分钟的 58 种语言免费服务,并导出 SRT 用于视频工作。ScreenApp 支持更多文件格式(包括 OGG、FLAC),并取消了每月分钟限制,而 Notta 与 Zoom 和 Google Meet 机器人集成更紧密。
- 对比 Speechmatics: Speechmatics 是一个 API 优先的转录引擎,每音频小时收费 0.30 美元,每月有 8 小时免费。它需要开发人员集成才能进行翻译。ScreenApp 无需代码即可在浏览器中工作。
- 对比 Veed.io: Veed.io 为视频编辑者增加了 AI 语音克隆和屏幕字幕样式,每月提供 30 分钟免费服务。ScreenApp 专注于音频到文本的翻译路径,跳过视频编辑,但免费处理更长的文件(3 小时对比 2 GB)。
带有语音输出的翻译
语音翻译器以目标语言返回文本记录和有声音频。将语音转换为文本后,它会使用文本转语音技术播放听起来自然的音频。
语音输出功能:
- 100 多种语言语音的自然发音,包括区域口音
- 可调节语速,以减慢或加快翻译后的音频
- 大多数语言提供男性或女性语音选项
- 实时对话中的即时播放
- 可下载翻译语音的音频文件
在语言学习、辅助功能或任何阅读文本不方便的场景(例如打电话、驾驶或免提会议)中使用语音输出。口语翻译也有助于发音和语调。
语音翻译器适用人群
发布多语言内容的本地化团队通过翻译器处理源语言配音、广告片段和产品教程,为每个发布市场生成 SRT 文件。100多种语言覆盖范围减少了单次发布所需的供应商数量。
报道外语采访的记者在录制当天上传现场录音。转录文本和翻译会附带时间戳,因此记者可以在不支付额外翻译费用的情况下引用 00:14:32 的引文。
准备双语材料的语言教师将播客或新闻片段放入工具中,提取源文本和英文翻译。学生可以并排比较两者,并且 SRT 导出可以插入到课堂视频播放器中。
处理非英语音频工单的支持团队翻译来自不说团队语言的客户的语音邮件和 Zoom 录音。代理在其帮助台阅读翻译后的文本,并书面回复,而无需将工单路由到双语队列。
常见问题解答
如何将实时音频翻译成英语?
点击麦克风按钮,用任何语言讲话,该工具会在 1.5 秒内返回英文翻译。AI 会从 100 多种选项中检测源语言,并输出英文文本和可选语音。无需安装应用程序。
如何将音频文件翻译成英语?
上传 MP3、WAV、M4A、MP4、OGG 或 FLAC 文件。该工具可检测源语言,并以高精度将语音转换为英文文本。下载带有时间戳的翻译文本,用于文档和搜索。
哪种在线语音翻译器最好?
这取决于具体工作。Sonix 和 Speechmatics 为付费用户提供最清晰的长篇转录文本。当您需要克隆语音进行配音输出时,Maestra 和 Veed.io 会很有用。ScreenApp 支持 99 种语言的音频文件上传和实时语音,免费套餐没有分钟限制,这使其成为即时翻译工作的良好默认选择。
我可以免费使用语音翻译器吗?
是的。免费用户可以无限制地使用 99 种语言的文件和实时翻译。Microsoft Translator 将 365 用户限制为每月 300 分钟。DeepL Voice 免费套餐每天限制 30 分钟。ScreenApp 没有限制。
语音翻译成英语是如何工作的?
对着麦克风讲话或上传录音。AI会从100多种语言中检测出源语言,并在1.5秒内输出英语文本。语音播放是可选的。
我可以导出翻译后的字幕用于视频工作吗?
是的。翻译完成后,在导出菜单中选择SRT或VTT。文件使用源时间戳,因此字幕在Premiere、Final Cut、DaVinci Resolve或YouTube Studio中会显示在正确的帧上。纯文本TXT和DOCX也可用作书面交付物。
该工具会在多方录音中保留说话人标签吗?
当声音清晰分离时,转录本会标记说话人轮次,然后将这些标签带入翻译输出中。对于密集会议录音中重叠的语音,标签将尽力识别,您可能需要检查重叠部分。
实时翻译器是如何工作的?
实时模式使用您的浏览器麦克风。该工具会捕捉音频,运行语音识别,检测源语言,翻译成目标语言,并输出带有可选语音的文本。延迟在1.5秒以内。
我可以翻译视频文件中的语音吗?
是的。上传MP4、AVI、MOV、MKV、WEBM或3GP文件。该工具会提取音频,翻译语音,并返回带有时间戳的完整转录本。以SRT格式导出翻译后的字幕用于视频编辑。
我可以翻译哪些音频文件格式?
MP3、WAV、M4A、AAC、MP4、OGG 和 FLAC。可上传长达 3 小时的文件,并支持自动语言检测。
翻译器中的语音识别准确度如何?
在 99 种语言中,准确率达到 96% 以上(2026 年 4 月模型更新)。常见语言对的准确率更高——西班牙语-英语为 97.2%,法语-英语为 96.8%,普通话-英语为 96.4%。该模型可处理地方口音、方言、背景噪音和专业术语。
语音翻译器可以在手机上使用吗?
可以。它可在 iOS 和 Android 设备的移动浏览器中运行。无需安装应用。界面会适应较小的屏幕。
语音翻译器可以自动检测源语言吗?
可以。AI 使用音素和语音模式分析,从 99 种语言中识别源语言,包括地方方言和口音。您只需选择目标语言。
实时语音翻译器是免费的吗?
是的。免费实时翻译,没有每分钟限制,无需订阅,也无需注册。
语音翻译器安全吗?
是的。音频文件通过HTTPS传输,并在翻译后自动删除。您的音频绝不会用于训练公共AI模型。该工具不需要个人信息或账户。符合GDPR,并采用端到端加密。