拖放或粘贴音频文件 - MP3、WAV、M4A、AAC、OGG 或 FLAC,每个文件最大 2GB - 并获得即时转录、AI 摘要以及可提问的聊天框。 上传通过浏览器中的单个拖放区运行;文件一旦落入,处理就会开始。输出包括带时间戳的转录支持 99 种语言、您可以编辑的摘要、可共享的播放链接以及在音频内容上训练的 AI 聊天。只需要转录?请参阅转录工具。
上传通过符合 GDPR 标准的服务器上的 AES-256 加密运行。默认情况下,每个文件都是私有的,可以选择密码保护和自动恶意软件扫描。
音频文件上传服务 - 输入和输出
上传音频文件,该服务返回四个项目:流媒体链接、完整转录、AI 生成的摘要和一个私人聊天窗口,您可以在其中提出有关录音的问题(“第二个发言人说了关于预算的什么?”)。
音频上传流程的运行方式:
- 将文件拖到拖放区,单击以浏览,或从剪贴板粘贴
- 文件上传到音频文件上传服务,同时并行开始转录
- 转录、摘要和可共享的链接出现在仪表板中,通常对于一小时的录音来说在一分钟内完成
音频文件上传服务接受的音频文件输入:
- MP3(任何比特率)
- WAV(PCM,16/24 位)
- M4A(MP4 容器内的 AAC)
- AAC(原始)
- OGG(Vorbis 和 Opus)
- FLAC(无损)
- 付费计划中最大 2GB 的文件,免费计划中最大 100MB
音频上传服务在流媒体播放期间保留源比特率,并对单独的副本进行重新采样以进行转录。这两个过程都不会覆盖您上传的原始文件。
在线免费上传 MP3。 无需信用卡,第一个文件无需注册。将音频文件拖放到页面中,转录将在几秒钟内出现。
上传音频文件后您将获得什么
每次上传都会生成一个单独的处理记录,您可以稍后返回。该记录同时包含四件事:原始文件(可下载)、带有发言人标签和时间戳的转录、您可以重新生成或编辑的摘要以及与音频内容相关的聊天线程。
托管的播放链接是一个副作用,而不是重点。它可以在没有帐户的手机和桌面上运行,但音频上传服务的主要价值在于音频现在是可搜索的文本,可以通过聊天查询,并可以导出为 TXT、SRT、VTT、DOCX 或 JSON。
上传的音频文件为您提供:
- 99 种语言的带时间戳的转录
- 指向其引用的时间戳的 AI 摘要
- 回答有关录音问题的聊天
- 发言人标签(当音频有多个发言人时)
- 用于字幕的 SRT 和 VTT 字幕文件
- 具有可选密码的可共享播放链接
- 每个文件的分析:播放次数、地理位置、完成率
音频文件上传服务处理单个拖放、剪贴板粘贴或一批文件(付费计划中一次最多 50 个)。如果您需要改为移交源视频,则视频到链接转换器涵盖 MP4/MOV,而从视频中提取音频提取音频以进行单独处理。
音频上传如何从浏览器运行到文本
当您将 MP3 文件拖放到页面上时,会发生三件事:浏览器开始分块上传,后端注册一个转录任务,并打开一个占位符记录,以便您可以查看进度。在 50 Mbps 的连接上,一个小时的 MP3 文件的典型时间是 10 秒的上传和 60 秒的转录,这两者大部分是并行运行的。
音频文件经过的步骤:
- 拖放区域接受文件(拖动、点击浏览或剪贴板粘贴)
- 字节以 5MB 的块流式上传,如果连接中断,则支持恢复
- 转录从第一个块开始,并在最后一个块到达后不久完成
- 文本记录、摘要和聊天都附加到同一条记录
批量上传允许付费用户将最多 50 个音频文件排队。队列并行处理,而不是串行处理,因此包含 20 个讲座录音的文件夹完成时间大致等于最慢的一个录音的时间。
您可以为每次上传切换的设置:
- 可共享链接的自定义 URL(付费)
- 播放页面上的密码保护
- 转录语言(自动检测或选择 99 种之一)
- 扬声器标签打开或关闭
- 公开、不公开或私有可见性
- 用于博客文章的可嵌入播放器代码段
免费帐户将每次上传的文件大小限制为 100MB。付费计划将上限扩展到 2GB,并解锁优先转录,这会将文件移动到队列的前面。
立即尝试上传音频文件流程。 无需卡,首次上传无需注册。 放入一个。
为什么要上传音频文件而不是将其附加到电子邮件?
邮件服务器拒绝超过 25MB 的附件,许多公司网关完全阻止压缩音频。音频上传服务为您提供一个托管链接,收件人可以从任何浏览器播放,以及他们可以在收听之前浏览的转录 - 电子邮件附件为他们提供一个他们必须下载、保存并在其他地方打开的图标。
好的音频文件上传服务与通用文件托管服务有什么区别?
一个好的音频文件上传服务能做到通用托管服务做不到的三件事:它会转录文件,它会为转录内容添加说话人标签,并且它会为你提供一个可搜索的音频内容聊天界面。Dropbox 或 Google Drive 存储文件;而音频上传服务会将文件转换为你可以阅读、搜索和提问的文本。
音频文件上传服务与 Otter, Notta, Sonix, Trint, Descript 的比较
| 规格 | ScreenApp | Otter.ai | Notta | Sonix | Trint | Descript |
|---|---|---|---|---|---|---|
| 最大文件大小 | 2GB (付费),100MB (免费) | 5GB (商务) | 5GB (专业) | 4GB | 4GB | 5GB |
| 接受的格式 | MP3, WAV, M4A, AAC, OGG, FLAC | MP3, WAV, M4A, AIFF | MP3, WAV, M4A, AAC, CAF | MP3, WAV, M4A, AAC, AIFF, FLAC | MP3, WAV, M4A, AIFF, OGG | MP3, WAV, M4A, AAC, FLAC |
| 处理时间 (1 小时文件) | ~1 分钟 | 5-10 分钟 | 5-8 分钟 | 5-10 分钟 | ~ 实时 | 5-15 分钟 |
| 免费层级时长 | 300 分钟/月 | 300 分钟/月 | 120 分钟/月 | 30 分钟 (一次性) | 无 (仅试用) | 60 分钟/月 |
| 输出格式 | TXT, SRT, VTT, DOCX, JSON, MP3 流 | TXT, DOCX, PDF, SRT | TXT, DOCX, SRT, PDF, XLSX | TXT, DOCX, SRT, VTT, JSON, PDF | TXT, DOCX, SRT, VTT, EDL | TXT, SRT, MP4, MP3 |
| 音频上的 AI 聊天 | 是 | Otter Chat (付费) | Notta Chat | 否 | 否 | 否 |
| 语言 | 99 | 仅英语 (付费:3) | 58 | 49 | 40+ | 22 |
各自的适用之处:
- vs Otter.ai: Otter 围绕实时会议捕捉和英语通话构建了其产品;上传的音频文件在队列的末尾转换,并且 Otter Chat 受到 Pro 计划的限制。此处的音频上传服务将上传的文件视为一等公民,并在 99 种语言的免费层级中提供 AI 聊天。
- vs Notta: Notta 接受类似范围的格式并列出 58 种语言,但免费上传限制为每个文件 5 分钟,每月上限为 120 分钟。此处的 300 分钟免费额度涵盖了更长的播客或两次讲座录音,然后您才会达到限制。
- vs Sonix: Sonix 是一种按需付费的转录引擎,价格为 10 美元/小时,没有经常性的免费层级 - 您可以一次性获得 30 分钟。Sonix 没有 AI 聊天,也没有内置的播放链接;此处的上传服务从同一次上传返回聊天、摘要和托管链接。
- vs Trint: Trint 面向新闻编辑室工作流程,具有 EDL 导出和逐字模式,但没有免费层级,起价为 80 美元/月。对于上传偶尔的采访音频而不是运行办公桌的记者来说,此处的每分钟经济效益明显较低。
- vs Descript: Descript 将上传的音频转换为可编辑的文本,您可以剪切以拼接波形 - 功能强大,但学习曲线陡峭。此处的上传和处理流程更接近于“拖放文件,阅读文本”,编辑保持可选。
按格式划分的音频文件上传处理时间
处理时间取决于编解码器、时长以及文件是单声道还是立体声。以下是标准处理队列上一个小时录音的大概数字:
| 格式 | 典型比特率 | 上传时间(50 Mbps) | 转录耗时 |
|---|---|---|---|
| MP3 | 128-320 kbps | 5-15 秒 | 45-70 秒 |
| WAV (PCM 16-bit) | ~1411 kbps | 60-90 秒 | 45-70 秒 |
| M4A | 96-256 kbps | 5-15 秒 | 45-70 秒 |
| AAC | 96-256 kbps | 5-15 秒 | 45-70 秒 |
| OGG (Opus) | 64-128 kbps | 3-10 秒 | 45-70 秒 |
| FLAC | ~900 kbps (无损) | 40-60 秒 | 45-70 秒 |
一个 2GB 的 WAV 上传(上限)在典型的家庭连接上需要几分钟 - 转录本身在字节到达时并行运行,因此文本通常在最后一个字节到达后一分钟内准备就绪。
文件格式决策矩阵
上面的处理时间表告诉你每种格式上传和转录需要多长时间。下面的矩阵回答了一个不同的问题:首先应该使用哪种格式?格式选择取决于你用什么录制以及之后打算如何处理文件。
| 格式 | 最适合 | 压缩 | 最大推荐长度 | 备注 |
|---|---|---|---|---|
| MP3 (320 kbps) | 通用音频,播客 | 有损,高质量 | 最多 4 小时 | 普遍支持 |
| WAV | 专业音频,母带 | 未压缩 | 1-2 小时 | 文件大,质量最佳 |
| M4A, AAC | iPhone 语音备忘录,现代应用 | 有损,高效 | 4+ 小时 | Apple 设备上的默认设置 |
| FLAC | 存档,发烧友 | 无损 | 4+ 小时 | 比 WAV 小,质量相同 |
| OGG, Opus | 流媒体,语音聊天 | 有损,非常高效 | 可变 | 常见的网络平台 |
| WebM 音频 | Web 提取的音频 | 有损 | 2-3 小时 | 来自视频文件 |
| 3GP | 较旧的移动录音 | 有损 | 1 小时 | 上传前转换以获得最佳效果 |
经验法则:如果文件来自手机,则为 M4A。如果文件来自播客 DAW,则可能为 WAV 或 MP3。如果文件来自会议平台的云录制,则很可能为 M4A (Zoom) 或从 MP4 提取的音频(Meet、Teams)。所有这些都可以直接上传。转录管道在将其传递给语音模型之前,会将所有内容标准化为 16 kHz 单声道 PCM 内部表示,因此源格式不会改变生成的文本准确性(根据 2026 年 4 月 WER 重新测试)。
上传后,你可以将结果导入转录工具进行编辑,或者如果你的音频是录制会话的配乐,则将输出交给 AI 视频摘要器。
谁使用音频文件上传服务
播客制作者处理录音。 完成的播客剧集以立体声 WAV 或 MP3 的形式出现在硬盘上。将其放入上传服务以获取节目说明的文本,剧集描述的摘要,以及在文件到达 Apple Podcasts 或 Spotify 之前的主持预览链接。
记者上传采访音频。 记者带着录音机走出新闻发布会,可以直接从设备上传 M4A,并从可搜索的文本中提取引言,而音频仍然很热。说话人标签和时间戳意味着 90 分钟的采访可以在几分钟内扫描完成。
学生上传讲座录音。 手机、录音笔和 Zoom 录音会生成 M4A 或 MP3 文件。上传音频文件会生成学生可以搜索(“讲师何时提到焓?”)、突出显示并粘贴到学习笔记中的文本。
转录员将文件馈送到管道中。 自由职业转录员和机构使用在线上传 MP3 端点作为预先传递:AI 草稿文本在一分钟内到达,人工转录员进行更正而不是从头开始键入。带有单词级时间戳的 JSON 输出可插入现有编辑器。
可访问性团队从纯音频源生成字幕。 公共广播档案、口述历史和呼叫中心录音通常仅以音频形式存在。上传服务从这些纯音频源生成 SRT 和 VTT 文件,以便可以将它们与静态波形配对或作为 WCAG 1.2.1 下的文本替代方案发布。
音频文件上传服务还处理来自临床医生的语音备忘录、来自寻求唱片公司的音乐家的演示曲目以及合规团队需要纸质记录的培训音频。
常见问题解答
如何上传音频文件?
将文件拖到拖放区,点击拖放区以打开文件选择器,或从剪贴板粘贴音频。音频文件上传服务接受 MP3、WAV、M4A、AAC、OGG 和 FLAC 格式。文件在接收到第一个数据块时就开始转录——您无需等待上传完成即可开始处理。
上传音频文件服务是免费的吗?
每月前 300 分钟是免费的。免费帐户每次上传的文件最大为 100MB;付费计划将其扩展到 2GB。免费层级不需要信用卡。
上传服务支持哪些音频文件格式?
任何比特率的 MP3、16 位或 24 位 PCM 的 WAV、M4A(MP4 容器中的 AAC)、原始 AAC、OGG(Vorbis 或 Opus)和 FLAC 用于无损音频。如果您的文件格式不常见,该服务将拒绝上传,而不是静默地重新编码。
如何在线上传 MP3 而无需注册?
打开页面,将您的 MP3 拖放到拖放区,文件将匿名上传和转录。如果您想保留文件、通过永久链接分享文件或处理超出每次会话限制的文件,您才需要一个帐户。
上传的音频文件可以有多大?
免费层级为 100MB,付费计划为 2GB。2GB 的上限大约适合 30 小时的标准 MP3、3 小时的 24 位 WAV 或 8 小时的 FLAC。
上传完成后,处理需要多长时间?
对于一小时的音频文件,大约需要一分钟。转录与上传并行进行,因此从点击拖放区到阅读转录文本的实际时间,对于典型的讲座或播客,通常在两分钟内。
上传的音频文件是私密的吗?
是的。默认情况下,文件是私密的。AES-256 加密应用于静态和传输中,文件在到达时会经过恶意软件扫描,并且您可以为每个文件添加密码保护或非公开/私有可见性。
我可以一次批量上传多个音频文件吗?
是的。付费计划允许在单个批次中上传最多 50 个音频文件,并并行处理它们。仪表板显示每个文件的进度行,因此您可以查看哪些转录文本首先准备就绪。