如何使用 AI 语音将文本转换为语音
Text to SpeechBeginner

如何使用 AI 语音将文本转换为语音

了解如何使用 AI 将文本转换为语音。完整指南,涵盖 TTS 语音、PDF 转音频、文档旁白、自然语音生成以及使用 ScreenApp 创建有声读物。

为什么要将文本转换为语音?

文本转语音 (TTS) 技术将书面内容转换为口语音频,使人们可以在进行多任务处理、通勤或不方便阅读时访问信息。现在,AI 声音听起来非常自然,使聆听与阅读一样引人入胜。

常见的文本转语音用途:

  • 可访问性: 使视力障碍或阅读障碍用户可以访问内容
  • 多任务处理: 在开车、锻炼或做家务时收听
  • 学习: 听觉学习方式或语言练习
  • 内容再利用: 将博客文章变成播客,文章变成有声读物
  • 生产力: 更快地阅读研究论文、报告或电子邮件
  • 配音: 为视频、演示文稿或演示生成旁白

你需要什么

在将文本转换为语音之前:

  • 文本内容(键入的、PDF、文档或 URL)
  • ScreenApp 帐户(在 screenapp.io 免费)
  • 用于 AI 处理的互联网连接
  • 用于播放的耳机或扬声器(可选)

ScreenApp 文本转语音的工作原理

ScreenApp 使用先进的 AI 语音生成技术:

  1. 文本输入: 粘贴文本、上传文档或从 URL 导入
  2. 语音选择: 从 100 多个自然 AI 语音中选择
  3. 语言选择: 支持 60 多种语言和方言
  4. AI 处理: 神经文本转语音引擎生成音频
  5. 自定义: 调整速度、音调和强调(可选)
  6. 导出: 下载为 MP3、WAV 或在线流式传输

ScreenApp TTS 优势:

  • 听起来自然的 AI 声音(非机器人)
  • 多种语言和口音
  • 无限文本长度(Pro 没有字符限制)
  • 快速处理(实时或更快)
  • 高质量的音频输出
  • 通过链接轻松分享

分步指南:将文本转换为语音

步骤 1:输入您的文本

导航至 ScreenApp 文本转语音

选项 A:直接粘贴文本

  1. 点击 “粘贴文本” 标签
  2. 从任何地方复制文本(文章、电子邮件、笔记)
  3. 粘贴到文本框中(Ctrl+V 或 Cmd+V)
  4. 最多 500,000 个字符(Pro 帐户)

最适合:

  • 短篇或段落
  • 快速转换
  • 您编写的自定义内容

选项 B:上传文档

  1. 点击 “上传文档” 标签
  2. 拖放或点击浏览
  3. 支持的格式:
    • PDF: 自动提取所有文本
    • Word (DOCX): 保留格式和结构
    • TXT: 纯文本文件
    • EPUB: 电子书
    • PowerPoint (PPTX): 幻灯片文本
    • HTML: 网页

最适合:

  • 长文档
  • 研究论文
  • 书籍或电子书
  • 报告或演示文稿

选项 C:从 URL 导入

  1. 点击 “从 URL 导入” 标签
  2. 粘贴网页或文章 URL
  3. ScreenApp 提取可读文本(删除广告、导航等)

支持的 URL:

  • 博客文章和文章
  • 新闻网站
  • 维基百科页面
  • Medium 文章
  • Notion 页面(公开)
  • Google 文档(公开或具有访问权限)

最适合:

  • 在线文章
  • 研究内容
  • 基于 Web 的文档
  • 共享文档

步骤 2:选择 AI 语音

在输入文本后,从下拉菜单中选择语音:

语音类别:

标准语音(免费):

  • Sarah(女性,美式英语): 专业、清晰、中性
  • James(男性,美式英语): 权威、深沉、新闻主播风格
  • Emma(女性,英式英语): 英式口音,成熟
  • Oliver(男性,英式英语): 英式口音,温暖

神经语音(专业版):

  • Aria(女性,美式英语): 自然、对话式、友好
  • Davis(男性,美式英语): 魅力四射、充满活力、播客风格
  • Natalie(女性,法语): 母语法语使用者
  • Liam(男性,澳大利亚英语): 澳大利亚口音,放松

多语言语音:

  • 西班牙语(西班牙和拉丁美洲)
  • 法语(法国和加拿大)
  • 德语
  • 意大利语
  • 葡萄牙语(巴西和葡萄牙)
  • 日语
  • 韩语
  • 中文(普通话和粤语)
  • 以及 50 多种其他语言

语音选择提示:

对于有声读物:

  • 选择富有表现力的讲故事语音(Aria、Davis)
  • 使语音与内容语气相匹配(专业与休闲)
  • 考虑使用多语音进行对话(不同角色)

对于学习内容:

  • 清晰、中性的语音(Sarah、James)
  • 针对复杂主题降低语速
  • 母语语音用于发音

对于播客:

  • 对话式、充满活力的声音
  • 具有强调的动态语气
  • 专业但平易近人

预览语音:

  • 点击每个语音旁边的**“预览”**按钮
  • 听取文本的示例阅读
  • 在选择之前比较多个语音

步骤 3:调整语音设置(可选)

微调音频输出:

语速:

  • 滑块: 0.5x(慢)到 2.0x(快)
  • 0.75x: 慢而清晰(学习、复杂内容)
  • 1.0x: 正常语速(默认,最自然)
  • 1.25x: 稍微快一点(节省时间,仍然清晰)
  • 1.5x-2.0x: 快速听力(理解练习,节省时间)

音调调整:

  • 降低: 更深沉、更权威的声音
  • 正常: 自然语音音调(推荐)
  • 升高: 更轻快、更有活力的音调

强调和停顿:

  • 自动检测: AI 根据标点符号添加自然强调
  • 自定义: 添加 SSML 标签以进行特定控制(高级)
  • 呼吸: AI 在句子之间插入自然呼吸

背景音乐(专业版):

  • 在叙述后添加微妙的音乐
  • 从环境、专注或充满活力的曲目中选择
  • 调整音乐相对于语音的音量

步骤 4:生成语音

  1. 预览文本(确保格式正确)
  2. 点击**“生成语音”**按钮
  3. AI 处理开始(出现进度条)

处理时间:

  • 1,000 个单词:约 10-20 秒
  • 10,000 个单词(文章):约 1-2 分钟
  • 50,000 个单词(书籍):约 5-10 分钟

处理期间发生的事情:

  • 文本分析(结构、标点符号、强调)
  • 发音字典查找(名称、首字母缩略词、技术术语)
  • 神经语音合成
  • 音频编码(MP3 或 WAV)
  • 质量优化

实时预览:

  • 某些语音支持即时播放
  • 在其余部分处理时开始收听
  • 如果需要,跳到后面的部分

步骤 5:收听和审查

内置音频播放器:

生成完成后:

  1. 出现带有控件的音频播放器
  2. 播放/暂停: 听生成的音频
  3. 前进/后退: 10 秒增量
  4. 速度控制: 在播放期间即时调整
  5. 音量: 独立于系统音量

审查质量:

检查以下元素:

发音:

  • 专有名词发音是否正确?
  • 技术术语或首字母缩略词是否准确?
  • 外语单词或短语是否自然?

节奏:

  • 句子之间有自然的停顿吗?
  • 不会太仓促或太慢吗?
  • 强调重要单词吗?

清晰度:

  • 单词是否清晰可辨?
  • 没有音频失真或故障吗?
  • 音量是否一致?

如果发现问题:

  • 编辑文本(修复拼写或添加语音提示)
  • 尝试不同的声音
  • 调整速度或音调
  • 重新生成音频

步骤 6:下载或分享音频

下载音频文件:

  1. 点击**“下载”**按钮
  2. 选择格式:
    • MP3(推荐): 压缩,文件小,通用兼容性
    • WAV: 未压缩,质量最高,文件大
    • M4A: Apple 格式,良好的压缩
    • OGG: 开源格式,针对网络优化

文件命名:

  • 根据文本标题或第一行自动命名
  • 在下载前自定义文件名
  • 包括日期和使用的语音

在线分享:

  1. 点击**“分享”**按钮
  2. 复制可分享链接
  3. 接收者:
    • 在浏览器中收听(无需下载)
    • 在收听时查看同步文本
    • 自行调整播放速度
    • 可选择下载

集成导出:

  • 播客平台: 生成 RSS feed 用于分发
  • Google Drive: 直接保存到云端
  • Dropbox: 自动同步到文件夹
  • Notion: 在页面中嵌入音频播放器

高级文本转语音功能

用于精确控制的 SSML

语音合成标记语言 (SSML) 提供了精确的控制:

基本的 SSML 示例:

暂停:

欢迎来到本教程。<break time="1s"/> 让我们开始。

结果:在“教程”后暂停 1 秒

强调:

这 <emphasis level="strong">非常重要</emphasis>。

结果:用额外的强调说出“非常重要”

发音:

公司 <phoneme ph="ah-mey-zawn">Amazon</phoneme> 宣布...

结果:控制精确的发音

速度变化:

<prosody rate="slow">慢慢地说</prosody> 但这以正常速度说。

结果:第一句较慢,然后正常

音调变化:

<prosody pitch="high">这听起来很兴奋!</prosody>

结果:更高的音调

Say-as(数字、日期等):

请致电 <say-as interpret-as="telephone">555-1234</say-as>

结果:读作电话号码(五五五,一二三四)

多语音有声读物

创建带有不同角色声音的有声读物:

设置:

  1. 上传书籍或故事
  2. 识别对话部分
  3. 为角色分配不同的声音
  4. ScreenApp 通过声音切换生成

示例:

旁白(莎拉):侦探走进房间。
侦探(詹姆斯):“你昨晚在哪里?”
嫌疑人(艾玛):“我独自在家。”
旁白(莎拉):她紧张地移开了视线。

结果:

  • 具有角色声音的专业有声读物
  • 自然的对话传递
  • 用于描述的旁白声音
  • 无缝的声音过渡

从博客文章创建播客

将书面内容转换为播客剧集:

过程:

  1. 粘贴博客文章文本
  2. 添加片头/片尾音乐
  3. 选择播客风格的声音(对话式)
  4. 生成剧集音频
  5. 导出为带有元数据的 MP3

自动增强功能:

  • AI 删除“网络语言”(点击这里,请参见下文等)
  • 将 URL 转换为口语形式(“访问 example dot com”)
  • 添加自然停顿以进行强调
  • 针对音频优先消费进行优化

播客元数据:

  • 文章标题中的剧集标题
  • 文章摘录中的描述
  • 自动生成的节目说明
  • 带有主题的时间戳章节

批量处理

一次转换多个文档:

用例: 将整套丛书或课程材料变成音频

过程:

  1. 上传多个文件(最多 50 个)
  2. 将相同的声音设置应用于所有文件
  3. ScreenApp 按顺序处理
  4. 下载为单个文件或组合的有声读物

好处:

  • 所有文件中的声音一致
  • 节省时间的自动化
  • 批量导出选项
  • 有组织的库

文本转语音用例

将 PDF 转换为音频以供学习

**目标:**在通勤时收听研究论文或教科书

过程:

  1. 上传 PDF(研究论文、教科书章节)
  2. ScreenApp 提取文本(忽略页眉、页脚、页码)
  3. 选择清晰、专业的声音(Sarah 或 James)
  4. 速度:1.0x 或 1.25x 以便理解
  5. 下载 MP3 到手机

益处:

  • 利用通勤时间进行学习
  • 在锻炼时复习材料
  • 听觉学习强化
  • 免提学习

博客转播客转换

**目标:**将博客内容重新用作播客剧集

过程:

  1. 粘贴博客文章 URL
  2. ScreenApp 提取文章文本
  3. 删除非音频元素(图像、链接、标题)
  4. 选择对话式声音(Aria 或 Davis)
  5. 添加片头/片尾音乐
  6. 生成剧集音频
  7. 上传到 Spotify、Apple Podcasts 等。

内容优化:

  • AI 将书面内容转换为口语风格
  • 删除视觉参考(“如上所示”)
  • 在各部分之间添加自然的过渡
  • 适合音频消费的最佳节奏

电子书转有声读物

**目标:**从购买的电子书创建个人有声读物

过程:

  1. 上传 EPUB 或 PDF 电子书文件
  2. ScreenApp 自动检测章节
  3. 选择富有表现力的旁白声音
  4. 可选:对话角色的不同声音
  5. 逐章生成
  6. 合并成完整的有声读物或保持分离

有声读物功能:

  • 章节标记,方便导航
  • 书签,方便以后恢复
  • 速度控制,满足个人喜好
  • 跨设备同步

视频配音

**目标:**在不录制自己的情况下向视频添加旁白

过程:

  1. 编写视频旁白脚本
  2. 选择与视频语气相匹配的声音
  3. 生成音频
  4. 下载并导入到视频编辑器
  5. 与视频时间线同步

视频类型:

  • 产品演示
  • 教程视频
  • 解释性动画
  • 演示文稿旁白
  • 课程内容

辅助功能增强

目标: 使所有用户都可以访问书面内容

流程:

  1. 上传网站页面、PDF 或文档
  2. 生成音频版本
  3. 在网站上嵌入音频播放器或分享链接
  4. 访问者可以收听而不是(或除了)阅读

辅助功能优势:

  • 视障用户访问内容
  • 诵读困难的读者有音频替代方案
  • 非母语人士听到发音
  • 母语发音的多语言内容
  • 符合 ADA 和 WCAG 标准

优化文本以进行语音合成

格式化技巧

准备文本以获得最佳音频输出:

良好格式:

欢迎来到本教程。今天我们将介绍三个主题。

首先:设置您的环境。
其次:安装依赖项。
第三:运行您的第一个示例。

让我们从设置开始。

不良格式:

欢迎来到本教程今天我们将介绍三个主题首先设置您的环境其次安装依赖项第三运行您的第一个示例让我们从设置开始

格式化规则:

  • 使用正确的标点符号(句点、逗号、问号)
  • 每行一个句子,以便清晰停顿
  • 短段落(更容易收听)
  • 编号或项目符号列表效果良好
  • 避免全部大写(读作单个字母)

发音指南

常见的发音问题:

首字母缩略词:

  • NASA, FBI, CEO:通常读作字母 (N-A-S-A)
  • NASA(首选):添加为“the N-A-S-A mission”或写“National Aeronautics and Space Administration”

名称:

  • 如果 AI 发音错误,请在括号中添加音标拼写:
  • “Dr. Yitzhak Rabin (Itsahk Rah-bean)”
  • “The CEO, Satya Nadella (Sutya Nuh-della)”

数字:

  • “1995” 读作 “one thousand nine hundred ninety-five”(长)
  • 写作 “in nineteen ninety-five” 以获得自然的声音

网址:

  • “Visit example.com” 优于 “Visit h-t-t-p-s colon slash slash example dot com”

解决常见问题

声音听起来像机器人

原因:

  • 使用较旧的 TTS 引擎(标准语音与神经语音)
  • 文本中存在不正确的标点符号
  • 文本不是以自然的对话风格编写

解决方案:

  1. 切换到神经 AI 语音(专业版功能)
  2. 添加正确的标点符号和断句
  3. 以对话的语气重写文本(就像您大声说出来一样)
  4. 使用 SSML 实现自然的停顿和强调

发音错误的单词

原因:

  • 不常见的名称或技术术语
  • 没有上下文的缩写
  • 外来词或短语

解决方案:

  1. 在单词后添加括号内的音标
  2. 使用 SSML <phoneme> 标签进行精确控制
  3. 替换为更简单的替代方案(用“机器学习”代替“ML”)
  4. 将单词提交到自定义发音词典(Pro)

音频中断或跳过

原因:

  • 处理期间的网络中断
  • 损坏的文本文件上传
  • 文件大小对于免费帐户而言太大

解决方案:

  1. 检查互联网连接并重试
  2. 将大型文档拆分为较小的部分
  3. 删除任何特殊字符或格式
  4. 升级到 Pro 以获得更大的文件限制

导出文件过大

原因:

  • WAV 格式(未压缩)
  • 长文档(数小时的音频)
  • 高质量设置

解决方案:

  1. 导出为 MP3(体积小得多,质量相同)
  2. 分成多个较短的文件
  3. 降低导出设置中的比特率(128kbps 足以满足语音需求)

下一步

现在您已经了解了如何将文本转换为语音,请浏览以下相关指南:

立即开始将文本转换为语音

ScreenApp 通过自然的 AI 语音、对 60 多种语言的支持、无限的文本长度和即时音频生成,使文本到语音变得毫不费力。在几分钟内将任何书面内容转换为引人入胜的音频。

准备好将您的第一段文字转换为语音了吗? 免费开始使用 ScreenApp 并让所有人都能访问您的内容。