现代语音合成技术的演变与挑战-在线AI转换官网

使用教程

现代语音合成技术的演变与挑战

语音合成是利用计算机技术人工生成语音的过程，亦即将书面文本自动转换为声学语音信号的技术，通常称为TTS（文本转语音）。早在十八世纪，首批被称为“说话头”（têtes parlantes）的语音合成系统便已出现。这些早期的尝试主要集中在机械方法上，但它们对人类声音的模仿程度非常有限。语音合成技术在随后的几个世纪中不断发展。二十世纪中叶，机械模型被半电动和电动模型所取代。那时，发音合成和共振峰合成两种模拟声道共鸣特性的方法相继出现。随着信息技术的发展，二十世纪70年代计算机语音合成模型开始出现，并且出现了与之前方法有显著不同的串联合成（concatenative synthesis）方法。

研究目标

21世纪的现代语音合成技术基于复杂的方法和先进的算法。在2010-2014年间，竞争性的语音合成方法包括：单元选择合成、统计参数语音合成和结合这两种方法的混合合成方法。尽管语音合成系统种类繁多，但它们都有共同的限制。因此，本文旨在介绍当前的语音合成方法，并深入探讨它们的缺陷和限制。

作为前期工作，我们审查了100多篇相关论文，涵盖了语音合成系统设计、构建和实施的主要研究成果。通过这些研究，我们诊断了语音合成系统的薄弱环节，无论采用何种设计方法，并确定了未来需要解决的问题。

语音合成系统的分类、构建和功能

文本到语音系统的工作原理是将输入的文本自动转换为语音。输入是数字化的书面文本，输出是合成的语音。TTS系统在合成语音时经历两个基本阶段：

1-s2.0-S1319157824002209-gr6.jpg

文本分析：描述文本中的语言规则。

语音合成：根据文本的语言描述规则生成与输入文本对应的语音声音。

在第一阶段，语言规则不仅决定如何正确发音单词，还涉及到如何发音缩写、专业术语、专有名词等。文本的语言分析由NLP（自然语言处理）模块进行，输入句子被分解为单词列表。识别出的数字、日期、缩写和首字母缩略词被转换为规范形式。接着进行形态学分析，为列表中的每个单词分配所有可能的词性，并在上下文中分析所有单词。这能将所有可能的词性缩小到少量的高概率假设中，考虑到邻近单词的词性。在最后一步，句法韵律分析器确定结果文本的结构，以尽可能符合预期的韵律表现。

在第二阶段，合成算法模拟声道系统的作用。生成的语音声音代表输入文本。此阶段包括自动音位化，即自动确定输入文本的音标转录。为此使用LTS（字母到声音）转换，预测单词的发音。然后，通过诸如音调、声音长度和响度等韵律特征，实现语音信号。旋律线的正确实现非常困难，因为许多因素影响韵律，包括句子的意义、情感和说话者的特征。

最终，语言分析过程中获得的音位转录和韵律信息被转换为合成语音的声学波形。为此，使用DSP（数字信号处理）模块，也称为语音合成器。

了解了语音合成器的一般工作原理后，我们将探讨目前使用和开发的语音合成系统的结构。这些系统的DSP模块会根据所采用的语音合成方法有所不同。一般来说，目前使用和开发的语音合成系统可以分为以下几种类型：串联合成、统计参数合成和混合合成。

串联合成

串联合成通过将单独的单元（如音素、双音素、三音素、微段、音节）组合成语音。它主要分为三种子类型：

领域特定合成：用于特定领域的应用（如说话时钟、说话计算器、说话天气预报等）。这种系统的词汇库非常有限，生成的语音是预录的单词和短语的组合。
双音素合成：使用包含所有双音素的语音数据库，每个双音素都有一个录音样本（即两个相邻字母之间的过渡）。不同语言的双音素数量可能差异很大。例如，西班牙语有约800个双音素，而德语有约2500个。句子的目标韵律通过选定的数字信号处理技术（如LPC、PSOLA或MBROLA）进行建模。
单元选择合成（也称为基于语料库的语音合成）：与双音素合成的最大区别在于语音段的长度。单元选择合成数据库包含完整的单词和短语，因此数据库比双音素数据库大得多。这使得系统使用大量内存，同时中央处理单元的利用率较低。

在串联合成中，单元选择合成是最有效且最受欢迎的类型，其语音段数据库包含经过精心准备的语料，包括不同长度的录音单元。创建语音时，使用一种称为成本函数的功能，该函数枚举了生成给定表达集的所有可能方式。成本函数的值包括目标成本和连接成本。目标成本衡量单元与目标序列的语言规范的匹配程度，连接成本检查相邻单元的最佳连接方式。目标成本的加权和成本优化对合成质量有重要影响。

统计参数语音合成系统

统计参数合成基于数学方法生成语音信号。该方法使用上下文依赖的隐马尔可夫模型进行声学模型训练。建模系统是一个具有未知参数的马尔可夫过程，挑战在于根据可观察参数确定隐藏参数的值。在此系统中，频谱（声道）、基频（源声音）和韵律是统计建模的对象。

相较于单元选择合成和串联合成，基于隐马尔可夫模型（HMM）的语音合成技术的主要优势在于，能够在较小的数据库基础上进行说话风格的调整，且合成质量与单元选择合成和串联合成相当。

尽管串联合成生成的语音与自然人类语音几乎无法区分，但当所需的语音段不在数据库中时，该系统会出现问题。这是因为即使是最大的语料库也无法覆盖所有语音段的上下文变体。这种对数据的强依赖性使得该方法非常不灵活，合成语音的特征只能通过构建额外数据库或使用降质的DSP算法来修改。

相比之下，统计参数方法不仅能够生成与最佳单元选择合成器相当的语音质量，还可以合成新的段落，并且对语音输出特征进行几乎无限制的有效修改。因此，基于统计模型的语音合成技术正获得越来越多的认可。

标签：语音合成，串联合成，统计参数合成，

上一篇:声音的未来：神经网络文本转语音技术下一篇:如何进行多人配音合成