国内首个端到端语音大模型

作者： 2024年08月23日快报浏览

NEW THINGS 新东西

1min read

国内首个端到端语音大模型——心辰Lingo 开放内测预约！

拉风的极客2024/08/23

摘要

心辰Lingo大模型将于9月5日在外滩大会上正式发布并开放内测

国内首个端到端语音大模型——心辰Lingo将于8月24日开放内测预约。据悉，心辰Lingo大模型由西湖心辰团队研发，在技术上，具备实时打断、实时指令控制、超级拟人、能说会唱等能力，拥有比 GPT-4o 更出色的中文语音效果。

西湖心辰团队在8月1日发布了内测Demo后，引发了业界的广泛关注。这一技术的突破或将对多个领域产生深远影响，有望引领人机交互进入一个全新的时代。

西湖心辰团队表示：心辰Lingo大模型将于9月5日在外滩大会上正式发布并开放内测。

大模型ai心辰

加密通信——什么是端到端语音加密？

端对端加密技术是国际上认可的安全性最高的传输技术之一。

使用该技术的软件信息只发生在发送方和接收方，即发送前把信息加密，并且对传输端加密，接收后再解密。任何第三方都无法获取信息内容，包括黑客、软件开发商等，保证了信息的隐私性、安全性、抗篡改性。

端对端加密技术在国内并没有得到大面积使用，而是一些小众软件采用了端对端加密技术，服务于需要保护隐私的用户。

蝙蝠加密聊天使用的就是端对端加密技术，目的是为了防止用户信息被第三方获取、篡改和监控。蝙蝠是一款19年上线的国内安全公开的社交软件，除了加密技术还有许多加密功能，用户可以安心使用。

双向撤回：双方开启双向撤回后，任意一方都可以撤回双方所有的信息，不受时间限制，信息销毁后无法恢复。

DurIAN模型介绍

TTS是一种将文本文字转变成人类语言信号的一种技术。 TTS技术优劣的评判标准是生成的语音信号是否正确、清晰、自然。传统的TTS技术包括拼接法和参数法，但是这两种方法生成的语音信号不自然。端到端的TTS技术能够获得相对比较自然的合成效果，但是同样会出现生成效果不稳定、文字重复或者遗漏等缺点。 Expressive TTS 是目前语音合成领域中比较活跃的方向，它和单纯TTS的区别是，它更关注合成声音的风格、情感、韵律等等。普通的端到端TTS技术很难精确控制合成结果的韵律、停顿、节奏。

DurIAN: Duration Informed Attention Network For Multimodal Synthesis 是腾讯AI Lab于2019年发布的一篇论文。不同于普通的端到端语音合成模型，使用attention机制来控制合成结果的alignment，这篇论文的主要思路是抛弃attention结构，使用一个单独的模型来预测alignment，这样方便在实际使用该模型进行语音合成任务时，用户可以比较方便的输入韵律参数从而控制生成结果。

这里简单介绍下 Attention 以及 Alignment 的概念。

Attention机制在TTS框架中的作用是模仿人类发出声音时的机制，即将注意力关注于我们发声时对应的上下文。同样的，Attention模型中，当我们发出当前词语时，我们会寻找源语句中相对应的几个词语，并结合之前的已经发声的部分作出相应的发声，如下图所示，当我们发出“知”这个音时，只需将注意力放在源句中“知”的部分，当发出“力”字时，只需将注意力集中在是力量“这几个字。

Alignment 是对齐的意思，在训练TTS任务的时候，模型需要知道怎么将输入文本与输出频谱进行对齐，常见的方法包括使用 Attention 机制或者训练专门的模型来进行对齐。

笔者之前一段时间的工作内容是歌唱合成，而歌唱合成的主要目标是：生成节奏与音高满足条件的歌声。本文的主要内容是简单介绍DurIAN论文的核心观点，以及阅读上述论文之后对歌唱合成工作的一些启发。本文将从以下几个方面进行解读：

常见的语音合成技术包含：

基于波形拼接的语音合成技术是指在进行语音合成之前，首先将相应的语音片段储存在计算机中，合成语音时根据特定的准则选择相应的语音片段，并使用拼接算法将选择出的语音片段在时域上进行拼接，合成最终的语音。

统计参数语音合成需要一个声码器来将语音信号转化为代表语音特性的短时频域特征，然后使用统计模型来学习文本输入与语音特征之间的关系。

端到端合成系统直接输入文本或者注音字符，系统直接输出音频波形。

与传统的语音合成技术相比，端到端语音合成技术有以下优势：

常见的端到端语音合成模型由一个编码器，一个注意力模块，一个解码器组成，注意力模块负责将编码器的输出与解码器的输出做对齐。

如下图就是一个常见的Tacotron模型的结构图：

但是这样的attention模块可能会遇到一个问题，如果attention模块得不到较好的训练，或者训练数据不是很多的情况下，attention模块的输出矩阵可能就会使得，解码器在解码的时候出现重复或者遗漏的情况。

DurIAN模型是一种多模态的合成框架，它可以合成非常自然的语音，同时它还能合成说话人的面部表情。

DurIAN模型结合了传统参数式语音合成技术以及端到端语音合成技术，从而该模型有自然性以及鲁棒性的优势。

DurIAN模型的核心思想是：使用类似参数式语音合成技术的对齐模块，替换了端到端模型中的注意力模块，从而解决上述问题。

DurIAN模型的主要贡献有：

DurIAN模型图如下图所示：

DurIAN架构的输入是文本序列，输出是梅尔频谱图。DurIAN的架构如上图所示，其中包括：

编码器的输入是文本韵律符号序列,输出是隐状态序列,

其中是包括输入文本和韵律的序列的长度，是不包含韵律信息的输入文本的长度。

时长预测模型的作用是预测每个音素的发声时长，输入是音素序列以及对应时长，输出是每个音速实际发声的时长帧数信息。

对齐模型负责将输出的隐变量按照时长预测模型输出的帧数信息进行扩充，获得与梅尔频谱帧数一致的序列信息，

其中T表示输出的梅尔频谱的帧数。此处帧数扩充的方法是简单的将隐向量根据时长预测模型的输出复制。

处理过后的向量将被输送到解码器中进行自回归的方式解码，

解码器的输出最后经过post-net网络得到最终输出

整个网络的loss:

这篇论文的优势在于DurIAN模型实现了一个能够同时控制韵律以及发音时长的TTS系统。

之前一段时间，我的主要工作是歌唱合成。歌唱合成也可以认为是一个需要同时控制发声时刻以及发声时长的TTS系统（同时要考虑音高曲线）。

之前的思路是使用类似WaveNet的模型进行语音合成，并不是端到端的合成，最后的合成效果并不如人意。

我认为歌唱合成任务与这个任务有很多相似的地方，可以进行借鉴，从而提升合成效果。

我们是行者AI，我们在“AI＋游戏”中不断前行。

如果你也对游戏感兴趣，对AI充满好奇，就快来加入我们吧~

JETS——基于FastSpeech2和HiFi-GAN的端到端TTS

探索E2E语音生成的新边界：JETS——FastSpeech2与HiFi-GAN的完美融合</

在语音技术的领域，Light Sea@知乎带来了一项革命性的突破——JETS，一个旨在解决传统二阶段训练繁琐问题的端到端文本到语音(TTS)模型。它摒弃了繁琐的外部工具，直接将文本转化为逼真的语音，通过FastSpeech2和HiFi-GAN的协同作用，实现了一体化生成过程。

JETS的核心在于创新的融合设计。它将FastSpeech2的高效语音生成能力与HiFi-GAN的高清音频生成器相结合，两者协同工作，无需额外的alignment模块。其目标是通过公式(5)，最大化有效alignment的后验概率，采用CTC-like objective和forward_sum算法，实现计算效率的显著提升。同时，Viterbi-like的mas算法帮助精准提取音频时长，而KLD则在alignement学习框架中起到了关键作用。

最终的损失函数融合了variance adaptor、HiFi-GAN以及自定义的alignment模块，确保了整体性能的优化。在实际实验中，JETS在LJSpeech数据集上的表现超越了基础模型FastSpeech2和VITS，展现出了卓越的生成质量和实用性。

尽管JETS并非全新的发明，但其在实用性和效率上的提升无疑是显著的。它证明了在端到端语音生成领域，结合现有技术的力量可以带来实际价值。 JETS的成功案例展示出技术与实践的完美结合，值得我们赞赏和关注。

尽管点赞、收藏和赞誉是支持我们持续创新的动力，但JETS的真正价值在于它为语音生成技术的未来发展开辟了新的路径。让我们一起期待更多这样的创新，推动语音技术的进一步发展。