什么听说人工智能可以用北京话念绕口令了！_生活百科

什么听说人工智能可以用北京话念绕口令了！

时间：2024-12-30 10:24来源：www.lflzdd.com作者：未知点击：

导读：

今年 10 月，智谱在 CNCC2024 大会上推出了他们在多模态范围的最新成就——端到端情感语音模型 GLM-4-Voice，叫人和机器的交流可以以自然聊天的状况进行。

以下为他们在官方 GitHub 上给出的 demo。

先用北京话念一句绕口令。

据介绍，GLM-4-Voice 可以直接理解和生成中英文语音，进行实时语音对话，在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面达成突破，且延时更低，可随时打断。

近日，来自清华大学和智谱的研究团队发布了 GLM-4-Voice 的研究论文，对这一端到端语音模型的核心技术与评估结果进行了详细论述。

GLM-4-Voice 是怎么样练成的？

与传统的 ASR + LLM + TTS 的级联策略相比，端到端模型以音频 token 的形式直接建模语音，在一个模型里面同时完成语音的理解和生成，防止了级联策略“语音转文字再转语音” 的中间过程中带来的信息损失，也解锁了更高的能力上限。

什么听说人工智能可以用北京话念绕口令了！

图｜GLM-4-Voice 模型构造图。

GLM-4-Voice 由三个部分组成：

GLM-4-Voice-Tokenizer：通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督练习，将连续的语音输入转化为离散的 token。每秒音频平均仅需用 12.5 个离散 token 表示。

GLM-4-Voice-Decoder：基于 cosplayyVoice 的 Flow Matching 模型结构练习的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。最少仅需 10 个语音 token 即可开始生成，减少端到端对话延迟。

GLM-4-Voice-9B：在 GLM-4-9B 的基础上进行语音模态的预练习和对齐，从而可以理解和生成离散化的语音 token。

什么听说人工智能可以用北京话念绕口令了！

图｜GLM-4-Voice-Tokenizer 和 GLM-4-Voice-Decoder 的构造。

预练习方面，为了攻克模型在语音模态下的IQ和合成表现力两个难关，他们将 Speech3Speech 任务解耦合为“依据用户音频做出文本回复”和“依据文本回复和用户语音合成回复语音”两个任务，并设计两种预练习目的，分别基于文本预练习数据和无监督音频数据合成语音-文本交错数据以适配这两种任务形式。

具体而言，模型的预练习包含 2 个阶段。

第一阶段为大规模语音-文本联合预练习，在该阶段中 GLM-4-Voice 使用了三类型型的语音数据：语音-文本交错数据、无监督语音数据和有监督语音-文本数据，达成了促进文本和语音模态之间常识迁移、帮助模型学习真实世界语音特点与提高模型基本任务方面性能方面的成效。特别，GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交错数据预练习，拥有非常强的音频理解和建模能力。

第二阶段为监督微调阶段，旨在进一步提升 GLM-4-Voice 的对话能力。研究职员用了两类型型的对话数据，包含多轮对话数据与语音风格控制对话数据。前者主要来自文本数据，经过精心筛选和语音合成，确保对话内容的水平和多样性。而后者包括优质的对话数据，用于练习模型生成不同风格和语调的语音输出。

除此之外，在对齐方面，为了支持优质的语音对话，减少语音生成的延迟，研究团队设计了一套流式考虑构造：依据用户语音，GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容，其中语音模态以文本作为参照保证回复内容的优质，并依据用户的语音指令需要做出相应的声音变化，在最大程度保留语言模型IQ的状况下仍然具备端到端建模的能力，同时拥有低延迟性，最低仅需输出 20 个 token 便可以合成语音。

效果如何？

研究团队在基础模型评估与聊天模型评估两方面对 GLM-4-Voice 进行了性能评估。

他们第一通过语音语言建模、语音问答与 ASR 和 TTS 这三项任务对基础模型进行了评估。

在语音语言建模任务中，GLM-4-Voice 在 Topic-StoryCloze 和 StoryCloze 等数据集上的准确率显著领先相同种类模型。在从语音到文本生成（S→T）的任务中，GLM-4-Voice 的准确率达到 93.6%（Topic-StoryCloze），远高于其他模型。同时，在语音到语音生成（S→S）的任务中，GLM-4-Voice 依旧在 Topic-StoryCloze 数据集中获得了与 Spirit-LM 相近的高分（82.9%）。

什么听说人工智能可以用北京话念绕口令了！

图｜语音语言建模结果。

在语音问答任务中，GLM-4-Voice 在 Web Questions、Llama Questions 和 TriviaQA 等数据集上全方位领先，进一步提高了模型在长上下文交互场景中的适应性。

S→T 模态：在所有数据集中，GLM-4-Voice 均显著超越基线模型，TriviaQA 数据集中准确率达到 39.1%，相比Moshi提高了 16.3%。

S→S 模态：在语音到语音的问答任务中，GLM-4-Voice 同样表现优秀，特别是在 Llama Questions 中准确率达到 50.7%，大幅领先其余模型。

什么听说人工智能可以用北京话念绕口令了！

图｜语音问答结果。

在 ASR 和 TTS 任务中，GLM-4-Voice 的性能也同样接近或超越专门设计的语音处置模型。

什么听说人工智能可以用北京话念绕口令了！

图｜ASR 和 TTS 结果。

之后，研究团队对聊天模型进行了评估。

为评估对话水平，研究团队引入 ChatGPT 作为自动评分工具，对模型的回答进行多维度评价。GLM-4-Voice 在容易见到问题（General QA）和常识问答（Knowledge QA）两类任务中得分遥遥领先：在 General QA 中 GLM-4-Voice 得分为 5.40，相比 Llama-Omni（3.50）和 Moshi（2.42）提高显著。在 Knowledge QA 中 GLM-4-Voice 的得分同样超越其他模型。

GLM-4-Voice 在语音生成水平方面也达成了新突破。模型主观评价指标（MOS）的评分中达到 4.45，超越现有基线模型，表明 GLM-4-Voice 生成的语音愈加自然流畅，可以满足用户对优质语音交互的需要。

同时，在文本与语音对齐性测试中，GLM-4-Voice 的语音转文本误差率（ASR-WER）降至 5.74%，显示出优秀的文本-语音一致性。这种能力进一步提高了模型在多模态交互中的应用潜力。

什么听说人工智能可以用北京话念绕口令了！