阿里发布开源语音交互模型 FunAudioLLM ：各种语音黑科技一应俱全

2024-07-08 10:38#1 标记1

阿里发布超强语音处理模型FunAudioLLM，语音方向卷起来了，成熟度非常高，FunAudioLLM是一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型：SenseVoice和CosyVoice

SenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测，具备极低的延迟，支持超过50种语言

SenseVoice 是一种语音基础模型，具有多种语音理解功能，包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型，用于快速语音理解；SenseVoice-Large 是一种编码器-解码器语音基础模型，用于更准确的语音理解，支持更多的语言
CosyVoice则擅长自然语音生成，具备多语言、音色和情感控制能力，能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能

CosyVoice 包含一个自回归变换器，用于为输入文本生成相应的语音标记；一个基于 ODE 的扩散模型（流匹配），用于从生成的语音标记重建梅尔频谱；以及一个基于 HiFTNet 的声码器，用于合成波形。虚线内的模块在特定的模型使用中是可选的，如跨语言、SFT 推断等
相关的SenseVoice和CosyVoice模型已在Modelscope和Huggingface上开源，其训练、推理和微调代码也已在GitHub上发布。通过将这些模型与LLMs结合，FunAudioLLM推动了语音交互技术的前沿，应用场景包括语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述
实际表现‍‍‍‍
S2ST：语音到语音翻译