注册

新浪财经APP

翻译 50 种语言，精准识别情绪！音频大模型 FunAudioLLM 上线基石智

翻译 50 种语言，精准识别情绪！音频大模型 FunAudioLLM 上线基石智

2024年12月12日 11:11 青云QingCloud

语音播报缩小字体放大字体微博微信 0

青云科技旗下 AI 算力云服务——基石智算 CoresHub 将 AI 算力云与模型开发部署服务完美融合，致力于为开发者打造完整的 AI 应用落地生态。对于初涉开发的用户而言，平台支持多模态模型及应用的一键启动，为众多 AI 爱好者赋予强大能量。目前，平台已推出文本类、文生图、文生视频、语音转换等模型，且支持一键启动、一键部署以及在线微调，助力用户打造专属 AI 应用。

本期，将为大家详细呈现基于基石智算 CoresHub 平台的 FunAudioLLM 模型使用教程。

FunAudioLLM 模型介绍

FunAudioLLM 是阿里巴巴通义实验室推出的一款开源语音大模型，它包含两个核心模型：SenseVoice 和 CosyVoice 。SenseVoice 专注于多语言语音识别、情感辨识和声音事件检测，支持超过 50 种语言，尤其在中文和粤语的识别上表现优异，准确率提升超过 50%。它还能够识别多种情绪和交互事件，如音乐、掌声、笑声、哭声等。CosyVoice 则擅长语音合成，能够根据少量原始音频快速生成模拟音色，包括韵律和情感细节，并支持跨语言合成。

FunAudioLLM 的应用场景非常广泛，如语音到语音翻译、情感语音对话、互动播客和有声读物等。例如，在语音到语音翻译场景中，它可以将中文语音翻译成英文语音，同时保留原说话人的音色和情感色彩。在情感语音对话中，它可以与用户进行带有情绪色彩的交互，提升用户体验。此外，它还可以用于制作互动播客和有声读物，提供丰富多彩的听觉体验。

语音翻译：将输入语音翻译成目标语言，并使用目标语言生成语音。

情感语音聊天：识别输入语音的情绪和音频事件，并生成与情绪相符的语音。

交互式播客：根据实时资讯、知识等内容生成播客脚本，并使用 CosyVoice 合成语音。

有声读物：分析文本中的情感和角色，并使用 CosyVoice 合成具有丰富情感的有声读物。

在 coreshub.cn 上的使用方式

CosyVoice 模型使用

1. 创建容器实例。

2. 选择资源与镜像 FunAudio 下的 CosyVoice 模型（推荐选择 1 卡 3090 ）。

3. 创建好容器实例后，选择更多访问，点击端口 9001，进入 WebUI 界面。

4. 根据页面操作提示可以使用不同的功能生成音频。

预训练音色：使用模型本身预训练音色，按照输入文本生成音频；

【基石智算是青云科技旗下的 AI 算力云服务平台，为用户提供一站式模型开发训练一体化服务】

3s 极速复刻：上传自己的音频文件或在线录制音频，模型会根据你的音频训练出相同音色，输入 prompt 文本，就可以使用你的音色读出文字了；

跨语种复刻：将你上传的普通话音频，转变成粤语、日语、英语等；

自然语言控制：可在语音中添加自然的笑声，喘气、生气等语气。

注意：使用自然语言控制功能时，需要更换模型，重新创建实例，选择 FunAudioLLM 中的 CosyVoice-300-instruct 使用。

SenseVoice 模型使用

同样创建容器实例，选择资源，但在选择应用镜像时，选择 FunAudioLLM 中的 SenseVoice 模型。以同样方式进入 WebUI 界面，使用流程与 CosyVoice 相同。

立即开启你的创作之旅吧！！

头条号入驻

青云QingCloud 企业级云服务商及解决方案提供商

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部