“天工音乐大模型”开启公测,综合性能超越Suno V3

“天工音乐大模型”开启公测,综合性能超越Suno V3
2024年04月17日 15:10 速途网

速途网4月17日消息 在“天工”大模型一周年之际,昆仑万维“天工3.0”基座大模型与“天工SkyMusic”音乐大模型正式开启公测。据介绍,“天工3.0”拥有4000亿参数,超越了3140亿参数的Grok-1,是全球最大的开源MoE大模型,在MMBench等多项权威多模态测评结果中,“天工3.0”超越GPT-4V,全球领先;“天工SkyMusic”是中国首个音乐SOTA模型,综合性能超越Suno V3,是中国自研大模型技术第一次在AIGC领域领跑全球。

天工3.0多模态性能超越GPT-4V,全球领先

昆仑万维董事长兼CEO方汉在接受采访时表示,昆仑万维较早投入算力采买,目前已经拥有接近万卡的训练资源,这些算力足够支撑天工的持续迭代,以及文生视频的模型训练;同时,方汉也对大模型开闭源之争发表了自己的看法,他认为:开源大模型是一种生态的构建器,它更利于满足用户的长尾需求,开源和闭源大模型是一个生态的组成部分,大家都有自己的生存空间,也都有更好的明天。

中国首个音乐AIGC SOTA模型,“天工SkyMusic”综合性能超越Suno V3

一直以来,AI音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平。所以,在AI音乐生成领域,全球始终在期待“音乐ChatGPT时刻”。

“天工SkyMusic”自研AI音乐大模型技术架构

与行业主流路径不同,“天工SkyMusic”采用自研大模型音乐音频生成技术路线。这一路线直接通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有包括昆仑万维在内的极少数顶尖玩家参与。

在与海外顶尖的AI音乐大模型Suno V3的横向测评中,“天工SkyMusic”在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型(SOTA全称是state of the art,是指在特定任务中目前表现最好的方法或模型)。

(天工SkyMusic综合性能超越Suno V3,取得音乐大模型SOTA,领跑全球)

此外,“天工SkyMusic”还拥有独创的参考音乐生成与方言歌曲生成能力。即用户可上传参考音乐,生成风格、唱腔类似的歌曲,大大降低降低了音乐大模型的使用门槛;同时支持粤语、成都话、北京话等众多方言。

天工3.0:4000亿参数,全球最大开源MoE大模型

“天工3.0”实现了全面的性能升级,采用了4000亿级参数MoE混合专家模型架构,是目前全球模型参数最大、性能最强的开源MoE模型。

据介绍,“天工3.0”的逻辑推理能力、语义理解能力、应对复杂需求能力、内容创作能力全面升级,并新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项AI能力,为用户带来全新AI体验。

多轮搜索与综合工具调用:“天工3.0”针对模型独立规划、调用、组合外部工具及整合信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

同时,“天工3.0”能够通过强大的语义理解能力将用户任务拆解成细分环节,实时判断是否需要联网或调用工具,进行单轮或多轮的联网搜索、工具调用,完成包括多轮搜索、热点信息分析、图片生成等复杂用户需求。

昆仑万维董事长兼CEO方汉:开闭源大模型都有生存空间,公司算力已达万卡

据了解,昆仑万维已围绕“天工”系列大模型建起AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏等AI业务矩阵,是国内模型技术与工程能力最强、布局最全面的人工智能科技企业之一。

对于昆仑万维的算力储备,昆仑万维董事长兼CEO方汉表示:“昆仑万维已经投入了足够的资金去进行GPU采买,而且启动GPU采买比较早,从2022年七八月份就已经开始采买,价格比较合适,目前可以公开宣布的数字是我们大概有接近万卡的训练资源,我觉得在中国应该来算是位于前列的。而且这些算力足够支撑天工的迭代,以及文生视频的模型训练。”

对于开源和闭源大模型路线,方汉认为,“开源模型同闭源模型的差距其实是在缩短的,2023年到今年这一年间,从落后两年以上已经进化到落后只剩4至6个月以上。闭源的一些产品在特性以及长尾需求的满足上反而落后于开源大模型,所以我们认为开源大模型它实际上是一种生态的构建器,它更利于满足用户的长尾需求,所以我个人认为开源和闭源大模型是一个生态的组成部分,不能说谁压倒谁,而是说大家都有自己的生存空间,也都有更好的明天。”

据悉,昆仑万维还推出了国内第一款AI搜索引擎“天工AI搜索”、开源了百亿级大语言模型“天工Skywork-13B”、推出国内领先的AI Agent开发平台“天工SkyAgents”等一系列前沿大模型产品。此次公测的“天工3.0”在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部