昆仑万维方汉:一年读200篇AI论文后,找到了大模型的最佳赚钱模式|甲子光年

昆仑万维方汉:一年读200篇AI论文后,找到了大模型的最佳赚钱模式|甲子光年
2024年04月17日 19:32 甲子光年

“免费+to C”才会产生下一代AI巨头。

作者|赵健

互联网公司转型做大模型是否靠谱?昆仑万维正在寻找适合自己的机会。

这家成立于2008年的互联网公司依托于游戏起家,业务覆盖社交、娱乐等多个领域。2022年,昆仑万维看到了生成式AI在绘画等领域的颠覆式革命,宣布“All in AIGC”。2023年,昆仑万维陆续发布基础大模型「天工」以及天工AI搜索等多个AI产品。

2024年开年,昆仑万维发布全新公司愿景,将“实现通用人工智能,让每一个人更好地塑造和表达自我”为使命。

今天,昆仑万维宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测。「天工3.0」拥有4000亿参数,超越了3140亿参数的Grok-1,是全球最大的开源MoE大模型;「天工SkyMusic」则是中国首个音乐SOTA(State Of The Art)模型,在人声&BGM音质、人声自然度、发音可懂度等领域显著领先Suno V3。

为了做好大模型,昆仑万维做了很多准备。

在算力层面,昆仑万维有近万卡的训练资源,足够支撑训练下一代基于多模态的MoE大模型以及视频生成大模型。

在技术上,为了与业内最先进的技术保持同步,昆仑万维董事长兼CEO方汉每周要阅读3~4篇技术论文,2023年一共阅读了200多篇论文;还会在一线写代码,写prompt,他写prompt的能力可能超过公司90%的同事;公司所有的算法博士,几乎都是方汉亲自面试的。

在商业模式上,方汉认为移动互联网时代“免费+to C”的模式依然适用于AI时代只有“免费+to C”,才会产生AI时代的巨头。这是目前最合适的商业模式,也最容易盈亏平衡,赢得正向ROI

为了实现这一点,大模型必须降低推理成本,终局是端侧推理,而中局则是大模型底座+AI UGC平台——这也是昆仑万维选择的路线。

近日,「甲子光年」与昆仑万维董事长兼CEO方汉进行了一次对话,详细解释了昆仑万维打算如何通过大模型来赚钱。

1.降低推理成本才能免费

方汉判断,下一代的AI巨头与互联网、移动互联网时代的巨头模式相似,一定是“C端+免费”,因为全球C端用户有80亿,市场上限是最高的,任何一个微小的收入乘以80亿都是一个非常惊人的数字。

目前,国外很多大模型企业采用订阅模式,比如OpenAI。基于订阅模式,方汉算了一笔账:假设一个月的订阅费是19美元,全世界愿意花钱订阅的用户可能只有1亿人左右,剩下的79亿人还是要靠免费模式。

如何实现免费模式?方汉认为有三条路径。

第一条路径是降低推理成本。如果把大模型的推理成本降到现在的千分之一、万分之一,几乎就可以免费给大家用。但是,降低推理成本与提升模型能力会互相掣肘。方汉表示,现在推理成本几乎以每年十倍的比率在下降,但模型的能力也在以几十倍的速度提升(带来成本的提高),就像“两头驴在拉磨”。

除了通过技术与工程上的优化来降低成本外,还有一种用“小模型”降低成本的方式。比如,我们今天经常使用的ChatGPT,并非是一个1750亿参数的模型,而是优化到了80亿参数。方汉表示,昆仑天工也是类似的逻辑,天工3.0虽然是一个4000亿参数的MoE模型,但实际上并非所有的服务都是调用这个大参数模型,而是蒸馏出很多小模型为用户服务。

第二条路径是采用UGC平台模式,即让1%的内容创作者使用付费AI,剩下99%的读者免费看其生产的内容,这样推理成本大约降低了100倍,商业模式会更加容易成立。

第三条路径是端侧推理,比如AI PC与AI手机,但AI手机要3~5年后才会普及,因为用户的换机需要一个周期。方汉表示:“这就像4G和手机摄像头推动了短视频行业的发展。如果没有摄像头,没有手机摄像头,没有4G网络,短视频行业是永远不会出现的。”

如果AI手机普及,市场规模就会变得空前巨大。技术上没有难点,经过工程师的优化,手机端可以推理7B和13B的模型,这已经满足了用户70%至80%的需求。

方汉认为,在AI手机普及之前,UGC平台就是一个中期的最佳商业模式。昆仑天工就是选择做一个基于大模型基座驱动的UGC平台。

2.大模型底座+AI UGC平台

昆仑万维目前有六大业务矩阵:AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏,本质上是两条业务线——底层做通用大模型的底座,上层做AI UGC平台。

为什么一定要亲自下场做基座大模型?方汉解释道:“从技术角度来看,人类的智慧是以文本形式沉淀下来,所有的社交、游戏、音乐跟视频的专属模型,其实都需要文本大模型的能力去支撑。比如,训练视频模型的视频数据,就需要用文本模型打标,文本模型的能力决定了用户输入prompt的遵从能力有多强,以及最后生成的视频关联性有多强;著名的Stable Diffusion模型把文本模型从CLIP换成了T5之后,能力极大提高。”

为了做好基座大模型,昆仑万维也储备了近万卡的训练资源,足够支撑训练下一代基于多模态的MoE大模型和视频生成大模型。对于国产芯片的适配,昆仑万维也在内部做过很多测试,某国产芯片的最新版本在性能上大约能到英伟达H100的80%。

而从商业角度来说,方汉也提到,拥有基座大模型,才能够保证不会被“釜底抽薪”。类似的事件其实已经上演过,基于其他基座大模型做应用的公司,会面临中止合作的风险。

在应用层,昆仑万维的产品矩阵目的就是要打造一个以IP为核心的综合UGC平台。

方汉表示,一个IP基本上是在小说与漫画里产生,比如哈利波特、指环王与漫威,而具体的变现方式就是视频与游戏,这是一个IP的完整闭环。用户其实并不太关心是文本、漫画还是视频的形式,他只在乎能否讲好一个故事,这个故事实际上就是IP。如果你能生成新的IP,用户就会愿意在你的平台上消费。昆仑天工的AI UGC平台,就是想让所有用AI创作的人在里面完成IP的全闭环。

对于产品的增长预期,方汉表示“不想当将军的士兵不是好士兵”。目前来看,技术最好的产品——即达到SOTA的产品,就能获得最多的用户。因此,只要在垂类上取得SOTA,既可以是领域也可以是语言,就一定能获得高速增长能力。

昆仑天工今天开启公测的天工音乐大模型,就是音乐领域的SOTA模型。

天工SkyMusic综合性能超越Suno V3,图片来自昆仑万维

根据现在的进展,方汉相信,所有AIGC技术将会在两三年后达到一个足够可用的高度。

3.大模型公司一定是技术老大做CEO

在竞争激烈的大模型赛道,昆仑万维如何保证技术的领先性?

方汉认为不断前进的原则只有一个,就是好奇心。“只要你对这个世界充满好奇,你就可以不断地前进,而前进的具体手段,我认为没有别的办法,就是深入一线,接触技术。”

这一波大模型跟原先不一样,最大的特点是技术驱动,基本上创业公司都是技术老大做CEO。

方汉是技术出身,大学的专业是核物理,毕业后被分配到了中国高能物理研究所,是全中国第一个接入互联网的单位。方汉表示自己对于技术的好奇是无穷无尽的。

方汉每周要阅读3~4篇技术论文,2023年一共阅读了200多篇论文;还会在一线写代码,写prompt,“我敢说我写prompt的能力可能超过公司90%的同事”;公司所有的算法博士,几乎都是他亲自面试的。

方汉自勉道:“作为公司管理者,如果不去读论文,你就不知道技术的边界在哪里,就没有办法为这个边界设计产品与商业模式。如果不懂技术,别人高维打低维,技术指标把你碾压了,你就全完蛋了,就像GPT套壳公司在GPT Store出来后全军覆没一样。对我而言,与业界保持同步的唯一办法就是读论文,跟技术同学交流,我们公司的管理层也都是这样。”

方汉认为,只要决策者知道技术的边界在哪里,所有的规划都不会有问题。

除了站在技术一线,昆仑万维也非常重视人才的引进。

2023年9月,AI大牛颜水成加入昆仑万维,担任天工智能联席CEO、2050全球研究院院长。方汉透露,2050全球研究院已经有多位教授和博士加入。

方汉还观察到一个现象,由于大模型的出现,所有的技术栈都是全新的,导致这个赛道里能力最强的其实是在校博士、研究生,而不是毕业多年的人。他发现,关于大模型的论文,在校博士发布的东西是最有创意、最有想法的。

4.开源与闭源之争

就在昆仑天工3.0大模型宣布公测的前一天,百度董事长兼CEO李彦宏在Create 2024百度开发者大会上针对开源与闭源路线发表了一番有一定争议的观点。李彦宏表示,在当今的大模型生态下,开源模型会越来越落后。

方汉也分享了他对开源与闭源之争的看法。

首先,开源到底有没有商业模式?在软件行业,开源一直是一个很有争议性的话题。

上个世纪末,在软件行业发展的早期,开源的确没有很好的商业模式,那时候的商业模式只有一个:收取服务费。当时最赚钱的公司是Red Hat,后来被IBM收购。

后来,一家软件公司的出现改变了开源的商业模式——MongoDB。MongoDB发现,云服务商都在用开源产品提供服务来赚钱,但却不给开源组织一分钱。于是,MongoDB推出了一个SSPL产品授权协议,所有用户可以免费使用,但云服务商除外,除非云服务商可以支付费用。

开源的另一个商业模式,是把开源当成一种最便宜的获得销售线索的手段。产品开源之后很多用户会来试用,遇到问题还得找原厂解决售后问题。国内一些开源数据库采用了这种方式。

因此,方汉认为,开源仍然是有商业模式的。

从技术角度出发,开源与闭源模型谁更有优势?

目前大模型评测的方法有很多种,方汉认为最具权威的测试方法是大模型竞技场(LLM Arena)。2023年以来GPT-4都是常年的第一名的位置,Claude 3发布后短暂超越GPT-4,近期最新版本的GPT-4 Turbo又重新夺回第一。

大模型竞技场排行榜,图片来自LMSYS Chatbot Arena

如果看开源模型,目前大模型竞技场的榜单上排名最高的开源模型是阿里的Qwen1.5-72B-Chat,排名第十一。方汉认为,开源模型与闭源模型的差距已经从落后2年以上,追到仅落后4~6个月了,这证明了两者的差距是在缩小而非加大。

从另一个文生图赛道来看,开源模型的优势会更加明显。

文生图领域有两个代表性的SOTA闭源模型:DALL-E与Midjourney,但在开源的Stable Diffusion出来之后,很多游戏领域的美术工作流都逐渐采用了Stable Diffusion,背后的一部分原因在于计算资源。

方汉表示,大学与高校里的博士生与老师其实是十分尴尬的,因为他们没有太多的计算资源,只有基于开源的Stable Diffusion去做工作,他们的聪明才智也只好贡献给了开源模型。因此,开源模型实际上是一种生态构建器,更有利于满足于用户的长尾需求。

方汉认识两位中国的个人模型作者,一位是给文身师设计文身图,一位是给商店画支架图,而这两种长尾需求,闭源模型是不可能满足的,只有靠开源模型才能定制。

方汉认为,开源模型与闭源模型是一个生态的组成部分,不是谁取代谁,而是一个互补关系,都会有自己的生存空间。

(封面图来自《钢铁侠》)

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部