文|王沁 王奕昕
编辑|李然
因为有了AI,Meta的元宇宙梦不死!
![](http://f.sinaimg.cn/sinakd20240703s/515/w855h460/20240703/427b-gif0a2744c37417f8048beee283bf7d9e5b.gif)
Meta 3D Gen
Meta推出了一种名为Meta 3D Gen的端到端3D素材生成模型,可以在不到一分钟的时间内根据文本描述创建高质量的3D素材。
![](http://k.sinaimg.cn/n/sinakd20240703s/126/w1160h566/20240703/fcdd-268936ad4fecd9cd9db268dbadef717f.jpg/w700d1q75cms.jpg)
Meta 3D Gen结合了Meta的两个现有模型:用于生成 3D 网格素材的AssetGen和用于精细纹理化的 TextureGen。 Meta 表示,这种集成可以为沉浸式内容带来更高质量的3D生成。
![](http://k.sinaimg.cn/n/sinakd20240703s/146/w1230h516/20240703/e006-7ceaf9861efe943c5de4300b5ed07d12.jpg/w700d1q75cms.jpg)
Meta 3D Gen
据Meta称,3D Gen在速度和质量方面都超过了领先的行业解决方案。技术报告中称,专业3D艺术家在大多数类别中对该工具的评分都好于竞争对手,特别是对于复杂的请求。Meta表示,**它的速度是同类系统的3到60倍。**
![](http://k.sinaimg.cn/n/sinakd20240703s/65/w1280h385/20240703/c0f7-d88c0e5812ff83f5c7aae00da168ed70.jpg/w700d1q75cms.jpg)
Meta 3D Gen
VR行业发展速度不及预期,其中一个最重要的原因就是创建内容的成本过高,很难吸引内容创作者为元宇宙创建素材。而且人工创建的VR 3D素材质量因为硬件性能等各种因素的限制,相比平面素材过于“简陋”,使得用户的沉浸感不足。
![](http://k.sinaimg.cn/n/sinakd20240703s/530/w1280h850/20240703/41eb-c76242bf85dee27dc7317ed391bdca8b.jpg/w700d1q75cms.jpg)
和现有的业界产品(Meshy、Tripo等)相比,Meta的Gen 3D生成的效果确实要好上不少,而且用时还是最少的。图源:Meta论文
而如果用户能够非常方便且高效地创造3D素材,至少将能大大改善VR内容缺乏的问题。如果素材的质量再能得到进一步的提高,生成的虚拟现实世界真的能够达到以假乱真的地步。在Gen AI的加持之下,也许VR中的虚拟世界未来要成为第一个AI生成比例大于人工生成的领域。
![](http://k.sinaimg.cn/n/sinakd20240703s/445/w807h438/20240703/ebaa-7bee1f6aa27b8bf51fae9073d09fa173.jpg/w700d1q75cms.jpg)
Meta 3D Gen
也许小扎的VR梦,在AI的加持下,就真的要成了。
![](http://k.sinaimg.cn/n/sinakd20240703s/716/w1178h338/20240703/4cbc-718735ced3a84b317d28621ee844dcad.jpg/w700d1q75cms.jpg)
网友惊呼:这个技术对于VR以及Meta自身的发展策略来说太重要了。Meta可能是除了英伟达以外AI发展最大的赢家!
![](http://k.sinaimg.cn/n/sinakd20240703s/631/w1168h263/20240703/b1bc-954101bbccc23bec98131f9b69d2d636.jpg/w700d1q75cms.jpg)
从文本到3D,是怎样炼成的?
从文本提示词生成3D素材的模型,在 3D 图形、动画、游戏和 AR/VR 等领域都具有巨大的发挥潜力。
虽然在文生图和文生视频模型领域,已经取得了世界瞩目的进展(例如MidJourney、Sora、Runway等等),但在3D 生成模型领域,以往的模型质量仍然不足以用于专业用途。
**以往3D生成模型有很多缺陷,比如生成速度慢,生成的3D网格和纹理中存在伪影。此外,以往的很多模型仍然将物体外观渲染为固有的颜色,忽略了 3D 物体的颜色应该随着环境光的变化而变化**。特别是对于反光材料,当把它们放置在新环境中时,它们会显得格格不入。
而Meta的3D Gen 能在不到 30 秒内生成3D素材,相比于以往具有同等速度的模型,在保真度、生成的 3D 网格质量、特别是材料的质量和控制等方面,表现更好。
![](http://f.sinaimg.cn/sinakd20240703s/445/w807h438/20240703/3797-gif4a9ad7033d9b0a4ad7f328fb43eb97a7.gif)
Meta 3D Gen
3D Gen是如何做到如此栩栩如生的3D素材生成的呢?
3D Gen 采用了两阶段的方法,结合了两个组件,第一阶段使用AssetGen组件,第二阶段使用TextureGen组件。
第一阶段:从文本到图像
这一阶段的目标是,从文本生成有着色和阴影的图像,从四个标准视角,生成这些角度的4张视图。为此,Meta团队使用了一个经过预训练的文生图的扩散模型,该模型在数十亿张带标签的图像上进行训练。
第一阶段的推理时间约为 30 秒。
![](http://k.sinaimg.cn/n/sinakd20240703s/88/w568h320/20240703/0a19-gif6748e01a36f68d4ea95ba4f7a98b95f3.gif/w700d1q75cms.jpg)
和其他3D素材生成模型相比,Meta的AssetGen的细节,光照的效果都明显要丰富和真实得多。
![](http://k.sinaimg.cn/n/sinakd20240703s/137/w600h337/20240703/5c48-gif547aab6ca3f30dc8c1ae8c1e9b8f25b3.gif/w700d1q75cms.jpg)
值得一提的是,Meta团队使用的这个文生图模型,其架构与国内智源研究院的「悟道3.0」Emu开源多模态模型类似。
第二阶段:从图像到3D
根据第一阶段生成的 3D 素材和最初的文本提示词,**对第一阶段的素材进行纹理细化或者重新着色,来生成更高质量的纹理和 PBR(physically based rendering,基于物理的渲染)图**。这一阶段使用了Meta团队的从文本到纹理( text-to-texture)的生成模型 3D TextureGen。
第二阶段推理时间约为 20 秒。
![](http://k.sinaimg.cn/n/sinakd20240703s/279/w1280h599/20240703/da23-d3e994300c2cde7ac07027fe49dddd91.jpg/w700d1q75cms.jpg)
通过构建 AssetGen 和 TextureGen两个组件,3D Gen模型将3D物体的三种高度互补的表现方式结合起来:视觉空间(图像)、体积空间(3D 形状和外观)以及 UV 空间(纹理与质地)。
与许多最先进的解决方案不同,AssetGen 和 TextureGen 都是前馈生成器,因此在部署后既快速又高效。
下图显示了 3D Gen 从第一阶段到第二阶段处理后的效果对比。第二阶段后通常具有更高的视觉美学,看起来更逼真,并且在高频颜色区有更多细节。
![](http://k.sinaimg.cn/n/sinakd20240703s/463/w1280h783/20240703/f196-e6d2b5f950a47b31b6dd02c0fd96f530.jpg/w700d1q75cms.jpg)
![](http://k.sinaimg.cn/n/sinakd20240703s/463/w1280h783/20240703/3531-571451445bc3da69f25c3f78097f98d1.jpg/w700d1q75cms.jpg)
Meta团队将3D Gen与其他文生3D模型同行们(Meshy v3、Tripo等)进行了比较。Meta表示,竞争对手们在简单物体上做得很好,但更复杂的物体组合和场景就有挑战了,而且展现高频区细节与暴露视觉伪影之间总是难以平衡。
3D Gen还可以在同一形状的物体上,进行不同的着色。在第一阶段生成的 3D 网格,然后传递到第二阶段,只要使用不同的提示词,就能创建具有相同形状但外观不同的新素材。除了实现语义编辑并执行全局和局部修改之外,3D Gen 还可以成功地模仿不同的材料和艺术风格。
![](http://k.sinaimg.cn/n/sinakd20240703s/458/w849h1209/20240703/f0f9-6a3e77dd15c4492f6a438a486d9fe055.jpg/w700d1q75cms.jpg)
在同一形状的物体上,进行不同的着色
除了对物体本身进行不同着色,3D Gen还能调整整体场景的风格。通过对物体层面的提示词进行加强,加上风格信息,就能将整个场景的风格进行调整,效果很协调。
在下图中,3D Gen就对同样的物体,进行不同风格的场景渲染,有针织玩偶、恐怖电影、水下世界、像素艺术、圣诞节等风格。
![](http://k.sinaimg.cn/n/sinakd20240703s/15/w1255h1160/20240703/3537-c5bda32f5727f68f75503c45222e995c.jpg/w700d1q75cms.jpg)
调整整体场景的风格
90后研发团队
Gen 3D的研发团队也非常年轻,基本都是由90后组成。
**Raphael Bensadoun**
![](http://k.sinaimg.cn/n/sinakd20240703s/0/w800h800/20240703/2ee0-57c03d38de8a8dd6c926d0a1f2b1f7e4.jpg/w700d1q75cms.jpg)
Raphael Bensadoun
他毕业于特拉维夫大学,之后在两家小公司有过时间不长的工作经历,之后来到Meta成为了AI研究人员。
![](http://k.sinaimg.cn/n/sinakd20240703s/167/w1280h487/20240703/0f4f-60ef94c5e334fe2e0705b1e40a33916f.jpg/w700d1q75cms.jpg)
Raphael Bensadoun
**Tom Monnier**
![](http://k.sinaimg.cn/n/sinakd20240703s/512/w256h256/20240703/d1cd-7d930714b96c87ed93ce0926eae71e16.jpg/w700d1q75cms.jpg)
Tom Monnier
他毕业于法国最好的工程师大学,然后在Tinyclues和Adobe工作了一段时间之后,进入Meta担任研究科学家。
![](http://k.sinaimg.cn/n/sinakd20240703s/715/w1280h1035/20240703/511d-1a5ac6e36dc1041884bc38a1a88d1139.jpg/w700d1q75cms.jpg)
Tom Monnier
**Filippos Kokkinos**
![](http://k.sinaimg.cn/n/sinakd20240703s/320/w560h560/20240703/ea18-688144e1135f300b3931ea832fa36a35.jpg/w700d1q75cms.jpg)
Filippos Kokkinos
他是Meta GenAI的研究科学家,此前曾在Facebook AI Research(FAIR)工作。他的研究以生成性深度学习为中心,特别关注视频和从文本、图像和视频生成3D的技术。在加入Meta之前他曾经在华为等公司实习过。
他博士毕业于伦敦大学学院。
![](http://k.sinaimg.cn/n/sinakd20240703s/707/w1280h1027/20240703/6d1b-99aa5a1215676c36b4d74fd37e66ab03.jpg/w700d1q75cms.jpg)
Filippos Kokkinos
Meta的3D Gen的潜在应用是巨大的。游戏开发人员可以用3D Gen快速制作游戏环境和角色原型,建筑可视化公司则只需要文本描述,就能生成建筑物整体和内部的详细 3D 模型,简化设计流程。在VR/MR领域,3D Gen 可以快速创建沉浸式环境和物体,加速元宇宙应用程序的开发。AI的未来将会进一步加速。
![](http://n.sinaimg.cn/finance/pc/cj/kandian/img/article_pic05.png)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有