李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”_

导读李飞飞教授创立的Word Labs公司推出第一个重磅成果-世界生成：从单个图像生成 3D 物理世界的人工智能系统，主打你可以进入任何图像并以 3D 方式探索它，简直就像时空传送“任意门”，感觉太奇妙了，这是人工智能迈向空间智能的第一步

全文目录：

1. World Labs 要解决啥问题？

2. 不是预测像素而是预测3D场景

3. 走进世界名画

4. 与其他 AI 工具无缝衔接！

5. 未来展望

刚刚斯坦福大学的李飞飞教授宣布，她带领的World Labs团队推出一个能从单张图片生成 3D 世界的 AI 系统！不是简单的 3D 建模，而是真正可以交互的 3D 物理场景！

3D场景在浏览器里就能实时渲染，还能用WASD键和鼠标自由控制视角，就像玩游戏一样！简直太酷炫了！

用户甚至可以体验 3D 相机效果，例如模拟浅景深，即只有与摄像机保持一定距离的物体才能对焦

或“希区柯克式变焦”（dolly zoom）

可以去这里网页体验 https://www.worldlabs.ai/blog

World Labs 要解决啥问题？

现在的生成式 AI 模型，最大的问题就是缺乏控制力和一致性。World Labs 的目标就是解决这个问题！他们的 AI 系统可以根据输入的图片，先估算 3D 几何形状，再填充场景中看不到的部分，还能根据 3D 几何信息创造新的内容，让场景更完整！这将改变制作电影、游戏、模拟器和其他物理世界数字表现形式的方式。

不是预测像素而是预测3D场景

大多数生成模型预测像素，而预测三维场景则有很多好处：

持久现实：世界一旦生成，就会一直存在。即使你把视线移开，再回来时，场景也不会改不会像某些 AI 模型那样，换个角度就“变脸”

实时控制：生成场景后，您可以实时在场景中移动。你可以停留在花朵的细节上，或者从角落里偷看，看看里面有什么

正确的几何形状：生成的世界遵循 3D 几何的基本物理规则。它们具有实体感和深度感，与某些人工智能生成的视频的梦幻性质形成鲜明对比

可视化方式：World Labs 的系统生成 3D 场景方式是一个称为深度图 (depth map)的东西，其中每个像素的颜色代表其到相机的距离。