【One-2-3-45:45秒内将任何单一的2D图像转化为3D效果】首先,他们使用一个特殊的模型(视图条件的2D扩散模型)来从原始的2D图片生成多个不同角度的2D图像。这就像是从不同的角度看同一个物体。然后,他们使用一个基于SDF(有符号距离函数)的神经网络模型,根据这些多视图图像来构建出3D模型。这就像是将这些不同角度的2D图像"堆叠"起来,形成一个完整的3D形状。与其他现有的方法相比,这种方法有几个优点:速度快:它可以在很短的时间内生成3D模型,比其他方法快很多。几何形状好:生成的3D模型的形状更接近真实物体的形状。一致性好:从不同角度看,生成的3D模型的外观更一致。紧密遵循输入图像:生成的3D模型更准确地反映了原始2D图片的内容。此外,这种方法还可以与其他的AI模型(如文本到图像的模型)结合使用,从而实现从文本描述直接生成3D模型的功能。他们的方法包括三个主要组件:多视图合成:他们使用一个视图条件的2D扩散模型,Zero123,以两阶段的方式生成多视图图像。Zero123的输入包括一个单一的图像和一个相对的相机转换,这个转换由相对的球坐标(∆θ, ∆φ, ∆r)参数化。姿态估计:他们基于由Zero123生成的四个附近视图来估计输入图像的仰角θ。然后,他们通过将指定的相对姿态与输入视图的估计姿态结合起来,得到多视图图像的姿态。3D重建:他们将多视图的姿态图像输入到一个基于SDF的可泛化神经表面重建模块中,进行360度的网格重建。项目地址:one-2-3-45.github.io(复制到浏览器)