AI视频并非新事物,OpenAI发布的Sora为何能一骑绝尘?

AI视频并非新事物,OpenAI发布的Sora为何能一骑绝尘?
2024年02月23日 19:38 ChinaByte比特网

Sora的发布让OpenAI在多模态大模型领域再一次一骑绝尘。这款被OpenAI命名为Sora的文本转视频模型,可以基于描述性文字指令,生成长达60秒的视频,并能呈现用户想象中的情绪和光影。在笔者看来,也正是由于出色的视频制作能力,使得Sora瞬间“点燃”科技圈。 

然而,文本转视频并非新事物,Sora为何拥有如此魔力?在Sora发布之后,笔者注意到,相关媒体将其与其他文本转视频模型进行对比测试,发现Sora在时间和视频生成质量上均碾压同行。对比结果显示,其他文本转视频大模型仅能生成3至4秒视频,而Sora生成的视频时间最多可达1分钟,且景物更加清晰稳定。

行业专家也纷纷叫好。360集团创始人、董事长周鸿祎则称,随着Sora的到来,人类离AGI真的就不远了,可能一两年很快就可以实现。英伟达人工智能研究院首席研究科学家Jim Fan直言,这是视频生成领域的GPT-3时刻。包括德邦证券、国盛证券在内的券商也给予Sora极高的评价,类似AI产业的AI生成视频的里程碑等溢美之词不绝于耳。

新事物Sora的惊艳亮相

“一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本旧书。” 

Sora呈现的便是同样的场景,极具魔力的巫师正拿着书施法。我们可以看到,这段视频的时长为9秒。

“雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。” 

Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。我们可以看到,无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上,左侧是车辆在河岸路上行驶的声音,右侧是顾客在一排小店之间穿梭的景象。

惟妙惟肖的视频不禁让人讶异Sora的背后逻辑,据报道,Sora实际上是一个基于数据驱动的物理引擎,能够模拟各种真实或奇幻的世界。

这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解,而这一切都是通过先进的去噪技术和梯度计算实现的。

英伟达资深研究科学家兼 AI 代理主管Jim Fan发文透露,Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。

据透露,Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。 

OpenAI 把视频和图像分解为较小的数据单元——patches,每个patches相当于GPT中的一个token。

此外,Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。

重构视频生成领域?

随着Sora的诞生,OpenAI的收获盆满钵满。援引知情人士消息,OpenAI完成一笔交易,其投后估值目前已经达到80亿美元或更多,估值也在9个月内暴涨两倍。

资本市场更是显示出对OpenAI的偏爱,2月19日A股迎来龙年首个交易日,三大指数集体高开,上证指数涨0.72%,深证成指涨1.55%,创业板指涨1.51%,文生视频、多模态AI、AIGC等概念股涨幅居前。

相关投资人也表示,“‘Sora让AI创业者和投资人彻夜无眠’的说法,不是标题党,比如你如果是做视频生成的,Sora的出现会让你重新看待自己的方法路线,这就意味着,你之前投入的钱,还有投资人之前投的钱,都有可能浪费掉了。”

与此同时,Sora重构视频生成的说法也不绝于耳,我们知道,在文字生成视频领域,OpenAI绝非开创者,此前已有包括Runway、Pika Labs、Stability AI等在内的全球较为知名的AI视频生成初创公司。 

这些同样备受关注,其中,Runway在一级市场融资金额已超过2.5亿美元;成立仅半年多的Pika,已累计融资超5500万美元;谷歌、META等大公司也都在进行视频生成技术的探索。据悉,Meta在2022年就发布了首款视频生成工具,名为Make-A-Video。

尽管入局较早,经过对比测试来看,Sora在时间和视频生成质量上均碾压同行,在文本生成视频领域,OpenAI既是后来者居上,又是搅局者,让已经建立的市场秩序,不得不打乱重新确立。换言之,Sora所代表的技术路线的出现,让早前入局的AI视频公司价值可能经历重构。

在国内市场,与Sora的差距相对更大,整体还处于追赶状态,短期内出现类似Sora这样的模型还比较难。文心大模型、讯飞星火之类的大模型也该加油了。

并不意味着无懈可击

就像ChatGPT没有彻底撼动文字行业一样,Sora段时间之内并不会改变视频创作行业。目前,Sora仍暴露出许多瑕疵。

相关报道显示,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)表示,根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界,生成视频的过程与基于世界模型的因果预测完全不同。 

另外,也有专业人士反馈,Sora视频中的画质,画面内容中的细节、光影、色彩都较精细,对导演来说,为其在拍摄前期做一个简单的镜头样板是够用的。对广告片拍摄来说,也可以用这种样板来与客户更好地进行概念上的沟通和确认。但如果涉及镜头运动角度,与更精细内容调控——如色彩、光影、道具、人物动作等,目前AI还不能达到令客户满意的程度。

OpenAI并没有否认这一认知,甚至在《作为世界模拟器的视频生成模型》技术报告中表示,Sora作为一个模拟器,目前表现出许多限制,它并没有准确地模拟许多基本互动的物理效应,比如玻璃破碎。类似于吃食物的互动不总能产生正确的物体状态的变化,还有在长时间样本中发现的不连贯性或物体的自发出现。

写在最后

Sora一经推出便受到业界的普遍关注,无论是资本市场还是业内知名人士,都对Sora充满期待,同时,OpenAI也向大家展示了多模态大模型的真正实力。

然而,Sora并不完美,相当于处在GPT 3.0阶段,其进化与发展尚需时日。然而我们也注意到,Sora及同类产品可大幅提升图像和短视频的制作效率,改变创意生产及营销工作流程,提升短视频产品生产力。将Sora作为辅助生产工具也未尝不可。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部