本文转自:鲁中晨报
OpenAI首个视频生成模型发布一段文字生成60秒视频虚拟和现实融为一体一夜刷屏的Sora将带来什么 “一名时尚女子走在充满霓虹灯和广告牌的标志性东京街头,她穿着黑色皮夹克、红长裙和黑靴子,拎着黑色手袋,戴着太阳镜,涂着红色口红,走路自信又随意。街道潮湿且反光,在灯光映射下形成镜面效果,行人走来走去。”这段60秒的视频,并非真实拍摄,而是OpenAI最新的“文生视频”模型Sora,这一段文字描述就是段Prompt(提示词)。 Sora视频一出,立刻震惊业界。尽管这不是首个AI视频,其他企业也有类似文本生成视频的AI模型,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频,但外媒指出,人工智能专家和分析师表示,Sora视频的长度和质量超出了迄今为止所见的水平。 相比之前的文生视频软件Pika、runway、SVD等,Sora一出场就惊艳世界。目前OpenAI还没有发布Sora的公开使用版本,但已经发布的40多个演示视频中,包含有细节拉满的场景、复杂的摄像机以及多个充满情感的角色。OpenAI宣称,Sora可以理解物体在物理世界中如何存在,并准确地解释道具并生成引人注目的角色来表达充满活力的情感。 Sora最主要有三个优点:第一,“60秒超长视频”,之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈,而Sora直接做到了60秒连贯视频。第二,单视频既能有多角度镜头也能一镜到底,可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。第三,Sora所合成的内容与物理世界规律保持一致,即不会出现违反世界客观规律的视觉信息。OpenAI并未单纯将Sora视为视频模型,而是作为“世界模拟器”。它能像人一样,理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现“汽车撞毁坦克”这样的情况。这就是“世界模型”的强大之处。 总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。 在Sora引发全球关注的同时,OpenAI的估值也再次拉高,成为全球第三高估值的科技初创公司。 “一切来得太快,我们目前还在观望。”国内AR智能眼镜企业Rokid的CEO祝铭明说,Sora带来的冲击波到底有多大,他们也在时刻关注。 2月16日凌晨,OpenAI正式发布他们的文本生成视频大模型Sora,其逼真的视觉效果让其在一夜之间“刷屏”,再次重现了一年前ChatGPT轰动全世界的场景。 通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。对于OpenAI视频生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革命来临”。 业内分析人士对记者表示,Sora无疑是人工智能领域的一次重大突破,该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。 建模世界底层模型大突破 Sora背后的工作原理到底是什么?浙江大学计算机学院党委书记和人工智能研究所所长吴飞表示,Sora实现了内容合成从文本领域到图像领域,再到视频领域的跨越,其背后的原理为“对合成内容中最小单元进行上下文关联有意义组合”。比如,若干单词在上下文维度上有意义组合可合成一篇文章、一批视觉子块在空间布局维度上有意义组合可合成一幅图像、一系列视觉子块在时空耦合上有意义拼接可合成一段视频。为了实现这一目的,自注意力机制、扩散模型和变换神经网络等被组合在一起使用。虽然这次Sora的技术原理尚未公布,但是一些外部专家猜测其仍是基于这些技术来训练视频生成模型。 吴飞表示,Sora很难将物理世界中牛顿定律、湍流方程和量子学定理等规律一条一条在模型中显式罗列实现,而是通过对海量数据学习来隐式表达客观规律,这或许是来自于神经网络模型的涌现之力。神经网络的涌现之力指量变产生了质变,在亿万个非线性映射函数组合之下,神经网络可生成意想不到的结果,即合成世界上先前从未出现过的内容,这正是这一轮人工智能在“数据、模型、算力”三驾马车推动下发展的应有之义。 浙江大学计算机学院CAD&CG国家重点实验室副主任、博士生导师陈为表示,Sora是“文生长视频”功能上的突破,视频越长越难保证视频内容的合理性。Sora对AGI世界建模问题的研究有重要推动作用。Sora不只可以完成文生视频,更重要的是它可以被看作(但还不是)建模世界底层物理规律的模型。因为其能生成符合世界运行规律的视频,所以可以认为其通过“阅读”大量视频,学会了预测下一个时刻的世界会是什么样子(在特定场景的视觉意义上),它学会了一些世界运行的底层物理规律。但目前来看,Sora的这个能力还是严重不足的,会产生大量不符合物理规律的视觉内容,比如漂浮的椅子、篮球穿过篮框、狼的数量忽多忽少等。 由Sora生成的视频截图,由于视频中女性扭头角度过大,被网友戏谑是“做了驱魔人式的180度旋转”。 内容创作领域开启新纪元年底或产生小时级文生视频 对于Sora的面世,工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称,这标志着AI技术在内容创作领域的一个新纪元。“技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”刘兴亮表示。 而Sora以文字为核心的提示,将能够形成更加符合人类观念的连续视频,该模型的出现无疑将会对人们现有工作方式进行再一次迭代,同时也会对传统行业转型提出新的挑战。 生成式AI过去已积累了不少图像、声音等素材,并通过不断学习形成了更为成熟的算法。因此,若是可以通过AI在计算机中创建视频素材,或许将对影视行业产生重大影响。 刘兴亮称,AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。 不过,刘兴亮指出,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。 刘兴亮同时提到,随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。 突飞猛进的人工智能,也让人类对文生视频的未来产生了好奇。陈为认为,Sora今年底或将产生小时级的文生视频。“文生视频从秒级到分钟级的视频生成很难,但从分钟级到小时级的挑战可能相对要容易,因为生成小时级的文本对大语言模型已经不是难事,我预测大概率今年底或明年达到小时级的合理文本内容。”他表示,小时级别的视频一定是人机协同创作的结果,否则视频中的矛盾点会多如牛毛。 ■ 相关链接AI狂飙下的监管难题 Sora发布可谓一石激起千层浪,但此次推出的更像是预览版,公众尚难以深入全面了解该模型的优缺点。OpenAI表示,目前仅主要向一些设计师和电影制作人等特定人群提供Sora访问权限,以获取有关改进该模型的反馈。公司不仅未公布训练Sora模型的数据等基础细节,更没有确定向公众发布的日期。 在科技领域颠覆式创新不断涌现的情况下,如何实现拥抱技术进步和确保社会安全的平衡,越来越受到各界关注。 OpenAI表示,将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧,确定Sora的积极使用案例,并认为从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。 业内人士指出,在当下治理框架、管控措施都未跟上的情况下,仅靠企业恐无法提供社会所需的人工智能安全性和信任度。 据新华社、《成都商报》、《重庆晨报》、《南风窗》

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有