Sora模型变革,文本生成视频成为全球焦点

Sora模型变革,文本生成视频成为全球焦点

文本生成视频前进一大步

防止滥用技术成为开放关键

【阿明观察 | 科技热点关注】

OpenAI正式推出Sora,文本生成视频,比真的还真,突然成为了中国科技行业在春节假期中的热点。

不过,虽然Sora文本生成视频模式已经正式发布,但是目前仅限于特邀人群前期调用,还未完全开放给全球AI用户。从当前,外媒消息来看,借助Sora生成的视频已经非常震撼了,即便在视频场景与物体细节上还存在一些瑕疵,这将开创大模型发展的新的先河。

来自MIT科技视点网站的介绍,OpenAI已经建立这个引人注目的新生成视频模型Sora,可以将简短的文本描述转换为长达一分钟的详细高清电影片段。

OpenAI科学家Tim Brooks认为,构建能够理解视频并理解现实世界中所有这些非常复杂的交互模型,是未来发展所有AI系统的重要一步。

资料显示,第一个可以从文本片段制作视频的生成模型出现在2022年底,这是来自META、Google和一家名为Runway的初创公司的早期例子,但是都存在故障和颗粒感。从那时起,这项技术变得越来越快。Runway公司在去年发布的第二代模型,可以制作出质量接近大工作室动画的短片,不过这些动画短片大多只有几秒钟时间。

来自OpenAI Sora将这项文本生成视频模型技术再次提升了一个新的阶段,Sora的示例视频效果高清晰且细节丰富,并且可以生成长达一分钟的视频。

当然,从已经放出来的文本生成视频的例子可以很明显的瑕疵,对此OpenAI将进一步做技术优化与迭代。

比如OpenAI的Sora虽然很好地处理了遮挡,但现有模型存在一个突出问题,当物体消失时,Sora可能无法跟踪物体。如果一辆卡车经过街道标志前,该标志可能不会在之后再次出现。

在一个Papercraft水下场景的视频中,Sora在不同的镜头之间添加了看起来像剪辑的东西,并且模型在它们之间保持了一致的风格。

(其中一个基于Sora输出的演示视频)👆

虽然Sora并不完美,但也惊艳全球AI界了。

在东京的视频中,左边的汽车看起来比旁边的人小,汽车居然还在树枝之间进出。

可见,在Sora长期一致性能力方面,肯定有一些工作要进一步去做。

当然,遗憾的是,OpenAI目前没有向公众发布开放Sora的计划。当前只是OpenAI公司以及第三方合作伙伴特邀人群在测试、试用Sora。其中最主要的原因在于OpenAI担心虚假但逼真的视频可能被滥用。为此,需要在一定的安全性上打造更强之后,才有可能对公众开放,但OpenAI的高层表示此举依然非常谨慎。

作为创建了文本到图像模型DALL-E的的科学家Aditya Ramesh,当前针对Sora的调用,除了安全测试人员外,还邀请了一群视频制作者和艺术家亲测Sora模型,以获得关于如何使Sora对创意专业人士尽可能有用的反馈。另外,也在向所有人展示即将到来的AI前景,预览这些模型的能力。

此外,为了构建Sora,OpenAI的研发团队调整了DALL-E 3技术,这是OpenAI的旗舰技术之一,属于文本生成图像模型的最新版本。像大多数文本生成图像模型一样,DALL-E 3使用了所谓的扩散模型技术,通过训练将随机像素转换成图片。

Sora采用了DALL-E 3技术,并将其应用于生成视频而不是生成静止图像。但研究人员还在研发Sora过程中,还融入了另一种技术。

以此,与DALL-E或大多数其他生成视频模型不同,Sora将其扩散模型与一种叫

Transformer的神经网络技术架构相结合。

据查证,Transformer属于谷歌在2017年的论文《Attention Is All You Need》中提出的技术架构,用于NLP的各项任务,现在也是谷歌云TPU推荐的参考模型。Transformer已经推出基于其架构的语言模型也随后陆续出现,如Bert、T5、ChatGPT和LLaMa等,都在各自大模型中融入了Transformer的技术。

Transformers擅长处理长序列的数据,比如文字。就此,也使得Transformers成为OpenAI GPT-4和Google DeepMind的Gemini等大型语言模型中的特殊技术元素。

但是,需要指出的是,视频不是由文字组成。相反,研究人员必须找到一种方法将视频可以切成“块”。最终找出的方法是在空间和时间上对视频进行切“块”。这就如你有一堆视频帧,然后从中剪下一些小立方块。

Sora内部采用的Transformers技术可以处理这些视频数据块,其方式与大语言模型采用内部Transformers技术处理文本块中的单词的方式大致相同。

为此,使得OpenAI可以比其他文本生成视频模型在更多的视频类型上训练Sora,这些视频在分辨率、持续时间、宽高比和方向等方面都有所不同,必然有助于模型Sora的开发创新。

当然,以后Sora一旦开放给公众,如何防止滥用文本生成视频模式将是OpenAI下一步必须做的工作,并且工作量很大,这也是关系Sora在未来能否开放给公众的关键问题。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部