Sora模型变革，文本生成视频成为全球焦点_

文本生成视频前进一大步

防止滥用技术成为开放关键

【阿明观察｜科技热点关注】

OpenAI正式推出Sora，文本生成视频，比真的还真，突然成为了中国科技行业在春节假期中的热点。

不过，虽然Sora文本生成视频模式已经正式发布，但是目前仅限于特邀人群前期调用，还未完全开放给全球AI用户。从当前，外媒消息来看，借助Sora生成的视频已经非常震撼了，即便在视频场景与物体细节上还存在一些瑕疵，这将开创大模型发展的新的先河。

来自MIT科技视点网站的介绍，OpenAI已经建立这个引人注目的新生成视频模型Sora，可以将简短的文本描述转换为长达一分钟的详细高清电影片段。

OpenAI科学家Tim Brooks认为，构建能够理解视频并理解现实世界中所有这些非常复杂的交互模型，是未来发展所有AI系统的重要一步。

资料显示，第一个可以从文本片段制作视频的生成模型出现在2022年底，这是来自META、Google和一家名为Runway的初创公司的早期例子，但是都存在故障和颗粒感。从那时起，这项技术变得越来越快。Runway公司在去年发布的第二代模型，可以制作出质量接近大工作室动画的短片，不过这些动画短片大多只有几秒钟时间。

来自OpenAI Sora将这项文本生成视频模型技术再次提升了一个新的阶段，Sora的示例视频效果高清晰且细节丰富，并且可以生成长达一分钟的视频。

当然，从已经放出来的文本生成视频的例子可以很明显的瑕疵，对此OpenAI将进一步做技术优化与迭代。

比如OpenAI的Sora虽然很好地处理了遮挡，但现有模型存在一个突出问题，当物体消失时，Sora可能无法跟踪物体。如果一辆卡车经过街道标志前，该标志可能不会在之后再次出现。

在一个Papercraft水下场景的视频中，Sora在不同的镜头之间添加了看起来像剪辑的东西，并且模型在它们之间保持了一致的风格。

（其中一个基于Sora输出的演示视频）👆

虽然Sora并不完美，但也惊艳全球AI界了。

在东京的视频中，左边的汽车看起来比旁边的人小，汽车居然还在树枝之间进出。

可见，在Sora长期一致性能力方面，肯定有一些工作要进一步去做。

当然，遗憾的是，OpenAI目前没有向公众发布开放Sora的计划。当前只是OpenAI公司以及第三方合作伙伴特邀人群在测试、试用Sora。其中最主要的原因在于OpenAI担心虚假但逼真的视频可能被滥用。为此，需要在一定的安全性上打造更强之后，才有可能对公众开放，但OpenAI的高层表示此举依然非常谨慎。

作为创建了文本到图像模型DALL-E的的科学家Aditya Ramesh，当前针对Sora的调用，除了安全测试人员外，还邀请了一群视频制作者和艺术家亲测Sora模型，以获得关于如何使Sora对创意专业人士尽可能有用的反馈。另外，也在向所有人展示即将到来的AI前景，预览这些模型的能力。

此外，为了构建Sora，OpenAI的研发团队调整了DALL-E 3技术，这是OpenAI的旗舰技术之一，属于文本生成图像模型的最新版本。像大多数文本生成图像模型一样，DALL-E 3使用了所谓的扩散模型技术，通过训练将随机像素转换成图片。

Sora采用了DALL-E 3技术，并将其应用于生成视频而不是生成静止图像。但研究人员还在研发Sora过程中，还融入了另一种技术。

以此，与DALL-E或大多数其他生成视频模型不同，Sora将其扩散模型与一种叫

Transformer的神经网络技术架构相结合。

据查证，Transformer属于谷歌在2017年的论文《Attention Is All You Need》中提出的技术架构，用于NLP的各项任务，现在也是谷歌云TPU推荐的参考模型。Transformer已经推出基于其架构的语言模型也随后陆续出现，如Bert、T5、ChatGPT和LLaMa等，都在各自大模型中融入了Transformer的技术。

Transformers擅长处理长序列的数据，比如文字。就此，也使得Transformers成为OpenAI GPT-4和Google DeepMind的Gemini等大型语言模型中的特殊技术元素。

但是，需要指出的是，视频不是由文字组成。相反，研究人员必须找到一种方法将视频可以切成“块”。最终找出的方法是在空间和时间上对视频进行切“块”。这就如你有一堆视频帧，然后从中剪下一些小立方块。

Sora内部采用的Transformers技术可以处理这些视频数据块，其方式与大语言模型采用内部Transformers技术处理文本块中的单词的方式大致相同。

为此，使得OpenAI可以比其他文本生成视频模型在更多的视频类型上训练Sora，这些视频在分辨率、持续时间、宽高比和方向等方面都有所不同，必然有助于模型Sora的开发创新。

当然，以后Sora一旦开放给公众，如何防止滥用文本生成视频模式将是OpenAI下一步必须做的工作，并且工作量很大，这也是关系Sora在未来能否开放给公众的关键问题。

头条号入驻

私房性感名册照片模特壁纸写真用数据说话，带你看懂科技上市公司

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

Sora模型变革，文本生成视频成为全球焦点

头条号入驻

一个大事情，国产新能源汽车加速推进半导体自研自产自销

拉着英特尔给2纳米光刻机打广告，ASML省了不少宣传费

融了超24亿一分钱不花，放银行吃利息，这家存储创企厉害了

财经自媒体联盟更多自媒体作者

热文排行榜