对话一览科技罗江春:AI 大模型如何重塑视频创作行业?

对话一览科技罗江春:AI 大模型如何重塑视频创作行业?
2023年05月08日 12:01 AI科技评论aitechtalk

作者丨房晓楠

编辑丨林觉民

2018 年,乌镇,世界互联网大会会场,罗江春以一览科技创始人的身份发表主题演讲,他预测,未来五年,RGC(机器生成视频,Robotics Generated Content)将会走进现实并成为主流。

彼时,距离一览科技创办已近1年,距离ChatGPT诞生、出圈、爆火,还有近4年时间。罗江春的预测大胆、前卫,没有引来想象中听众的振臂高呼。

后来的事情大家都知道,OpenAI发布ChatGPT,生成式AI发生质变,AIGC席卷网络,人工智能迎来新一轮的变革。国内外科技巨头纷纷下注、加码,势如破竹,狂欢继续。

一览科技创立于2017年9月,是国内领先的一站式视频解决方案提供商,作为较早一批进入AI领域的先行者,凭借过去五年的积累和经验,迅速实现AIGC应用层产品化。

今年3月,一览科技推出业界首个基于大模型的“文本+图片+虚拟人”视频AIGC工作流,搭载于旗下视频创作者工具“一览运营宝”,专注服务影视及短视频行业人群。

罗江春是视频领域的资深玩家,从2000年躬身入局,到2005年创办风行,再到2017年成立一览科技,二十多年里,一步步见证视频生产方式从PGC、UGC、RGC进阶到如今的AIGC。

作为见证者,罗江春认为,“OpenAI的出现,把内容的生产形式从RGC带入了AIGC,标志着真正的AIGC时代已经来临。”

以下是罗江春和《AI科技评论》的对话:

1

AI专业出身

入局视频行业已有二十多年

AI科技评论:在这轮GPT浪潮来临前,你在AI上做了哪些尝试?

罗江春:可以说,我从来没离开过视频领域。

2000年—2004年在硅谷做PC版的视频会议,理解为PC版的Zoom。Zoom的几个创始人都是从WebEx出去的,WebEx是我在硅谷工作的第一家公司的竞争对手。我工作那家公司叫Latitude,是一家美股上市公司,专门做视频会议,那时候宽带还没那么宽,对技术要求高。

AI科技评论:你本身是学AI的吗?

罗江春:是的,我正儿八经学 AI 的。

我本科就读于清华,1997 年—2000 年在美国莱斯大学就读人工智能与机器人专业,研究算法。那个时候的算法要求比现在高,因为机器不行、没有数据,而且没有GPU,只有CPU,但能力也不行,算一个东西花的时间比较长。

AI科技评论:你从AI行业转到视频会议行业,算是跨界吗?

罗江春:其实没有。2000年我开始工作的时候,人工智能还不成熟,图像识别的准确度不到60% ,几乎与人抛硬币的概率是一样的。但是那时候要求高,要算的东西多。

AI科技评论:那个时候AI专业出身,跑去做搜索引擎的是不是比较多?

罗江春:有做,但搜索引擎当时还不是人工智能的主要方向,做索引、数据库这样可用于搜索引擎的通用性技术的人多,比如李彦宏。

刚才说到人工智能跟视频有没有关系?其实两者之间最大的结合是从推荐开始的。

最开始是亚马逊用人工智能技术做推荐,来推荐书。后来,我们所有做长视频的人都在参照这个模型,要么做user base,要么做item base,即要么基于用户行为,要么基于电影等视频的相似度来做管理性推荐等。

AI科技评论:风行是从什么时候开始用AI推荐做长视频的?

罗江春:风行在2005年开始做视频,差不多是从2009年—2010年开始用推荐做长视频。这个模式在当时是开放的,大家都是这样想的。

风行当时是推荐电影,与亚马逊推荐书是一样的。书和电影抽象出来背后的逻辑很像:有限数量、精准标签,而且需要长时间阅读/观看。但电影与长、短视频相比,它的数量是有限的。

当时风行在用人工智能做推荐的时候,还没有Hulu这家公司。

AI科技评论:当时风行用AI做推荐是出于什么考虑?

罗江春:当时风行用AI做推荐,是想做一个Video Google模式,爱奇艺后来应该也尝试过。

所谓Video Google模式,就是大家可以用Google 搜索全网内容,但搜不了视频里面的内容,直到现在,这个问题都没有一个足够好的产品来解决。那么,我们就想用AI推荐在长视频中接近这一目标。

因为相较于短视频,长视频最大优势是时长,但这也是最大劣势,商业化空间小。一部长达90分钟的电影,其实没有太多的商业化机会,只能插几个广告,还会被用户嫌弃。我做长视频这么多年,一个很深的体会就是它的时长被浪费了,很难商业化,如今这个问题也没有完全解决。

但抖音、快手不一样。

按照一个短视频时长为15秒来算,刷4个短视频才耗时1分钟,中间插播几个广告用户不会觉得那么烦,而且短视频的信息密度很高,所以商业化空间就会很大。

AI科技评论:当时风行用AI做推荐,是如何给AI做语料标准?

罗江春:我们是“打标签”。比如在电影某个场景中,三个人围着桌子聊天,桌子上放了一杯星巴克,风行想的是,能不能把咖啡用标签标示出来?等大家搜星巴克的时候就可以搜到它,基于此做一堆关联广告。

另外,能不能替代它,把它换成Costa?或者实现“伴随”,场景中出现星巴克的时候,可以在下面浮动一个文字链接,或者在播放框上浮动一个“去哪里购买”之类的标签。这些我们都尝试过,当时的点击率还挺高,可以达到1%。

当时风行用AI做推荐产生了几百万元的收入,看似成长性很好,但在风行彼时几亿的盘子,占比很小。

2

与短视频碰撞的第一次火花

AI科技评论:风行有没有尝试过短视频?

罗江春:尝试过。

移动互联网开始没多久,风行推出两个短视频APP,其中一个叫“快看”,反响很好,那时候国内做短视频的还很少,头条当时只有图文,没有短视频;快手也只是gif,没有完全转成视频。

我们当时想做一个类头条的短视频APP。当时字节跳动的办公室就在我们楼上。

但后来,风行就没再做短视频,在短视频上落后其实是投入问题,当时大股东们更希望我们多做一些长视频、互联网电视等。

AI科技评论:风行错过短视频,会不会觉得遗憾?

罗江春:回顾过去,从股东们的角度、结合风行的优劣势来看,这个决策也没错。当然如果当时有一个水晶球告诉我们5年以后短视频将迎来巨大市场,我相信我们也会转战短视频,但没有如果。

当时,我们主要瞄准的是优酷、爱奇艺的长视频领域。从2006年我们就开始想,PC时代,BAT一定会全面拥抱长视频,那么我们只有两条路:要么投降,与BAT合并,要么自己找条路。

我的性格是不愿意与别人合并,那就去找伙伴与他们“对打”。要找有内容、有营销广告、有商业化能力、有渠道的伙伴,那只有电视台。当时有好几家电视台,最后选择了东方卫视,推行“台网融合”模式。

风行选择东方卫视是觉得上海更加市场化、高大上,引入NBA、达人秀等这些高级内容,学习海外电视节目模式,比较海派,但缺少像湖南卫视快男快女之类的现象级节目,后来又错过了好声音这个机会。

AI科技评论:你觉得为什么风行没有走通“台网融合”?

罗江春:从战略角度来说,“台网融合”模式是正确的,就看电视台能不能下定决心。

“台网融合”模式的逻辑就是“4个联合”:联合制作、联合播出、联合营销、联合售卖。

后来,湖南卫视吸取了风行教训(没有完全独家),把这套方法论学去了,而且最后“4个联合”的方法论在湖南芒果卫视真的奏效了,芒果成了这几家里面唯一一家能挣到钱的。

3

创立一览科技

ToC和ToB的“两条腿走路”

AI科技评论:你在风行待了十年?

罗江春:我2015年从风行离开,休息了一年后,2017年9月创办了一览科技。那个时候就开始考虑AI如何与视频做结合。一览科技,寓意一览无余,我们希望看清楚视频里面是什么。

最开始的时候,我们可能连商业计划书都没写好,但因为看好赛道和团队,IDG就投了我们。

当时抖音还没起来,快手也刚开始尝试商业化。

AI科技评论:如何理解一览科技的定位:技术和技能领域的短视频?

罗江春:一览科技是想切知识和技能领域。因为包括抖音、快手、以及BAT的一些视频号都在做娱乐,而我们想做的是技术和技能,希望短视频有用。最开始的时候,一览科技就是ToB和ToC一起做。

ToC端产品竞争很大,我们做的是How to类的内容。

我们做过研究,YouTube上How to类的内容播放量占8%,西方人已经用YouTube去解决问题了。比如奥迪车钥匙怎么换电池?婴儿车怎么装安全带?

所以我们认为这个赛道有机会,我们希望短视频有用。

在ToB端,我们采用梯形策略,自己做中台,同时赋能给客户,比如华米OV 、招行等,都是我们的客户。你可以把一览科技理解为一个视频版的声网。

ToB路线挺有效,小米视频、华为视频、小米浏览器、华为浏览器等我们都合作了,因为他们需要做这个东西,但可能不会专门搭建一个像我们这样的专业团队。

AI科技评论:你之前没有做过ToB路线,为什么一览科技一开始就这样做?

罗江春:一方面,这是我第二次创业,投资方给的资金比较充足,团队规模也更大,所以切B端是希望两条腿走路,至少比一条腿走路的成功率更高。

AI科技评论:现在一览科技主要是提供ToB产品?

罗江春:是的,因为ToB路线跑出来了。如果专注ToC路线,那简直是火星撞地球。2018年的时候,抖音、快手,以及腾讯视频号等花费数十亿元做推广,在这样情况下,我们只花了5000万元,结果可想而知,根本推不动。

所以我们赶紧收手,All in ToB,开始走 VaaS (Video as a Service)路线,琢磨客户需要什么视频服务。结合这几年的经验,我们发现,越来越多的企业、组织需要视频服务,但是不想从头做,所以我们认为ToB 路线是对的。我们给别人做工具,做解决方案,别人直接调用就可以。

4

从RGC到AIGC

AI大模型重塑视频创作

AI科技评论:关于GPT ,你是什么时候关注大模型,并决定使用?

罗江春:我们做ToB向的解决方案,一直认为内容应该有三种生成形态,PGC、UGC,以及RGC(Robotics Generated Content),现在大家更习惯称之为AIGC。

我们早期就进入用AI生产内容这个赛道。从2018年有GPT-1的时候就开始关注,大概到2020年,GPT-3出现的时候,我们开始真正使用。GPT-1和GPT-2确实还不太行。

AI科技评论:你刚才提到大模型结合RGC的核心元素包括哪些?

罗江春:RGC有核心三个元素,脚本、素材、剪辑后期。

脚本是一个很重要的东西,而素材包括图片、新拍的镜头等,声音相关的东西包含配音、(背景)音乐、音效等一系列声音元素,最后再把它们剪辑在一起。

从2018年开始,我们就围绕这三个元素进行探索,一个个去实现。但脚本的自我生成不太成功,这是整个行业都没解决的问题。脚本相当于是一个剧的剧本,这也是我们为什么先出“AI编剧”这款产品。

说实话,作为一个创业者而非教授,在创业时,我们既要考虑到素材的积累,也要考虑到赚钱的问题,它得是一个商业闭环。但是,以自己独立做大模型的方式去生成脚本,对于我们这种公司来说太难了,可小模型又解决不了脚本的创作、创新问题,所以我们不做大模型,而是在大模型上做应用。

AI科技评论:在国内外范围内,一览科技的对标企业是谁?

罗江春:没有对标产品,我们现在应该在全世界范围内,第一家全流程、全产业链在做的公司。但如果从“AI编剧”这个产品来说,我们对标的是美国一家公司——Chatsonic。

可以说,不管是图像生成、大模型,还是视频生成领域,目前中国还没有一家企业能站出来说自己可以与这三个领域内的顶尖公司对标。

而我们在做的就是一步步前进,比如针对RGC的三个核心要素,先用“AI编剧”把编剧的时间节省下来,紧接着是素材、剪辑后期,到一年半以后也许能够完全生成一个很不错的东西。那个时候,也许我们会比较有底气说,与Runway这样的公司比较一番。

AI科技评论:在新一轮的革命性技术潮流中,你认为中国队怎么才能不掉队?

罗江春:我们最近也在思考这个问题,为什么大模型这样的东西是美国人先做出来的?我觉得其中一个原因是我们的创业者中没有像马斯克、 Sam Altman 这样crazy的人,所以一旦出现革命性技术的时候,中国在这方面是有差距的。

但我们有自己的强项,那就是追赶。

AI科技评论:如今国内很多公司都推出了AI大模型,你怎么看?

罗江春:我比较看好像王小川这样的人才,他本身就是搞技术的,能沉下来心做事,如果愿意扎扎实实从底层追赶,反而是有机会的。这种情况下,追两年是有机会能追到类GTP-3. 5或GTP-4水平。当然,这需要足够的金钱、算力,以及海量GPU。

从某种角度上来说,创业公司没有包袱,可能会比大公司更容易跑出来。大公司已经在很多方向上做得比较深,如果想掉头换方向很难,反而是纯粹的创新公司,他们没有包袱,可以拼劲全力追赶。虽然这里面可能有很多坑,但是OpenAI已经证明这条路线能走通,那么我们是不是也能走通?

所以,在这一波浪潮中,存在很多、很大的机会,一切皆有可能。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部