实测国产视频生成大模型 一个人“拍”一部剧?

实测国产视频生成大模型 一个人“拍”一部剧?
2024年10月10日 13:27 IT时报

测试vidu、清影、可灵、即梦,视频生成效果如开盲盒

作者/ IT时报记者 沈毅斌

编辑/ 潘少颖 孙妍

“AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间,也降低了入局门槛,一个人就可能拍完一部剧。”上海大学温哥华电影学院副院长陈晓达曾向《IT时报》记者讲述视频生成大模型对影视行业的影响。

今年七月,国产视频生成大模型迎来爆发式增长。生数科技打造的视频大模型Vidu上线;智谱AI正式发布视频生成大模型“清影”;快手可灵AI、抖音即梦AI纷纷正式上线网页端……

在火热的国产视频生成大模型赛道,究竟谁家效果更好,最有可能“取代”演员?《IT时报》记者选取Vidu、清影、可灵、即梦四款国产头部视频生成大模型,采用统一的电影写实设定和提示词进行实测。

整体情况

●Vidu:页面主体十分简洁,左侧为输入框,可选择文本输入或图片输入。左上角的“设置”有写实和动画两种生成风格,生成的视频时长为4秒和8秒。需要注意的是,8秒生成时长需要付费订阅。右侧为输出框,用户可以看到此前的生成记录,并进行重新编辑,让视频更加完善。

●清影:作为“智谱清言”的一项功能,清影位于“智能体”功能键中,同样可以选择文生视频和图生视频。界面分为四个部分,左侧是功能模块、历史记录和视频预览。右侧是控制台,相比Vidu,清影拥有更丰富的参数设定,不仅可以选择3D卡通、油画、电影感等视频风格,还能选择情感氛围和运镜方式,实现更好的画面效果。

●可灵:除了文本输入框,可灵还有更为详细的参数调整,用户可以调整生成模式、生成时长、视频比例。最具特色的是创意想象力和创意相关性调整,初始状态参数为0.5,越靠近1与文本关联性越强,反之越趋近0创意性越强。在运镜方面,可灵拥有10种运镜方式,同时还可以选择不希望出现的内容,精准控制生成内容。

●即梦:即梦界面具备生成模式、生成时长、视频比例等多种调整功能。在右侧预览部分,可对生成视频进行延长时长、对口型、补帧、提升分辨率等调整,但都属于会员功能。即梦与可灵的区别在于运镜调整,采用上下左右、旋转、变焦等方式调整参数,可以更精细地调度镜头,同时还能控制镜头运动速度,达到想要效果。

场景一:城市多场景

提示词:在未来城市中,人形机器人有的在清扫街道,有的在家为居民做早餐,还有的在商场担任导购。

测试结果:即梦>可灵>Vidu>清影

●Vidu:《IT时报》记者输入提示词后,Vidu仅用1分钟左右就生成了一条4秒的视频,是四款大模型中最快的。从生成效果来看,画面符合写实设定,一开始展示出在街道上行走的人形机器人,一秒后切换为室内场景,展示出做早餐和商场指引的场景,每个场景的衔接都是直接切换。尽管Vidu可以实现多场景生成,但与文本关联性并不密切。第一个提示词中的街道场景出现的人形机器人只是在行走,并未清扫街道。而后两个场景都是真人完成的动作,并未出现“主角”人形机器人。

●清影:在输入提示词后,清影需要等待5—8分钟才完成生成,尽管选择写实风格,但生成画面依旧偏向3D动画。一个镜头是人形机器人用吸尘器快速清扫着街道,主体清晰背景却十分模糊。随着画面的快速运动,场景也从街道转为室内,人形机器人开始做早餐,但无论是背景还是主体,都较为模糊,尤其是人形机器人,已经发生严重畸变。最后进入单一场景,画面才变得清晰,人形机器人站在镜头前操控着数字屏幕导购。清影虽然可以理解文字意思,且在场景衔接处加入了过渡和转场,但模糊难以避免,畸变情况较为严重。

●可灵:在场景生成中,可灵并没有生成多个画面,仅一个未来商业场景就将清扫街道和导购两个任务涵盖其中,多个人形机器人穿梭在街道,执行不同的任务。由于做早餐属于室内场景,在视频中没能体现出来。但可灵生成的场景写实感较强,更符合记者所设想的画面,清晰度和流畅度也是最好的。不过,在第三秒时,画面中的一个人形机器人突然分裂成两个,细节还需要改进。

●即梦:从整体画面来看,即梦生成的视频偏向3D动画,同样以一个场景进行展现。画面中心是多个人形机器人利用清洁工具清扫街道;右侧是一个人形机器人与人类对话,完成导购指引;旁边的早餐铺虽不起眼,但能看出有机器人在做早餐。即梦也是所有大模型中多场景能力展现最好的,但画面动作幅度不大,更像是动图的感觉。

场景二:人物动作运镜

提示词:两位武侠在竹林间比武,镜头由远及近逐渐推至人物面部。

测试结果:清影>Vidu>可灵>即梦

●Vidu:Vidu能理解并展现“竹林”与“武侠”两个关键词,同时保持较强的写实感,生成的人物贴近真人。但在动作处理方面,表现一般,最直观的是两位武侠在比武过程中,一会是拳脚比试,一会手中又出现宝剑。镜头也没有由远及近推拉运动,直到最后一帧突然出现一张人物脸部特写,十分突兀。无论是画面精细程度还是连贯性,远不及场景一。

●清影:在测试的四款大模型中,清影的人物和场景畸变最为严重,从视频开头到结尾,两位武侠的动作幅度虽大,但十分模糊,面部轮廓也没能呈现出来,直到最后特写定格才快速生成出一张清晰的人脸。但在镜头运动方面,清影做到了由远及近推拉运动。记者重新生成一条同样的视频并加上旋转镜头后,清影依旧可以展现很强的运镜效果。

●可灵:可灵的画面采用俯拍视角,竹林间,两位身穿盔甲的士兵扭打在一起,看不清面部,也没有理解“武侠”一词。人物动作以推搡为主,不及前两家大模型。运镜方面,可灵生成的视频完全没有镜头运动,从始至终都保持一个角度和景别,让视频观赏性大大减弱

●即梦:即梦注重人物面部呈现,视频中两位武侠紧贴在一起,脸部始终清晰,长袍束腰的服饰也符合中国武侠的形象。但人物以静止为主,直到最后才做出扭头和挥手的动作,没有比武打斗动作,也没有镜头运动

场景三:动物拟人

提示词:一只参加奥运会的熊猫,完成体操项目比赛。

测试结果:Vidu>可灵>即梦>清影

●Vidu:一只与《功夫熊猫》非常相似、身着奥运五环红色背心的熊猫站在鞍马上举起上臂欢呼,随后弯下腰跳下鞍马,这是Vidu在场景三中生成的画面。与之前不同的是,Vidu在此轮测试中采用3D卡通风格,更符合动物拟人形象。动作方面符合逻辑且没有出现重影、卡顿,是目前测试中效果最佳的视频。

●清影:用同一提示词生成两条视频后,清影没能呈现出清晰的熊猫形象。视频中位于鞍马上的熊猫一直背对用户,做出一个翻滚动作后,黑白配色便开始错乱,重影、模糊等问题明显,背景中的观众也会随着画面抖动。尽管只有6秒时长,但每一个画面都存在形变。

●可灵:可灵依旧保持写实风格,熊猫以动物形象呈现,没有拟人效果。它对着镜头缓慢爬行,随后伸个懒腰便坐了下来,整体动作行云流水,并未出现形变、重影,也符合熊猫的行为逻辑。不过,在体操表现上不足,除了一块蓝色的体操垫,便再无体操元素。虽然整体生成视频与提示词的关联性不强,但画面质量、动作流畅度在四款大模型中较好。

●即梦:画面单一、动作幅度小是即梦生成视频的特点,在场景三中,即梦依旧没能改变这一现象。画面中的熊猫保持动物形态用四足站在鞍马上,但在运动过程中,熊猫增加了一条腿,对熊猫的物理运动方式不能完全理解。

记者手记 生成效果如同“开盲盒”

动作流畅、符合逻辑、多种运镜等已经成为各家视频生成大模型重点宣传的功能,但从《IT时报》记者测试来看,视频生成效果与想象还有一定差距,每一条视频可能存在意想不到的错误,类似“开盲盒”。

对于新人用户来说,不需要输入非常复杂的提示词,大模型自动提示而生成的效果最佳。若输入提示词,也并非越复杂越好,而是需要拆分成一个个短句进行描述,单画面生成效果最佳。此外,生成之后还需要进行优化调整,以此来减少失误率,提升视频质量。

值得一提的是,视频生成需要花费较长时间,一条6秒的视频生成大约需要5分钟,且每次改进都需要重新生成。

尽管视频生成大模型降低了入局门槛,但想要实现一人“拍”一部剧,还需要花费大量时间和精力。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部