国外公司研发AI虚拟形象产品,会说120多种语言和口音,公司估值达10亿美元

国外公司研发AI虚拟形象产品,会说120多种语言和口音,公司估值达10亿美元
2024年04月25日 19:56 麻省理工科技评论

对于过去一年的生成式 AI 公司来说,它们的资金可能很充裕,但是有足够多的客户吗?英国 AI 独角兽 Synthesia 对此很有发言权,在这股生成式 AI 热潮中,它超过了很多对手。

2023 年 6 月,Synthesia 筹集了 9000 万美元。在融资放缓的情况下,该公司也是 2023 年欧洲仅有的七家估值达到 10 亿美元的私营科技公司之一。

据介绍,来自英国伦敦大学学院、美国斯坦福大学、德国慕尼黑工业大学和英国剑桥大学的几位 AI 从业者,于 2017 年在伦敦成立了 Synthesia。

图 | Synthesia 的创始团队:斯蒂芬·特尔里尔德(Steffen Tjerrild)、卢尔德·阿加皮托(Lourdes Agapito)、马蒂亚斯·尼斯纳(Matthias Niessner)、维克托·里帕贝利(Victor Riparbelli)(来源:资料图)

几年前,Synthesia 的创始人之一维克托·里帕贝利(Victor Riparbelli)搬到伦敦生活,并开始从事虚拟现实行业。

后来,他读到马蒂亚斯·尼斯纳(Matthias Niessner)的一篇论文,这篇论文是最早展示 AI 生成视频的论文之一。

图 | 马蒂亚斯·尼斯纳(Matthias Niessner)的谷歌学术首页(来源:谷歌学术)

论文中的视频,让里帕贝利感到非常神奇,他认为这将彻底改变媒体制作流程。

不久之后,里帕贝利又与卢尔德·阿加皮托(Lourdes Agapito)和斯蒂芬·特尔里尔德(Steffen Tjerrild)开展合作,尝试将上述论文成果转化为商业模式。

毫无疑问,这是一个业界人士和学界人士的联合创业,其中卢尔德·阿加皮托(Lourdes Agapito)是英国伦敦大学学院的 3D 计算机视觉教授。

在该公司刚开始创办的时候,其他类似公司正在利用人工智能来创建 Snapchat 滤镜等工具,比如给照片加一个狗耳朵等。

当时,有很多公司在这样做,也在这方面赚了很多钱。但是,Synthesia 创始团队觉得这项技术不仅仅只是加个狗耳朵,他们希望这类技术能在 10 年之后变得非常强大,甚至能够产生变革性。

因此,该公司将发展愿景定为:“让一个有好点子的 16 岁孩子,只需坐在卧室里,就能拍出一部好莱坞电影。”

在该公司成立的前三年,Synthesia 开发了一种 AI 配音工具,即使用计算机视觉技术,来让说不同语言的嘴部动作更加逼真。

这一成果所采用的计算机视觉技术,是基于其联合创始人马蒂亚斯·尼斯纳(Matthias Niessner)和卢尔德·阿加皮托(Lourdes Agapito)的学术成果。

通过此,该公司赚到了第一桶金。但很明显如果走上这条路,Synthesia 将沦为一家以提供服务为主的视觉特效公司,这样一来就很难产生真正的影响力。

后来,Synthesia 意识到生成式 AI 视频的最佳目标客户,不是那些已经在制作视频的人,而是那些想在工作中制作视频但却没有资源的人。

Synthesia 了解到,世界上有数十亿人非常希望制作视频,但他们不知道如何开始,也不知道如何使用相机,有时也无法拿到预算。

而 Synthesia 可以提供一种质量比专业摄像机“低 70%”的产品,但是价格更实惠、更操作容易,这让许多业余爱好者很乐意付费尝试。

拥有 120 多种 AI 语言和口音,几秒就能生成视频脚本

在 Synthesia 的产品中,只需输入视频主题、目标受众和想要的语气(风格)。几秒钟后,就会得到一个结构化的大纲,包括关键点、过渡、甚至是营销词句。

据介绍,Synthesia 的引擎分析了大量文本和视频数据集,掌握了常见的叙事结构和讲故事技巧,这些知识可以帮助它生成视频脚本。

不同于那些提供预制模板的产品,Synthesia 的产品可以根据特定需求定制脚本。

比如,假设想要一个内容丰富的解说视频,就能得到一个包含关键要点的结构化大纲。

如果希望得到一个引人入胜的产品故事,那么就会得到一个注重情感联系和观众参与度的脚本。

当然,Synthesia 并未采用一刀切的模板,而是根据用户的输入,来制作一个独特的脚本。

在没有 AI 工具之前,如果想为视频配音,就必须自己录制或者雇用配音师。而当需要不同语言的视频时,就会变得既重复、又昂贵。

而 Synthesia 拥有 120 多种 AI 语音和口音,可以快速做出不同语言版本的视频。

比如,你可以用母语编写脚本,并从代表每种语言和地区的不同 AI 声音中进行选择。此外,也可以通过调整节奏、语调和重音,来匹配视频的音调和风格。

随后,Synthesia 会利用这些知识,来为虚拟化身设置动画,以便符合用户制定的脚本和语气(风格),甚至会加入一些小动作来增加真实性。

与此同时,Synthesia 还会根据视频的主题,赋予不同的虚拟形象。

例如,在视频模板中,推销模式比赞美模式的人物会显得更正式。

与其他同类产品中的虚拟化身选项相比,Synthesia 的生成作品中,还能体现出人类情感和运动复杂性。

距离“在卧室制作好莱坞大片”已经走完 4 成旅程

自创立以来,Synthesia 吸引了 5.5 万多家企业客户,将近一半的财富 500 强公司正在将其技术,以用于自动生成带有虚拟化身的视频。

比如,英国国家医疗服务体系使用 Synthesia 的产品制作了不同语言的解说视频。

Zoom 公司则使用该公司的产品,将创建销售培训视频的速度提高了 90%,这让 Zoom 员工大大减少了工作量,每月可以腾出 15-20 个小时的时间用于其他工作。

与此同时,Zoom 公司在每位员工身上节省了 1000-1500 美元/月的培训视频制作成本。

虽然这可以大大推动企业的内容交付工作,但需要注意的是,该工具在文本转换字数方面仍然有限。Synthesia 指出,无论是文本文件还是链接,目前可接收的上限为 4500 字。

因此,该公司正在进一步加快生成速度,并正在开发下一代虚拟化身技术。

这将让用户能以更自然的动作、更好的声音、更多的定制选项来展示更多的东西,也能让所生成的视频更加逼真。

具体来说,Synthesia 将建立一个人工智能模型,该模型所生成的虚拟化身,不仅能够完成物理动作,而且能和其他物体互动。

该公司估计,从一个演示视频到一个青少年能够在卧室里制作一部好莱坞电影,他们已经走完了大约 40% 的旅程。

参考资料:

https://venturebeat.com/ai/gtc-2024-highlights-from-our-exclusive-interviews-with-Microsoft-dell-deloitte-and-others/

https://www.computerworld.com/article/1611603/the-rise-of-synthetic-media-get-ready-for-ai-avatars-at-work.html

https://sifted.eu/articles/synthesia-ai-interview

支持:Ren

运营/排版:罗以、何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部