国外公司研发AI虚拟形象产品，会说120多种语言和口音，公司估值达10亿美元_

对于过去一年的生成式 AI 公司来说，它们的资金可能很充裕，但是有足够多的客户吗？英国 AI 独角兽 Synthesia 对此很有发言权，在这股生成式 AI 热潮中，它超过了很多对手。

2023 年 6 月，Synthesia 筹集了 9000 万美元。在融资放缓的情况下，该公司也是 2023 年欧洲仅有的七家估值达到 10 亿美元的私营科技公司之一。

据介绍，来自英国伦敦大学学院、美国斯坦福大学、德国慕尼黑工业大学和英国剑桥大学的几位 AI 从业者，于 2017 年在伦敦成立了 Synthesia。

图 | Synthesia 的创始团队：斯蒂芬·特尔里尔德（Steffen Tjerrild）、卢尔德·阿加皮托（Lourdes Agapito）、马蒂亚斯·尼斯纳（Matthias Niessner）、维克托·里帕贝利（Victor Riparbelli）（来源：资料图）

几年前，Synthesia 的创始人之一维克托·里帕贝利（Victor Riparbelli）搬到伦敦生活，并开始从事虚拟现实行业。

后来，他读到马蒂亚斯·尼斯纳（Matthias Niessner）的一篇论文，这篇论文是最早展示 AI 生成视频的论文之一。

图 | 马蒂亚斯·尼斯纳（Matthias Niessner）的谷歌学术首页（来源：谷歌学术）

论文中的视频，让里帕贝利感到非常神奇，他认为这将彻底改变媒体制作流程。

不久之后，里帕贝利又与卢尔德·阿加皮托（Lourdes Agapito）和斯蒂芬·特尔里尔德（Steffen Tjerrild）开展合作，尝试将上述论文成果转化为商业模式。

毫无疑问，这是一个业界人士和学界人士的联合创业，其中卢尔德·阿加皮托（Lourdes Agapito）是英国伦敦大学学院的 3D 计算机视觉教授。

在该公司刚开始创办的时候，其他类似公司正在利用人工智能来创建 Snapchat 滤镜等工具，比如给照片加一个狗耳朵等。

当时，有很多公司在这样做，也在这方面赚了很多钱。但是，Synthesia 创始团队觉得这项技术不仅仅只是加个狗耳朵，他们希望这类技术能在 10 年之后变得非常强大，甚至能够产生变革性。

因此，该公司将发展愿景定为：“让一个有好点子的 16 岁孩子，只需坐在卧室里，就能拍出一部好莱坞电影。”

在该公司成立的前三年，Synthesia 开发了一种 AI 配音工具，即使用计算机视觉技术，来让说不同语言的嘴部动作更加逼真。

这一成果所采用的计算机视觉技术，是基于其联合创始人马蒂亚斯·尼斯纳（Matthias Niessner）和卢尔德·阿加皮托（Lourdes Agapito）的学术成果。

通过此，该公司赚到了第一桶金。但很明显如果走上这条路，Synthesia 将沦为一家以提供服务为主的视觉特效公司，这样一来就很难产生真正的影响力。

后来，Synthesia 意识到生成式 AI 视频的最佳目标客户，不是那些已经在制作视频的人，而是那些想在工作中制作视频但却没有资源的人。

Synthesia 了解到，世界上有数十亿人非常希望制作视频，但他们不知道如何开始，也不知道如何使用相机，有时也无法拿到预算。

而 Synthesia 可以提供一种质量比专业摄像机“低 70%”的产品，但是价格更实惠、更操作容易，这让许多业余爱好者很乐意付费尝试。

拥有 120 多种 AI 语言和口音，几秒就能生成视频脚本

在 Synthesia 的产品中，只需输入视频主题、目标受众和想要的语气（风格）。几秒钟后，就会得到一个结构化的大纲，包括关键点、过渡、甚至是营销词句。

据介绍，Synthesia 的引擎分析了大量文本和视频数据集，掌握了常见的叙事结构和讲故事技巧，这些知识可以帮助它生成视频脚本。

不同于那些提供预制模板的产品，Synthesia 的产品可以根据特定需求定制脚本。

比如，假设想要一个内容丰富的解说视频，就能得到一个包含关键要点的结构化大纲。

如果希望得到一个引人入胜的产品故事，那么就会得到一个注重情感联系和观众参与度的脚本。

当然，Synthesia 并未采用一刀切的模板，而是根据用户的输入，来制作一个独特的脚本。

在没有 AI 工具之前，如果想为视频配音，就必须自己录制或者雇用配音师。而当需要不同语言的视频时，就会变得既重复、又昂贵。

而 Synthesia 拥有 120 多种 AI 语音和口音，可以快速做出不同语言版本的视频。

比如，你可以用母语编写脚本，并从代表每种语言和地区的不同 AI 声音中进行选择。此外，也可以通过调整节奏、语调和重音，来匹配视频的音调和风格。

随后，Synthesia 会利用这些知识，来为虚拟化身设置动画，以便符合用户制定的脚本和语气（风格），甚至会加入一些小动作来增加真实性。

与此同时，Synthesia 还会根据视频的主题，赋予不同的虚拟形象。

例如，在视频模板中，推销模式比赞美模式的人物会显得更正式。

与其他同类产品中的虚拟化身选项相比，Synthesia 的生成作品中，还能体现出人类情感和运动复杂性。

距离“在卧室制作好莱坞大片”已经走完 4 成旅程

自创立以来，Synthesia 吸引了 5.5 万多家企业客户，将近一半的财富 500 强公司正在将其技术，以用于自动生成带有虚拟化身的视频。

比如，英国国家医疗服务体系使用 Synthesia 的产品制作了不同语言的解说视频。

Zoom 公司则使用该公司的产品，将创建销售培训视频的速度提高了 90%，这让 Zoom 员工大大减少了工作量，每月可以腾出 15-20 个小时的时间用于其他工作。

与此同时，Zoom 公司在每位员工身上节省了 1000-1500 美元/月的培训视频制作成本。

虽然这可以大大推动企业的内容交付工作，但需要注意的是，该工具在文本转换字数方面仍然有限。Synthesia 指出，无论是文本文件还是链接，目前可接收的上限为 4500 字。

因此，该公司正在进一步加快生成速度，并正在开发下一代虚拟化身技术。

这将让用户能以更自然的动作、更好的声音、更多的定制选项来展示更多的东西，也能让所生成的视频更加逼真。

具体来说，Synthesia 将建立一个人工智能模型，该模型所生成的虚拟化身，不仅能够完成物理动作，而且能和其他物体互动。

该公司估计，从一个演示视频到一个青少年能够在卧室里制作一部好莱坞电影，他们已经走完了大约 40% 的旅程。

参考资料：

https://venturebeat.com/ai/gtc-2024-highlights-from-our-exclusive-interviews-with-Microsoft-dell-deloitte-and-others/

https://www.computerworld.com/article/1611603/the-rise-of-synthetic-media-get-ready-for-ai-avatars-at-work.html

https://sifted.eu/articles/synthesia-ai-interview

支持：Ren

运营/排版：罗以、何晨龙

头条号入驻

麻省理工科技评论源自麻省理工学院，关注即将商业化的创新，聚焦即将资本化的创业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

国外公司研发AI虚拟形象产品，会说120多种语言和口音，公司估值达10亿美元

头条号入驻

西工大团队造出可在超声中存在15分钟以上的声悬浮气泡，可用于地面模拟太空微重力环境

耶鲁团队揭示多头自注意力结构的上下文学习机制，证明梯度流算法的收敛性

“AI教母”李飞飞创办空间智能公司，力图克服大模型等AI技术的现有局限

财经自媒体联盟更多自媒体作者

热文排行榜