Speaking Portrait能让D-ID与MyHeritage再次迎来“蚂蚁呀嘿”时刻吗_

继Live Portrait（为轰动一时的 MyHeritage 应用程序提供支持，该应用程序将经典的家庭照片变成了栩栩如生的动态肖像，此前国内火爆的“蚂蚁呀嘿”便是基于此技术）功能后，以色列反人脸识别初创公司D-ID又研发出了一种新的照片处理技术：将静态照片转换为超逼真的视频，能够说出你想说的任何话的功能——Speaking Portrait。

D-ID 实际上于 2018 年在 TechCrunch Battlefield 上首次亮相，其当时的业务与此刻非常不同（反面部识别技术），而在TechCrunch Disrupt 2021 上，D-ID 在现场推出了其新的视频化照片产品。该公司展示了许多用例，包括使用其新的技术创造一个能够表达各种情感的多语言电视主播；为客户支持互动创建虚拟聊天机器人角色；开发用于专业发展的培训课程；并创建交互式对话视频广告等……

D-ID这款新产品继续与 MyHeritage 的合作，让后者公司的应用程序短暂占据了苹果 App Store 排行榜的榜首，显然与该公司最初的重点有很大不同。直到去年 5 月，D-ID 仍在根据其早先的方法筹集资金，但它与 MyHeritage 的合作于 2 月首次亮相，随后与 GoodTrust 达成了类似的交易，并与华纳兄弟展开了引人注目的合作。休·杰克曼 (Hugh Jackman) 的电影《回忆》让粉丝们可以将自己插入预告片中。

D-ID 的支点似乎比大多数人都更具戏剧性，但从技术角度来看，它对让照片栩栩如生的新关注与其去识别化软件相去甚远。D-ID 首席执行官兼联合创始人 Gil Perry 告诉表示，该公司选择新方向的原因很明显是由于这种应用程序有一个非常大的潜在市场。

反人脸识别技术起家

D-ID全称de-identification，即去标识化、解除身份识别。它由Perry与以色列陆军网络安全与进攻性网络部队8200成员Sella Blondheim、Eliran Kuta共同创建，创始之初它们的主要研究方向为反人脸识别。

创始人Perry表示：“由于我们位置敏感的缘故，我们不能在网络上分享自己的照片和个人资料。但是，即使是我们完成服役后，我们也不能发出我们在南美进行训练时的照片。这使我们感觉很不好，因为我们也是社会中的一员，每个人都可以分享自己的照片，但我们却不能。”于是，能够在人脸识别技术下保护照片不受识别成为后来D-ID的主要研究方向。

众所周知，人脸识别技术大概分为4个步骤，第一步是人脸检测，目的是寻找图片中人脸的位置；第二步是人脸对齐，将不同角度的人脸图像对齐成同一种标准的形状；第三步是人脸编码，将人脸图像的像素值转换成紧凑且可判别的特征向量；第四步是人脸匹配，将特征向量与库中的人脸信息进行对比查询，从而得出判断结果。

基于此，D-ID通过"利用大脑和人眼之间的间隙以及机器所理解的"来帮助保护其中的一些数据，例如扭曲面部表情、AI换脸、更换如眼睛等关键点信息使得人脸识别在第三步获取到错误的信息，从而无法顺利走到第四步。

随着如欧盟一般数据保护条例等数据隐私法规的推动，D-ID一方面相继获得数百万美元与数千万美元的种子轮、A轮融资，另一方面也拿到了一部分汽车公司与传媒公司的订单，但D-ID的反人脸识别受众优先，Perry在2018年表示D-ID是需要换一种角度思考了。

转身投入娱乐应用的怀抱

2020年初，美国一家名叫My Heritage的基因检测公司推出了一项全新的免费服务：用户可以在它的网站上传老照片，而算法能够将静态的照片变成动态的短视频，让照片中可能已经过失的祖先，变得栩栩如生，而这项功能背后的技术提供者则是D-ID。

使用方法也非常简单，只是需要用户在My Heritage上注册一个账号，（14天免费试用，期间可以随时取消），才可以上传照片。上传后只需要稍等10-20秒，照片“活化”的小视频就自动生成了，Deep Nostalgia的推出让My Heritage迅速成为仅次于Tiktok的黑马应用。

Deep Nostalgia在D-ID内部称为Live Portrait，Perry表示其原理虽然并不新鲜，可这项技术可能是新的。这项技术的难题不仅仅是改变脸部和动画，还在于从一些没有的信息中生成一个令人信服地，从单个静止图像生成一个移动的人。

Perry表示，D-ID必须克服从一张照片中获得信息的缺失，早期面部重构新动画的尝试需要大量的训练数据，并且也很难与"遮挡"（脸部部分被手或其他物体阻碍）。同时D-ID还会遇到一些意想不到的困难，例如当用户上传一张非常正面和没有牙齿的照片，这个时候就需要算法去预测和创建照片中未出现的缺失部分，例如耳朵、牙齿、背景。

得益于D-ID的开放策略，使得Live Portrait具有极强的适应性，只要接入D-ID的API就能使用其服务，从博物馆应用程序到社交网络，它正被应用到所有领域。

而D-ID此次推出的Speaking Portraits 同样具有较强的适应性，它允许任何人从源图像生成全高清视频，以及录制的语音或输入的文本。D-ID 正在推出支持英语、西班牙语和日语的产品，但也计划在未来添加其他语言，因为客户需要这些语言的支持。

D-ID 提供了两个基本类别的说话人像，包括可以仅使用单个静止图像制作的“单一人像”，该图像具有动画头部，但其他部分保持静止。对于更不可思议的现实，有一个“受过训练的角色”选项，需要按照公司提供的指导提交所请求角色的 10 分钟培训视频。这样做的优点是能够在自定义的、可交换的背景下工作，并为角色的身体和手部提供一些预设动画选项。

显然，能够从单张照片中创建逼真的视频，并能令人信服地提供您想要的任何线条，这有点令人毛骨悚然。我们已经看到了关于深度造假的伦理的广泛争论，以及行业努力尝试指纹和识别人工智能何时产生逼真但人为的结果。

Perry在 Disrupt 上表示，D-ID“热衷于确保它的用途是好的，而不是坏的”，为了实现这一目标，他们将在 10 月底与合作伙伴一起发布承诺概述他们在使用“Speaking Portraits”等技术时对“透明度和同意”的承诺。所述承诺的目的是确保“用户不会对他们所看到的内容感到困惑，并且相关人员会表示同意。”

虽然 D-ID 希望在其使用条款和公众立场方面对滥用此类技术做出保证，但 Perry 表示它“不能单独完成”，这就是为什么他呼吁生态系统中的其他人联合起来努力避免滥用的原因。