瑞莱智慧RealAI首席架构师徐世真：探讨人工智能和隐私计算关系_

瑞莱智慧RealAI首席架构师徐世真博士认为，AI和隐私计算是息息相关的。首先，隐私计算是AI能力的重要补充。从技术角度看，足够规模且多样化的数据，才能训练出比较好的模型，隐私计算能够解决数据的连接问题，为算法的持续进化提供数据补充

第二，徐世真博士认为AI是隐私计算的核心需求。从场景角度来看，隐私计算通常和AI紧密相关，AI可以看成隐私计算的上层应用与核心需求。基于密码学原理的MPC/联邦学习，需要针对特定应用进行程序改写，而且多数是属于AI应用，比如DNN、逻辑回归或树模型。从这一点来看，发现AI和隐私计算有一定的相通之处，他们都没有一个通用技术方案解决所有问题。同时，理想状态下，希望隐私计算技术和上层应用解耦，但实际情况却不是，各个应用和底层技术紧密相关，底层技术复写整个应用，所以AI是作为底层技术的牵引。

第三，隐私计算是AI平台的2.0版本。从产品角度来看，用户其实需要的是带有隐私计算功能的机器学习平台，各家号称提供隐私计算平台，其实提供的大都是AI建模能力，不过底层通过了密码学、MPC技术进行隐私保护的功能。

总体来看，徐世真博士认为人工智能和隐私计算互为补充，且互为核心需求。但目前也了解到，隐私计算面临很多问题。

第一，生态壁垒。隐私计算解决数据孤岛的问题，但解决了之后，反而会诞生技术孤岛的问题，各家隐私计算的技术互不相通，也无法互相连接，基本意味着上层的代码需要重构。

第二，计算性能。速度慢，因为引入了很多密码学操作，要么是MPC带来的通信问题，要么是同态加密带来的计算性能问题，很难支撑大规模数据训练，如果是亿级或十亿级的训练，单纯用联邦学习或者MPC很难实现。

第三，安全性。各家从知识产权的角度不太会公开自己的底层协议（除了一些开源项目），这就带来协议不透明的问题，难以审计。安全性如果没办法审计，将会蕴含巨大漏洞。

第四，可用性。为了做数据生态、解决方案生态，不可能要求客户自己连接数据，所以作为一家隐私计算技术的服务商，需要提供开箱即用的数据，甚至需要提供开箱即用的解决方案，让用户能够在不改变原来中心化非隐私计算操作体验的情况下来使用隐私计算平台。

刚刚讲到AI和隐私计算之间的关系。看到，AI相当于是早几年的隐私计算，其实可以用AI的发展趋势预测隐私计算将来的发展趋势。

AI是怎么解决兼容互通的问题？

编辑AI有很多框架，比如Tensorflow，PyTorch等各个框架之间也很难互通，后来出现了ONNX，在数据流图层把各家的协议集中汇聚起来，再转移成另一个框架可以执行的东西。数据流图层面的兼容，是AI发展为解决框架之间互联互通问题提出的方案，对隐私计算的互联互通具有借鉴意义。

二是性能优化，知道AI也是吃算力的，AI的性能优化基本沿着两条路线，一个是硬件升级，最早是CPU，后来是GPU，再到现在专用的AI芯片，不管是训练芯片还是预测芯片。第二个是算法升级，包括模型的压缩、蒸馏、剪枝，把大模型变成小模型，这些对于隐私计算的发展也是适用的。

三是AI的安全性问题。公司做的一项研究，左边是雪山的图片，经过添加对抗噪声，可以让AI识别错误，把它识别成一张狗的图片。其实隐私计算也面临类似的问题，比如横向联邦中的数据投毒，模型污染化，所以AI和隐私计算在安全性提升方面面临的问题也有相通性。

四是场景落地，前几年一直说AI赋能万物，AI赋能所有产业，现在大家发现是产业结合AI，场景结合AI。隐私计算目前也处在这两种思想的汇聚期，到底是隐私计算作为底座赋能所有产业，还是结合具体场景来选择相应的隐私计算技术？这是两种路线之争。当然，相信结合场景的AI更有价值，结合场景的隐私计算也更实际，更可落地，也更有价值。

从AI的发展经验来推演隐私计算的发展，徐世真博士认为有以下几个思路。

第一，编译器路线。兼容互通应该在底层算子层完成，不应该只停留在软件层或集成层，底层数据流图也是安全、可追溯、可验证的工具，可表达计算逻辑。

第二，性能优化。短期可以通过优化底层的密码库来实现，未来还需要新硬件的介入，更好地提升速度。第三，隐私计算的安全性包含抵御密码协议层和应用层的恶意攻击，随着AI的发展，一些对抗样本攻击的问题开始出现，隐私计算的发展将来也将面临一些新安全问题，应该在当前发展的时候就考虑到，而不是先发展后治理。

产业路径方面，隐私计算需要逐场景落地，根据不同的场景选择不同的技术路线。结合隐私计算的三大技术路线，各个路线之间的优劣势，包括多方安全计算、联邦学习和可信执行环境。

（1）从应用场景来说，MPC更适合数值类简单计算和查询求交类特定计算；联邦学习主要是针对机器学习的场景，计算逻辑比较复杂，不是简单计算；TEE更适合通用计算场景，比如有时候想跑一个完整的Tensorflow或数据库应用，用前两个比较难，用这个比较合适。

（2）技术优势的角度。简单的分布式统计/查询求交场景下，MPC比较成熟，但复杂计算情况下受限于通信情况，还是不太成熟；联邦学习，保证数据不出库的情况下进行复杂的机器学习、建模，大部分情况下的计算性能还是尚可的，但是在一些特别大量的数据下，密码学计算还是主要的限制；TEE是集中式的数据处理，易开发，它的算法/框架生态是最好的。

（3）劣势的角度。MPC的通信量大，支持简单的计算逻辑还行，但计算逻辑一旦复杂，比如一个Resnet，2-party，一张图片的inference可能需要10分钟以上，在实际落地中是完全不可接受的；联邦学习主要是面向AI建模场景，但有的场景就是想简单的求和、求最大值，这时候联邦学习就不是理想方案；TEE主要劣势是依赖于硬件厂商的硬件可信性，和用户是否接受数据集中式处理。

隐私计算虽然能解决一些问题，但也要看到，它还有很多问题没有解决。隐私计算解决的是数据流通安全性的问题，分离了数据所有权和使用权，能够避免流通过程中的资产损失，但它没办法解决端到端的安全问题。很多企业更希望获得的是端到端安全保障，比如数据存储、数据采集怎么做，以及数据流通前后的权属该怎么定，隐私计算在解决这样全链路安全问题上，还面临着一系列挑战。所以，隐私计算仅仅是企业合规建设中的一个技术环节，整体上还是需要在法律法规的指导下进行。

另外，隐私计算还没有解决意愿问题，虽然数据能流通了，但为什么大家为什么愿意把数据拿出来流通呢？用户是不是只是把隐私计算当成企业合规建设的成本项？这是巨大的挑战。包括现在看到的数据交易机构，发现数据交易的意愿不是那么强烈，所以这个问题不仅仅是出现在技术层面，它只有深度结合AI，使业务方从隐私计算中获益，才能把隐私计算从成本项变成营收项，保证企业有可持续的开放意愿度，保证数据价值闭环操作。

为此，开发了一个隐私保护计算平台RealSecure。

这个平台一个核心的特点在于联邦AI编译器。发现，大多数的隐私计算框架在做（纵向）联邦学习的时候，会先分析整个数据流图或计算公式是什么，再进行人工改写，X侧写一份程序，Y侧再写一份程序，这是普通的人工改写方式。而提出编译器技术，通过分析底层数据流图，会把X侧和Y侧各自该执行什么自动分出来，做到机器学习生态和联邦机器学习生态的相统一。机器学习框架是从弱数据流图时代发展到强数据流图时代，未来隐私计算的发展也将遵循这样的路径，所以会根据原来的接口写一套程序，转成数据流图，进行分布式的切分、调度，加上一些操作产生模型流，不用像原来需要X和Y侧各写一份程序，让从业者即便不懂隐私计算，但也可以自行操作、灵活调度隐私计算平台。

第二点，发现联邦学习90%以上程序时间花在加解密上，为此创新性地引入了全同态加密技术，它不是一对一的加密，基于SIMD技术，可能有8000个甚至16000个明文对应一密文环来操作。发现这特别适合机器学习以Tensor为最小数据单元的场景，它以批次数据执行计算，而不是单条数据执行计算.在简单机器学习算法中，获得了很好的速度提升，相对于开源框架可以有40倍以上端到端的性能提升。全同态的加密和解密操作，虽然单条的性能不行，但如果是一个批次进行，会有几十倍乃至上百倍的性能提升，所以全同态的引入是一个重要环节。但使用全同态的时候，调参比较麻烦，需要对底层原理有深入理解。

徐世真博士认为，这套自动化工具能够实时简便，做到算法兼容，对于静态的机器学习模型，它的用户接口很好，你会自己感觉就像在写NumPy程序，但实际它被调度到纵向的两方执行学习操作。底层用的是数据流图，上层用户可以看到底层操作符，不再只能是一个个Python或C++代码。有了数据流图之后，安全性就不可抵赖了，知道双方在各自进行什么样的程序，数据流图的统一可以为说是未来各条技术路线统一的中间工具。同时提供包含协议模型及安全性假设、运行计算日志审计，以及数据抓包监测，看看和这个隐私计算的数据流图是不是完全一致。

也建立了“平台+数据+服务+场景”的一体解决方案，基于这套方案，做了很多场景案例。

这是某家头部银行的资产跃迁分析案例，有总行、保险子公司、证券子公司，要分析交集客户总资产，并定位交集客户的资产跃迁。这是加法、求最大值和平均值的应用案例，主要分析行内资产600-800万的客户有哪些，800-1000万的客户有哪些，他们的保险以及购买证券的行为是怎样的，提供数据决策支撑，这基于跨地域进行的MPC计算。

第二种，通过横向联邦的技术（纵向联邦的商业场景更多），由中原银行牵头，各中小银行成员单位通过部署的平台节点，将自己银行的用户标签和feature信息进行横向连接，实现帮助数据量小的银行机构提升反欺诈模型效果。

（完）

亲爱的数据，出品