牛津团队提出多年生DToU方案,能有效检查应用程序的使用请求

牛津团队提出多年生DToU方案,能有效检查应用程序的使用请求
2024年04月15日 20:09 麻省理工科技评论

互联网和数据处理是当代社会的一大基石,但作为普通人的我们,由于种种原因往往不会去仔细阅读《用户许可协议》和《隐私政策》(即所谓的“互联网上最大的谎言”)。

但实际上,人们并非不在乎,而是没有足够精力和相关知识去一份一份地仔细阅读并评估这些协议。

同时,为了解决大平台集中的问题,去中心化万维网是一个较为活跃的领域,强调用户赋能、数据自主性和以用户为中心,旨在增进用户对数据和网络活动的控制能力。

完全可以预见的是:在去中心化万维网上,由于应用程序及提供方的增多,用户需要进行的决策也在增多,这些关于数据使用条款(Data Terms of Use,DToU)的问题只会更加常见。

另外,物联网设备的日益增多也有着相似的问题。基于此,英国牛津大学博士后赵睿和所在团队,希望尽量将更多任务自动化,以减少人们在处理 DToU 条规(policy)时需要投入的时间。

图 | 赵睿(来源:赵睿)

最终,他们提出一种新型的 DToU 理念:多年生(Perennial)DToU。

日前,相关论文以《去中心化 Web 的多年生语义数据使用条款》(Perennial Semantic Data Terms of Use for Decentralized Web)为题发在 arXiv,并被 International World Wide Web Conference (WWW 2024) 接收,赵睿和 Jun Zhao 担任论文作者[1]。

图 | 相关论文(来源:arXiv)

在这里,他们将 DToU 和植物进行了类比。种树时,我们自然会期望这棵树能持续生长许多年,而且树会结出果实,果子又会长成新的、和亲本类似、但不完全相同的树。

对于和某个数据相关联的 DToU,赵睿期望它可以在面对多种多样的应用程序的使用请求时,都可以进行有效的检查。

并且当应用程序生成输出数据时,相应的派生 DToU 会被自动推理出来,和输出数据相关联。

而这个派生的 DToU 要考虑计算中对数据的组合和变换,在原有的 DToU 基础上进行自动调整。

研究中,课题组也同时回顾了已有的 DToU 语言的研究,对它们的特性进行分类总结。

以此为基础,在本次提出的新语言中,他们界定了三个主要的推理任务:合规性检查、义务识别、条规派生。

合规性检查,是 DToU 或条规语言(policy language)的最常见功能,用以确定某个具体的数据使用过程(比如应用程序)是否符合 DToU 的规定。

义务识别和合规性检查存在相关性。但是更软性的规定,也就是数据使用者在被赋予了数据使用权之后,还需要额外做哪些事情来满足数据提供方的规定?

一个典型例子就是“如果你使用了我们的数据,那么需要对我们进行致谢”。

而条规派生则是完成“多年生”目标的一项核心功能,即在考虑具体数据使用过程的细节的基础上,从输入数据的 DToU 推理出输出数据的 DToU。

在此基础上,该团队提出一个新型 DToU 条规语言,它同时支持描述数据提供方的 DToU,也支持描述数据使用方的 DToU,拥有较为丰富的语义特性,还满足“多年生”的要求。

预计 DToU 会作为数据分享和流动的基础设施,任何使用非公有数据的场景都是该研究可以应用的场景。

其中一个例子便是研究相关的特定领域数据共享,比如医疗数据。目前场景下,使用这些数据往往需要繁琐的检查和审批,而这些流程主要就是为了保证数据不会被滥用。

在增加形式化 DToU 的基础上,研究人员(作为数据的使用方)可以声明自己使用数据时的相关 DToU,而数据源本身自带有各自相应的 DToU。

这样一来,审查方可以借助自动推理辅助检查合规性,加速审批流程。而这些同样适用于研究的结果或中间结果,它们同样可以借助 DToU 推理做到更方便地共享。

从更广阔的视角来看,智慧城市、物联网、虚拟/混和现实、智慧教学、去中心化互联网等都是适用场景,因为它们都涉及大量的(关于他人的)数据采集/生成、数据传输、和数据处理。

而且数据使用方往往和数据采集之处相分离,使得检查和确保数据使用的合规性较为复杂。而当前的主流研究均未能讨论这个问题,更多只是假设数据可以自由使用。

那么,在此之上该如何设计相关系统和架构?赵睿表示:“我们提出的多年生 DToU 方案正适合在这些场景作为基础设施:只要数据源为自己的数据制定了 DToU,那么之后对该数据及其下游数据的使用都会参照该 DToU 进行合规性检查等。”

而由于 DToU 的派生过程会考虑数据处理过程的特性,下游的 DToU 也会自动地进行相应调整,以符合该下游数据的特点。

比如,假如一个处理步骤的作用是过滤数据中的部分信息,那么过滤掉的信息的相关 DToU 也需要被进行相应过滤。

这样一来,由于数据流的合规性可以借由 DToU 推理进行保证,而不是通过繁琐的人工检查。

且规则的来源是数据所有者或数据对象(也就是被采集数据的个人),那么人们会更加倾向于分享数据。

最终结果是数据的流动会更加自由,在产生更大的社会效益的同时做到尊重个人的需求。

除了具体研究内容之外,在这一系列研究中,由于赵睿经常要和牛津大学教授奈杰尔·沙博特(Nigel Shadbolt)和万维网发明者蒂姆·伯纳斯·李(Tim Berners-Lee)交流,赵睿发现他们都很随和,并且也愿意聆听和提出建议。

而且他们并没有因为自己在已有领域已经取得极大成功而停止了解新知识,反而一直会去跟进最前沿的知识,更新或修正自己的认识,甚至经常会进行超前的思考和讨论。

另外赵睿还意识到,虽然计算机领域在其短短几十年的历史中经历了数次重大更新和变革,但从前的许多思考未必过时,反而在新时代同样熠熠生辉。

比如二十年前人们在讨论语义网时,就在探讨如何让 Intelligent Agent 自动识别信息并为人服务,如何扩大数据的互操作性。

而后由于种种因素人们将资源投向了其他领域。但在近两年随着大模型的广为人知,人们又开始重新讨论这些话题。

有所变化的是当下人们有了另一种类型的工具,可以完成一些以往不知道如何解决的任务。但不变的是最终的目标以及相应的需求,以及确定性的信息和知识的重要地位。

而在接下来,首先赵睿和所在团队会进行一些用户调研(study)乃至协同开发(co-develop),尝试了解对数据使用条款的应对理解现状,以及通过形式化和自动推理的方式,探索他们研发的系统是否可以起到帮助。

其次,将尝试改进 DToU 的书写/构建过程,比如通过 ChatBot 的方式理解用户的预期,然后转换为形式化的 DToU。

当然,与此同时,他们也会继续推进对所提出的 DToU 语言的语义的扩展,以覆盖更多的场景。

在 DToU 之外,赵睿还负责另一个课题的研究:即去中心化用户自主场景下的对集体数据使用的隐私保护计算。不过这篇论文目前还在投稿中[2]。

参考资料:

1.https://arxiv.org/pdf/2403.07587.pdf

2.https://arxiv.org/abs/2309.16365

运营/排版:何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部