21世纪经济报道记者肖潇 实习生 崔嘉豪 袁清渠 北京报道
12月8日,一条关于字节跳动旗下AI产品“豆包”的内容在社交平台引发争议。一名网友发帖称,陌生人通过豆包AI搜到了她的微信号,还能通过AI查到自己的专业、考研成绩、班级活动等信息。
对此,21世纪经济报道记者联系了豆包相关负责人,平台回应称,豆包是基于互联网上公开信息进行了搜索和智能整合,此类联系方式通过搜索引擎也能够搜到。
豆包方面表示,目前已对询问个人信息类提示词进行优化,保证即使网上有公开信息的情况下,仍然限制相关信息的露出,做好个人隐私信息的保护。后续将继续调整产品策略,以避免对用户造成困扰。
12月12日,记者对豆包、文心一言、通义千问、Kimi四款国内AI语言大模型进行测试,发现已有部分大模型产品进行了调整,限制与个人信息相关的回答。
不过,这不是大模型第一次引发个人隐私争议。当信息被用于超出用户预期的场景时,催生了不安,AI产品的隐私策略面临更复杂的挑战。
测试:AI爬取公开信息,部分回答有限制
根据当事人对媒体的讲述,陌生人是在豆包中输入了“学校+姓名”,得到了她的微信号。豆包显示,这条信息来源于一篇2023年的公众号文章,当时当事人在为一个学生剧组招募现场演员,并在文章中留下了自己的微信联系方式。
当事人称,自己已向豆包举报了带有微信号的回答,目前豆包不再返回相应答案。不过输入其他人的姓名和学校,还是可以获得详细的个人信息陈述。
豆包是字节跳动旗下的AI聊天工具,能够让AI联网总结信息。该产品于去年8月上线,字节跳动产品和战略副总裁朱骏在今年5月称,豆包APP总下载量已突破1亿次。
12月11日晚,21记者用类似的方法对豆包、文心一言、通义千问、Kimi四款国内AI语言大模型提问。从测试结果来看,大模型的回答能力与个人网络曝光度相关:如果一个人日常活跃、有网络曝光度,AI的确能详细陈述信息;反之则描述不出结果。
举例来说,21记者输入一名考研成功、曾在媒体实习,且有丰富志愿经历的学生姓名,豆包能够详细描述其学术成果和成绩表现。这种情况下,豆包的信息源是学校官网和媒体网站,包括学校公开的自主招生成绩、硕士录取名单,媒体报道的团支部志愿活动。
在当晚的测试中,只有阿里巴巴集团旗下的通义千问拒绝了提问请求。通义千问提示属于个人隐私,建议用户通过学校官网或领英等平台查询。
12月12日记者再次测试时,豆包AI也调整了回复,称未查到该学生具有显著公开事迹,回复缩减成了一百字左右的笼统概述。
目前几款AI产品中,豆包在每条AI回答后提供了“举报”选项;通义千问设置了“我要反馈”板块,可以上传图片或填写问题;文心一言与Kimi也提供“用户反馈”板块,但主要是针对产品提问,不能单独上传图片。
争议:整合公开信息,算不算侵犯隐私?
根据记者实测和官方回应,AI之所以会输出个人信息,是因为抓取整合了不同网站的公开信息,类似升级版的搜索引擎。而争议焦点在于:这种行为构不构成侵犯隐私?
上海申伦律师事务所律师夏海龙长期从事个人信息及隐私保护领域,他告诉21记者,从法律上看,这种情况严格来说并不构成侵犯个人信息。“从原理来讲,这种检索手段是合理合法的。从个人信息保护的角度,对于用户主动公开的信息,我认为这种整合式的输出并不违反个人信息所有者公开的目的,也是合理的。”
不过,夏海龙也坦言,可以理解这一情况存在争议。比如,有网友认为,愿意公开发布到公众号,并不代表自己愿意授权给AI总结。但夏海龙表示,微信公众号本身也是公开的网络空间,属于用户自行公开的行为。正常来讲,只要不是通过破解入侵的方式获取到公开信息,都有一定合理性,也没有违背用户当初信息公开的目的。
类似的隐私争议在AI产品中屡见不鲜,情况也更为复杂多样。梳理下来,大概有三种场景:第一种是AI联网搜出个人信息,也就是豆包的情况;第二种,AI收集个人信息用来训练模型;第三种,AI生成错误的个人信息。
ChatGPT曾涉及后两种问题。2023年4月,ChatGPT因隐私泄露问题在意大利被暂时封禁。OpenAI调查发现,部分用户的个人信息、聊天记录和标题,因为开源库出现漏洞而被错误展示。
“ChatGPT是否按照其隐私政策,合法合理地收集并利用用户个人信息?是否有效识别,并剔除了训练数据中‘偶然’包含的个人信息?这两个问题可能是争议焦点所在。”大成律师事务所高级合伙人邓志松此前向21记者分析。
邓志松指出,ChatGPT的训练数据大量来自网上公开的文档、百科网站、个人问答,这里面可能包含大量个人信息,而个人信息主体却不知道自己的数据被用于训练大模型。未经用户许可擅自抓取并利用其个人信息,可能涉嫌违反所在司法辖区的个人信息保护法律法规,并构成民事侵权。
面对质疑,OpenAI表示会尽力从训练数据集中删除个人信息,微调模型以减少个人信息的输出,并回应用户删除个人信息的请求。但棘手的是,要逐一授权或删除这些个人信息,成本和可行性都难度不小,这也是大模型在隐私保护上面临的一大挑战。
除此之外,今年4月,奥地利数据保护机构收到一起针对ChatGPT的投诉,投诉其捏造用户的错误出生日期。这一行为被认为违反了欧盟《通用数据保护条例》对个人信息准确性的要求。OpenAI在隐私政策中表示,用户可通过邮件申请更正生成的错误信息,但由于技术复杂性,并非所有错误都能被及时纠正。
个人信息的处理问题也出现在本次事件中。当事人提到,她在一篇公众号文章中公开了联系方式,但该文仅上线一周便删除,而豆包仍能检索并总结相关信息。夏海龙分析,这涉及到我国《个人信息保护法》中关于“删除权”的条款。当用户主动从网上删除了相关信息之后,AI服务商应当及时删除信息,并同步到搜索结果中。
不过,一位AI产品内部人士告诉21记者,信息一旦公开到互联网中,很难被删除干净,这也是常见情况。
用户可能不清楚到底还存在哪些公开信息,而AI的检索能力之强往往远超用户预期。如何采用更完善的隐私保护策略,如何更好回应公众不安和隐私隐患,将是接下来AI产品需要直面的挑战。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有