每天,全球有数亿人在向AI产品倾诉他们的想法、困惑、创意,甚至秘密。但鲜有人意识到,这些对话正在以“帮助训练下一代AI模型的”的名义,突破着过往移动互联网产品的数据使用界限。
ChatGPT引发了这一轮的AI革命,也让这种聊天对话的产品形态成了大模型产品们最流行的样貌。而这种对话形态,在很多时候让用户“以为”自己在使用像微信这样的社交产品,进而忽视了在数据使用上,它们与这些我们习惯了的产品大有不同,甚至完全相反。
事实上,几乎所有主流AI产品都在用户协议中明确写道,用户的输入将被用于模型训练,也就是,你的“聊天记录”不是只属于你的,而是被平台收集的。这种“数据采集”方式若放在移动互联网的任一款产品上,都可以被认为是用户在产品面前“裸奔”,很多时候是不被允许的,但大模型的狂奔中,它却被人们忽视了。
在当前AI技术快速发展的背景下,用户数据的收集与使用已经远远超出了传统互联网产品的范畴。你与AI助手的对话、上传的图片、甚至删除的内容,都可能被用来训练下一代的AI模型,而且一旦数据被用于训练,即便用户后悔也很难“撤回”——这些数据将永久地影响模型的行为。
围绕近年来发生的典型案例,我们能更清晰地看到用户数据与AI产品之间的敏感关系。
早在2023年4月,OpenAI的ChatGPT因隐私泄露问题在意大利被暂时封禁。调查发现,一些用户的个人信息和聊天记录因开源库漏洞被错误展示。
2024年9月,爱尔兰数据保护委员会(DPC)对X公司提起诉讼,指控其在未经用户同意的情况下,自动收集了用户的帖子、互动、输入和结果,用于训练生成式AI聊天机器人Grok的用户数据,以提高其作为搜索和聊天人工智能的性能。最终,X公司同意永久停止处理欧盟用户的个人数据。
2024年11月27日,路透社的一则报道揭示了用户对微软“连接体验”功能的担忧。部分用户在社交媒体上指出,微软要求用户选择退出该功能,并认为该功能被用于训练AI模型。 尤其是对于企业用户来说,Microsoft 365中可能包含着重要的商业计划、财务报表、客户数据、产品设计等机密信息。如果这些数据被用于训练AI模型,可能会导致商业机密泄露,对企业造成潜在的损失。
尽管微软迅速否认了这一说法,强调其不会使用Microsoft 365消费者和商业应用程序的客户数据来训练基础大型语言模型,但社交媒体上的讨论依然显示出公众对于未经允许数据被用于AI模型训练的普遍担忧。类似的,国内的WPS AI也出现过“用户文档被用于AI训练”的质疑。
那些你已同意但并没有阅读的隐私条款
我们能更清晰地看到用户数据与AI产品之间的敏感关系。企业并不被要求披露他们用于训练模型的数据来源,但根据一系列隐私法律的规定,他们需要说明如何使用客户提供的数据。 对比国内外主流AI产品的隐私条款,可以发现各家公司在用户数据使用上的策略存在显著差异。
Kimi
Kimi的《用户隐私协议》中指出,他们会收集用户在产品交互过程中输入的文本数据信息,以及用户选择使用浏览器助手等功能时提供的网页内容和上下文信息。收集到的信息将用于提供相关服务。在经过安全加密、严格去标识化且无法重新识别特定个人的前提下,Kimi可能会将这些信息用于提升和迭代其产品和服务。
豆包
豆包的隐私政策中提到,为了优化和改进服务体验,他们可能会结合用户对输出内容的反馈以及使用过程中遇到的问题来改进服务。在经过安全加密技术处理、严格去标识化且无法重新识别特定个人的前提下,豆包可能会将用户向AI输入的数据、发出的指令以及AI相应生成的回复、用户对产品的访问和使用情况进行分析并用于模型训练。豆包为用户提供了关闭“改进语音服务”的选项来撤回语音信息用于模型训练的授权,并提供了联系方式供用户撤回其他信息用于模型训练和优化的授权。
智谱
智谱清言的隐私政策声明中,没有提到使用用户的数据进行训练。但提到了如果对个人信息采取技术措施和其他必要措施进行处理,使得数据接收方无法重新识别特定个人且不能复原,或进行匿名化的研究、统计分析和预测后,此类数据将不属于个人信息范畴,其使用无需另行征得用户同意。
Google Gemini的隐私条款显示,对于免费服务,例如例Google AI Studio和Gemini API的免费额度,Google会利用用户提交内容和生成的内容来改进和发展其产品和服务及机器学习技术,人工审核员可能会阅读、标注和处理输入和输出。但会采取措施保护用户隐私,包括在人工审核前将数据与用户账号等信息断开关联。
特别强调了请勿向免费服务提交敏感、机密或个人信息。
而对于付费服务,例如付费的Gemini API ,Google则承诺不会使用用户的提示或响应来改进产品。此外,对于欧盟、瑞士或英国的用户,无论是付费还是免费服务,均不会利用用户提交和生成的内容。
Gemini App用户则可以选择对话是否被存储,并可能用于训练新模型。对于18岁及以上的用户,此功能默认开启;而对于 18 岁以下的用户,默认关闭(可选择自行开启)。
谷歌旗下的 YouTube规则略有不同。YouTube在今年一篇博文中证实,它利用上传到 YouTube 的内容来创建和改进其自身服务,包括用于开发 AI 产品。该公司也表示反对其他公司使用 YouTube 内容来训练AI模型。
“多年来,我们一直利用上传到 YouTube 的内容来提升 YouTube 及 Google 上创作者和观众的产品体验,这包括通过机器学习和人工智能应用来实现。” “这涵盖了支持我们的信任与安全运营、改进推荐系统,以及开发如自动配音等新的生成式 AI 功能。”
OpenAI
默认情况下,ChatGPT Enterprise、ChatGPT Team 和 ChatGPT Edu 客户的数据不会用于模型训练。
对于通过API使用 OpenAI 服务的用户也是如此。API 客户可以选择与OpenAI共享数据,以改进和训练未来的模型。
对于个人用户,无论是付费还是免费用户,OpenAI允许用户自己选择是否允许使用自己的对话用于模型训练,默认状态是允许的。
此外,ChatGPT中的“临时聊天”不会用于训练 OpenAI 模型,并在30天后自动删除。
苹果已经与OpenAI达成协议,通过Apple Intelligence访问 ChatGPT,在苹果集成的ChatGPT的版本中,未登录账户的对话仅由OpenAI处理以提供安全响应,OpenAI不会接收用户的IP地址,存储内容,或将其用于训练AI模型。
对于关联了ChatGPT账号的用户,将适用OpenAI的标准隐私政策。
Meta
Meta表示,它可以使用任何公开分享到Facebook和Instagram的数据来训练其AI系统。
Meta 还表示,与AI功能的互动可用于训练AI模型。例如,发送给AI聊天的消息、提出的问题以及要求 Meta AI 创建图像。这也包括使用Meta Ray-Ban智能眼镜拍摄的照片,这些照片被用于AI查询。
值得注意的是,Meta也不允许客户选择退出其数据用于训练,除了巴西和欧洲的用户。但有一点:Meta允许用户删除与Meta AI 聊天机器人的对话数据。Meta表示,用户删除的Meta AI 对话或删除的Facebook 和 Instagram的公开内容,都不会用于未来的训练。
Anthropic
默认情况下,不会使用用户信息来训练模型,Anthropic保留了在某些情况下,使用提示和输出来训练其模型的权利。例如,在获得许可的前提下,当有用户点击“赞”或“踩”时。
此外,如同行业惯例,Anthropic会自动扫描用户的聊天内容来执行安全策略。但不会将这些数据用于训练其模型。
从以上对比可以看出,不同公司在数据使用上的透明度、用户选择权以及数据保护措施上存在显著差异。部分公司在默认情况下即使用用户数据进行模型训练,而部分公司则提供了相对清晰的选择退出机制。
但我们面对的仍然是用户在数据使用上的弱势地位。
本质上,用户是否允许平台使用其数据进行模型训练,最终取决于平台的服务条款和隐私政策。无论平台现在是否声明使用用户与AI的聊天数据进行训练,它们都只需简单地更改条款,便可随时调整数据使用策略。而令人担忧的是,绝大部分用户根本不会仔细阅读这些冗长且专业的条款。
这就引出了一个潜在的风险:“我们用/不用你的数据来训练AI。这些数据我们不会与任何人分享。(等到我们的服务条款下次更新时再看吧)” 随时可能发生且难以被用户察觉的条款变更,使得用户对于自身数据的掌控显得尤为脆弱。 例如,X平台近期更新了其服务条款,允许使用用户数据来训练AI模型,除非用户主动选择退出。
另外一些平台,即使用户想拒绝将个人数据用于模型训练,却往往没有明确的功能或工具进行操作,这更凸显了用户在数据隐私方面的被动处境。
而这一切与传统互联网产品形成鲜明对比。拿微信的隐私条款来看,其隐私政策详尽地列举了每一项数据收集的具体场景、目的和范围,甚至明确承诺“不会收集用户的聊天记录”。当年被严格管控的数据获取行为,如今在AI产品中使用用户数据却成为一种常态。
这里的问题在于,一方面,经过多年移动互联网社交产品的“驯化”,用户已习惯性忽视隐私条款,而新兴的AI对话产品又酷似社交软件,让人下意识延续了这种疏忽。另一方面,当这些产品打着“大模型”的旗号出现时,俨然成了模型进步的试验场。用户数据不再被视为需要谨慎对待的隐私,而是模型进步的必需品。于是,用户的个人信息被重新定义为“语料”,这种转换,反而成了数据收集的“正当理由”。
收集用户数据真的能提高模型能力么
各大AI公司都在疯狂“圈地”用户数据,但一个尴尬的现实可能是:传统互联网产品的数据网络效应,在大模型时代似乎并不成立。
这种数据狂热的背后,一个被广泛接受的理由是:用户越多,数据越多,模型越强大,从而吸引更多用户,形成正向循环。然而,这个看似合理的逻辑,真的适用于当前的AI大模型吗? 像 GPT-4 或 Stable Diffusion 这样的基础模型,真的能从持续的用户数据输入中获得持续的性能提升吗?
首先,大模型训练的根基是公开数据,而非专有数据。ChatGPT背后的数据,更多来自维基百科这样的开放资源,而非用户的独家内容。其次,用户与模型之间缺乏直接的反馈闭环,你的每一次对话可能被收集,但并不会立即改善模型表现。
比如,尽管ChatGPT已拥有超3亿周活用户,OpenAI的下一代模型却迟迟未能问世。这个现象似乎在暗示,依靠用户数据可能并不足以突破大模型训练所面临的“数据墙”问题。
那么,为什么各家AI公司仍坚持收集用户数据?
这种现象背后有更深层的原因。表面上看,拥有海量用户数据的AI公司似乎占据优势。但事实可能并非如此:
第一,用户数据的质量参差不齐。日常对话中充斥着大量重复、琐碎甚至错误的信息,这些“噪音”未必能提升模型质量。反而可能带来额外的数据清洗成本。
第二,预训练阶段完成后,模型的能力边界已经基本确立。用户的每一次对话即使被收集,也不会立即改善模型表现。
第三,商业模型的壁垒正在转向场景深耕。比如医疗领域的AI需要专业医疗数据,而非泛泛的用户聊天记录。通用大模型收集的用户数据,对特定领域的突破帮助有限。
所以,用户虽然在使用过程中产生了数据,但他们并未直接创造这些模型所训练的原始数据,这意味着用户与模型之间缺乏直接的反馈回路,难以形成传统意义上的数据网络效应。
但用户数据的价值依然存在,只是性质已经改变:它们不再是提升模型能力的关键。而是企业获取商业利益的新工具。通过分析用户对话,企业可以洞察用户行为、发掘变现场景、定制商业功能,甚至和广告商共享信息。
这个转变也提醒我们:当AI公司声称“为了提升模型性能”而收集数据时,我们需要更谨慎地思考,在“预训练终结”越来越成为行业共识的当下,这是推动技术进步的必要条件,还是商业诉求下对用户数据的“滥用”?没有人比AI公司更清楚这个问题的答案。
结语
大模型带来的隐私挑战,远比数据泄露更为复杂。 不仅可能泄露数据片段,还能通过参数化学习建立联系、进行推断——无论准确与否,让隐私问题更加难以捉摸。 即使采取了数据脱敏措施,也未必能彻底消除风险。例如“奶奶漏洞”的出现:看似脱敏的数据,在与其他信息源结合后,仍可能通过独特的文体风格等线索,重新识别出用户,让隐私无所遁形。
大模型并非直接存储训练数据,而是通过参数化的方式内化了数据的结构和规律。这种方式让模型获得了强大的能力,但也意味着我们无法像删除文件一样,简单地擦除已经融入模型的信息,这也为隐私保护带来了新的难题。
更令人担忧的是,一个荒谬的现实正在上演,越来越像移动互联网产品的新一代AI产品正在获得比移动互联网时代更大的数据采集和使用权限。
回溯社交媒体时代,科技行业构建起庞大的全球网络,通过将用户的帖子与点击转化为利润,实现了个人数据的货币化。今天,那些曾经让各大APP梦寐以求的用户数据,在AI产品的用户协议中,都变成了“理所当然”的条款,边界被悄然拓宽了。
随着模型技术的进步放缓,各个模型公司面对通过产品实现商业化的压力时,会如何决策,变成了一件几乎可以预料到的事情。
看起来现在是时候有更多更直接和更严肃的讨论了。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有