OpenAI 于周四推出了一款名为 Operator 的人工智能代理,这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务,尽管其完成效果可能参差不齐。
根据 OpenAI CEO Sam Altman、软件工程师 Yash Kumar、研究员 Casey Chu 和技术人员 Reiichiro Nakano 的演示,Operator 代理可以执行需要多个步骤且具有特定参数的在线活动,比如通过 OpenTable 在指定时间段内预订餐厅,或在给定价格范围内查找特定演出者的音乐会门票。
就像用户向 ChatGPT 提问一样,用户可以向 Operator 发出指令,让它作为个人助手在网络上执行任务。
虽然个人可以自己完成这些任务而无需额外费用,但每月支付 200 美元的美国 ChatGPT Pro 订阅用户可以使用 Operator,尽管其可靠性相对较低。OpenAI 的 Plus、Team 和 Enterprise 层级的订阅用户将在系统完善后获得访问权限。
Operator 类似于 Anthropic 的计算机使用 API,它结合了 Playwright 和 Selenium 等软件框架实现的浏览器自动化功能,以及用于评估网站文字和图像的文本机器学习模型和计算机视觉模型。
其总体目标是实现网络任务自动化,使人们从枯燥的工作中解放出来...或者彻底摆脱就业。
OpenAI 在一份说明中解释道:"Operator 可以处理各种重复性浏览器任务,如填写表格、订购杂货,甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩展了 AI 的实用性,帮助人们在日常任务上节省时间,同时为企业开启新的互动机会。"
这些互动机会目前需要与 OpenAI 进行协商。该公司表示正在与 "DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 能够满足现实需求,同时尊重既定规范。"
换句话说,OpenAI 的 Operator 可能无法很好地与那些不期望频繁自动化接触的网络服务进行交互。但随着基于代理的交互变得普及,OpenAI 和类似的代理提供商可能会降低搜索作为营销和销售渠道的价值,因为自动化连接服务和通过 API 建立的合作伙伴优先关系有可能减少人工查询的需求。
OpenAI 的代理基于一个名为 Computer-Using Agent (CUA) 的模型,该模型结合了 GPT-4o 的计算机视觉功能和关于如何处理图形用户界面 (GUI) 的训练。TikTok 母公司字节跳动最近发布了一个类似的开源项目 UI-TARS,用于实现 GUI 交互自动化。
根据 OpenAI 的数据,CUA 在 OSWorld 基准测试中完整计算机使用任务的成功率为 38.1%,在 WebArena 上的成功率为 58.1%,在 WebVoyager 上基于网络任务的成功率为 87%。因此,在使用 Operator 时要做好可能无法成功预订餐厅或订购杂货的心理准备。
CUA 的计算机视觉模式通过捕获和存储屏幕截图工作,它利用这些截图执行链式思维"推理"来完成请求的任务。熟悉 Microsoft 最新版 Windows 中 Recall 功能屏幕捕获争议的人可能会对 OpenAI 如何处理截图数据有所担忧。
The Register 向 OpenAI 询问以寻求澄清,但尚未收到回复。该公司表示,在 ChatGPT 设置中禁用"为所有人改进模型"(默认开启)将阻止 Operator 中的数据用于训练其模型。
用户通过文本提示输入任务,AI 代理会尝试完成该任务,将其分解为一系列步骤,并在需要用户登录、提供支付详细信息或解决验证码时等待用户干预——如果允许的话,当前的计算机视觉模型可以相当有效地完成这些任务。
OpenAI 表示:"我们知道不法分子可能会试图滥用这项技术。这就是为什么我们设计 Operator 拒绝有害请求并阻止不允许的内容。我们的审核系统可以对重复违规发出警告,甚至撤销访问权限,我们还集成了额外的审查流程来检测和处理滥用行为。"
根据 ChatGPT 制造商的说法,Operator 被设计用来防范可能试图通过隐藏提示、恶意代码或网络钓鱼企图误导 AI 代理的对抗性网站。据称该 AI 代理被设计成能够检测并忽略提示注入攻击。据说它在"监控模型"的监督下运行,该模型监视可疑行为,并辅以涉及人工审查和自动化流程的异常检测。
尽管如此,OpenAI 承认,"没有系统是完美的,这仍然是一个研究预览版。"
Operator 的推出正值 AI 行业领袖所称的"代理时代",在这个时代,生成式 AI 模型应用多模态文本、音频和视觉能力与其他计算系统交互,以处理需要某种形式推理和进度评估的多步骤任务。
虽然 AI 代理在理论上听起来很有前景,但在实践中却有些令人失望——可能是因为复杂任务中的每一步都增加了失败的机会。例如,最近对 AI 代码助手 Devin 的评估表明,要使这些系统可靠还需要做更多工作。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有