GPT-4V-Act :一个多模态AI助手……

GPT-4V-Act :一个多模态AI助手……
2023年11月06日 16:27 互联网的那点事
GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。如点击链接、填写表单、滚动页面等。它通过视觉理解技术识别网页上的元素,就像人眼一样,能够“看到”按钮、文本框、图片等,并理解它们的功能和用途。这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。工作原理: GPT-4V-Act利用GPT-4V语言理解能力和视觉处理能力以及一套特定的自动标记工具(Set-of-Mark)的视觉定位能力,该工具为每个可交互的UI元素分配一个唯一的数字ID。通过结合任务和截图作为输入,GPT-4V-Act可以推断出完成任务所需的后续动作。它能够检查UI截图并提供精确的像素坐标,以指导鼠标/键盘执行特定任务。目前,这个演示还很基础,它利用网页抓取技术将ChatGPT Plus变形为一个非官方的GPT-4V API后端。尽管目前的测试有限,但该代理已经显示出了在Reddit上发布帖子、搜索产品和启动结账过程的能力。主要特点:1、视觉处理:能够处理视觉信息,但支持程度有限。2、自动标记:使用JS DOM自动标记器为UI元素分配数字ID,支持COCO数据格式的导出。3、鼠标和键盘操作:能够执行点击和输入字符操作。4、特殊键码输入:目前还不支持输入特殊键码(如回车、页面上移、页面下移)。5、其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。GitHub:github.com/ddupont808/GPT-4V-ActSet-of-Mark视觉定位:som-gpt4v.github.io原帖:

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部