科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域

科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域
2024年04月24日 16:27 麻省理工科技评论

在近期一项研究中,武汉大学本科生、目前在上海人工智能实验室担任实习生的刘子煜和所在团队,针对视觉语言模型(CLIP,Contrastive Language-Image Pre-Training)和多模态大型语言模型(MLLMs,Multimodal Large Language Models),在处理细粒度识别任务上的局限性开展了一项研究。

据介绍,虽然 CLIP 模型在视觉-语言理解任务中表现出较好的灵活性和强大性能,但在面对包含大量类别或细粒度类别的数据集时,它的表现开始出现下滑。

这一现象主要归因于语言描述的固有模糊性和同义词带来的挑战,这些因素使得模型难以准确区分那些紧密相关但又各不相同的类别。

另一方面,MLLMs 虽然在训练过程中积累了丰富的知识,并在分类细粒度类别上展示了出色能力。但当面对越来越多的类别时,由于上下文窗口大小的限制,其性能也开始受到影响。

基于此,课题组希望通过结合两种方法的优势,提高少样本/零样本识别能力,尤其是针对具有广泛和细粒度词汇的数据集。

确定研究方向后,他们开始设计一种新的方法,刘子煜将其命名为 RAR(Retrieving And Ranking),它通过在 MLLMs 中融合检索和排序来增强功能,可以很好地解决上述挑战。

RAR 方法首先基于 CLIP 建立一个多模态检索器,为不同类别创建并存储外部的显式记忆。

在推理过程中,RAR 使用输入图像在记忆库中进行检索,并返回检索到的前 k 个结果,然后使用 MLLMs 对这些结果进行整合和排序并作出最终预测。

这种方法不仅解决了视觉语言模型(VLM,Visual Language Model)和 MLLM 单独使用时在细粒度识别中的固有限制,而且保留了 MLLM 本身的知识和能力,显著提高了各种视觉语言识别任务的准确性。

RAR 将多模态大型语言模型的能力与先进的检索和排名机制相结合,从而显著提高了在各种复杂环境中处理和理解细粒度视觉信息的能力。

预计其将用于以下应用场景:

其一,可用于细粒度图像搜索和分类。

RAR 技术能够准确识别和分类具有细微差别的图像,例如识别和分类不同种类的鸟类、花卉或汽车。

这在图像搜索引擎、电子商务平台等领域非常有用,让用户可以通过上传图片来精确搜索特定产品或类别。

其二,可用于医学影像分析。

在医学诊断中,RAR 技术可以帮助识别和分类细粒度的医学影像,如不同类型的肿瘤、病理切片等,从而协助医生作出更准确的诊断。

其三,可用于自然科学研究。

在生物学、地质学等领域,RAR 可以用于识别和分类复杂的自然图像,如识别和分类动植物物种、岩石矿物等,从而为科学研究提供支持。

其四,可用于智能监控和安全系统。

RAR 可以提高安全监控系统的效率,通过精确识别和分类人群、车辆等,来增强公共安全和交通管理。

其五,可用于自动化内容审核。

在社交媒体和数字平台上,RAR 技术可以帮助自动识别和分类图像内容,有效过滤不当或侵权的内容。

其六,可用于机器人视觉系统。

RAR 技术可以提高机器人对环境的理解能力,尤其是在复杂环境中,可以精确识别各种物体和障碍,从而提高机器人导航和操作的效率和安全性。

其七,可用于教育和学术研究。

在教育领域,RAR 技术可以辅助创建更为丰富和互动的教学材料,如通过图像识别来教授生物多样性、艺术作品鉴赏等。

随着 RAR 技术的不断发展和优化,其应用范围有望进一步扩大,为多个行业带来转型和升级。

图 | 相关论文(来源:arXiv

接下来,他们计划将这些技术融合到一个更智能的 Agent 系统中,并探索其在不同领域的应用潜力。

据介绍,这个系统的核心是高度的适应性和灵活性,它能够根据不同行业的特定需求进行调整和优化。

总的来说,课题组的主要目标是创建一个能够理解复杂用户查询和反馈的系统,进而提供高度个性化的响应和解决方案。

想象一下:一个能够精确理解用户需求并提供定制化建议的智能助手,无论是帮助顾客选择产品,协助医生解读医疗数据,还是为教育者提供个性化的教学方案。

未来,他们计划将这种智能 Agent 系统应用于诸如客户服务、内容创作、个性化教育、医疗咨询和企业决策支持等领域。

预计系统将通过分析大量数据,不仅能回应直接的查询,还能预见用户需求,提前带来有价值的信息和建议。

参考资料:

1.https://arxiv.org/pdf/2403.13805.pdf

运营/排版:何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部