超强跨图识别能力!IDEA发布T-Rex2模型,实现文本与视频提示融合

超强跨图识别能力!IDEA发布T-Rex2模型,实现文本与视频提示融合
2024年04月01日 16:52 AI科技大本营

最近,IDEA研究院CVR(计算机视觉与机器人研究中心)团队发布T-Rex2模型,已向公众开放了T-Rex2 API。该模型通过视觉与文本提示的互相融合,弥补视觉提示的一些关键缺陷,实现流畅可用的跨图目标检测。与多目标跟踪模型结合后,T-Rex2可应用于各种视频检测任务。

(T-Rex2图像检测应用展示)
(T-Rex2视频检测应用展示)

这个能力,让目标检测技术在生产生活中得以广泛应用。如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。

性能提升:文本+视觉提示,强跨图识别能力

T-Rex2 实现多重性能提升:

  • T-Rex2通过在一个模型中同时整合文本和视觉提示,克服了文本与视觉这两种提示模态各自的局限,包括文本提示长尾数据短缺、描述上的局限性,以及视频提示在捕捉常见对象的概念时效果较差的局限。

  • 文本和视觉提示的协同作用,集合二者优势,赋予了T-Rex2 强大跨图检测能力和零样本能力。

(T-Rex2模型结构简化图)
  • 文本和视觉提示的协同作用赋予了T-Rex2 强大的跨图检测能力和零样本能力跨图检测,即在实际工业应用中是⼀张或多张图像上进行视觉提示后,在其他图像上使用这个视觉提示进行检测。

  • 应用更加灵活,适应更多的检测场景:优于同图识别的跨图识别能力:同图识别需要算法能够准确地在复杂的环境中识别和分割多个对象,而跨图识别则需要算法具备更强的泛化能力和对细节的敏感度,以便在不同的图像条件下识别和比较对象。

【同图识别(Intra-image recognition)是指在单个图像内部识别和分类对象的任务。跨图识别(Inter-image recognition)是指在多个图像之间识别相同或不同对象的任务。】

(T-Rex2跨图检测能力示例)

多种工作模式:文本、交互视觉、通用视觉

T-Rex2支持多种工作模式:

  • 文本提示模式:完全依靠文本提示进行物体检测,与开放词汇物体检测的方法相同。这适合于常见物体的检测。

  • 交互式视觉提示模式:用户与模型直接互动,即是“human in the loop”的概念。比如可以自己画点、画框来标记检测物体,然后根据模型输出的反馈来修正检测结果,如增加额外的提示。

  • 通用视觉提示模式:用户可以通过向模型提供任意数量的示例图片来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象,是不需要“human in the loop”。

T-Rex2还可用于视频目标跟踪。在T-Rex2 跨图逐帧的检测结果上,我们可以用现有的多目标跟踪模型( 如ByteTrack ) 追踪检测物体。这让T-Rex2可以轻松应用于各种视频检测任务。

(T-Rex2视频检测能力示例)

文本和视觉表现:4个零样本SOTA

T-Rex2 在四个学术基准测试集 COCO, LVIS, ODinW和Roboflow100 上取得了Zero-Shot SOTA的性能表现。文本提示在相对常见类别的场景中表现优异,而视觉提示在长尾分布的场景中表现更加稳健。这也说明将这两种提示模态结合起来,能让模型更好地适应不同的场景。

T-Rex2无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。T-Rex2的发布,使得大模型向通用物体检测迈进了新的一步。

(T-Rex2 在各种应⽤场景下的检测效果)

Playground链接:https://deepdataspace.com/playground/ivp

T-Rex2 API:https://github.com/IDEA-Research/T-Rex

论文链接:https://arxiv.org/abs/2403.14610

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部