语言模型与视觉生态如何协同？合合信息瞄准“多模态”技术_

近期，2023年中国模式识别与计算机视觉大会（PRCV）在厦门成功举行。大会由中国计算机学会（CCF）、中国自动化学会（CAA）、中国图象图形学学会（CSIG）和中国人工智能学会（CAAI）联合主办，多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办，是国内模式识别和计算机视觉领域的学术盛会。

本次大会通过聚焦中国模式识别与计算机视觉领域的最新理论和技术成果解读、分享，进一步加强产学研领域的学术交流和技术碰撞，促进模式识别与计算机视觉领域的协同合作与融合创新。大会邀请了徐宗本院士、张艳宁教授、李树涛教授、黄铁军教授、胡事民教授作主旨报告；参会人员包括来自清华大学、厦门大学、浙江大学、华中科技大学等高校的科研工作者，以及腾讯、美团、合合信息等科技企业的技术专家。

智能文档处理技术是学术界重点关注的领域，而随着信息渠道的多样化发展，异构化、跨模态的数据层出不穷。文档图像是文字与图片领域的交集点，天然具备多模态属性。在《视言碰撞：语言模型与视觉生态协同论坛》上，合合信息图像算法研发总监郭丰俊博士就文档图像前沿技术热点话题进行了分享。郭丰俊表示，多模态技术可充分利用文档图像的视觉和语言属性，并借助语言大模型已取得的优异性能和技术积累，正逐渐成为文档图像处理领域的热门研究方向。

合合信息图像算法研发总监郭丰俊博士进行《文档图像前沿技术探索——多模态及图像安全》主题分享

“从目前评测的情况来看，已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。”郭丰俊提到，合合信息-华南理工大学文档图像分析识别与理解联合实验室对该方向展开了研究，并在数据高效利用及垂直领域识别项目中取得了阶段性成果。

大模型技术的突破让生成式AI拥有了更广泛的落地空间，也让图片伪造的门槛变得更低，给了不法分子可乘之机。大会现场，郭丰俊对合合信息在AI图像安全方面的工作进行了分享。据介绍，合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期，图像篡改检测技术不仅能够应用于自然场景，还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假，合合信息基于空域与频域关系建模，利用多维度特征来分辨真实图片和生成式图片的细微差异，判断图片是否由AI生成。

今年8月，合合信息获得了文档分析与识别国际会议（ICDAR 2023）“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持低误检率的同时，准确识别并定位图片中文本的篡改行为，从而有效保障文本信息的真实性。相关方案已在银行、证券、保险多个场景中应用。

“目前，图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战，不断提升检测系统的鲁棒性和泛化能力，是学术界与企业界需要深入合作的重要方向。”郭丰俊表示，合合信息已联合中国信通院，发起了《文本图像篡改检测系统技术规范》标准制定，希望持续推动AI技术在图像安全领域的广泛应用，带给用户更加安全、高效的工作和生活体验。

头条号入驻

传媒工兵华东地区财经新闻采编。主要内容包括银行、证券和理财产品等。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

语言模型与视觉生态如何协同？合合信息瞄准“多模态”技术

头条号入驻

“春·翠色”艺术品主题展在沪举办

启信宝银行业解决方案入选2024未来数商大会优秀场景应用案例

扫描全能王“扫描书籍”功能上线，AI扫描记录诗意生活

财经自媒体联盟更多自媒体作者

热文排行榜