合合信息智能文档处理技术亮相中国图象图形学学会青年科学家会议_

近期，第十九届中国图象图形学学会青年科学家会议（简称“会议”）在广州召开。会议由中国图象图形学学会（CSIG）主办，琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。会议面向国际学术前沿与国家战略需求，致力于支持图象图形领域的优秀青年学者，提供学术交流与研讨的平台，促进学者之间的交流与合作，鼓励图象图形领域的“产学研”合作。

当下，以大模型为代表的人工智能技术正重塑着千行百业。相较于通用大模型，垂直领域大模型专注于特定场景的数据和知识，在处理复杂、专业的场景问题时具有更高的准确性和效率。垂直领域大模型的作用与发展前景也成为了各界研究的重点。因此，在主办单位中国图象图形学学会的指导下，合合信息联合琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会共同承办了《垂直领域大模型论坛》（简称“论坛”）。论坛汇聚了高校及办公、医疗、工业等多个行业代表性企业的技术专家，共同分享前沿技术成果与实战思路，为大模型在垂直领域中的应用寻找新的落脚点。

文档处理是垂直领域大模型的重要研究方向。受制于图像质量低下，版式丰富，文字字体、颜色多样等因素的影响，文档图像智能分析与理解能力的大幅度提升面临着挑战。2023年9月，继GPT-4后，Open AI发布了具有视觉功能的多模态模型GPT-4V(V即“Vision”)，具备突出的文档图像理解能力，引起行业广泛关注。

论坛上，合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析，并对公司在智能文档处理领域的研究工作进行了分享。

丁凯表示，GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳，针对复杂图表分析理解、文档抽取和推理结果也十分出色。相对应地，GPT-4V在中文、手写公式，场景文字识别，表格识别上存在缺陷；面对多栏目、表格等复杂版式的文档时，大模型的处理效果距离当前SOTA（State Of The Art)的方法尚有较大差距。

“在智能文档处理领域，大模型支持识别和理解的文档元素类型远超传统算法，大幅度拓展了AI技术在文档分析与识别领域的能力边界，端到端实现了文档从识别到理解的全过程。不足在于，目前大模型的OCR精度距离领域最佳模型有较大差距，长文档依赖外部的文档解析引擎。”丁凯认为，技术公司可以把“感知”层面的事情做好，让大模型更好地去做“认知”，这种融合研究范式在智能文档处理领域中具有积极的意义。

目前，合合信息-华南理工大学文档图像分析识别与理解联合实验室针对大模型文档处理中的像素级OCR统一模型、OCR大一统模型等重点技术方向进行了深入研究，相关工作成果在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。此外，实验室还通过创新的文档识别分析与LLM（自然语言模型）应用设计，充分利用序列预测的优势，更好地解决文档图像处理中的多样化任务需求，并且通过与LLM的结合，实现了更高层次的文档理解和分析，为文档图像处理领域带来了更多可能性。

合合信息是一家人工智能及大数据科技企业，致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案，为全球企业和个人用户提供创新的数字化、智能化服务。通过自然语言处理（NLP）、计算机视觉（CV）、深度学习等人工智能技术，合合信息智能文档处理系统可实现“文档导入-图像处理-文字检测与识别-信息抽取-数据验证-语义检索与摘要”全流程智能化处理，相关产品及解决方案已在全球范围内被应用于金融业、物流业、制造业等多个行业中。