OCR识别技术常常应用于识别PDF、票据、证件、表单、车牌等,而今天我们主要探讨云盒子企业云盘中关于OCR识别技术的应用场景之一:纸质文档电子化的OCR识别智能归档工作。
该应用场景是通过OCR技术识别和提取文档关键信息后,利用关键信息进行文档重命名与归档工作。
OCR识别技术应用于资料电子化自动归档的主要工作流程:
1、文档扫描:纸质文档通过扫描仪或高拍仪进行扫描,形成电子版PDF/图像。
2、图像预处理:将图像进行光影处理(灰度化、去噪、二值化)、倾斜校正以及扭曲处理,防止因光线、纸张倾斜影响识别结果。
3、字符切割:利用投影法将图片切割成单个字符或单词。
4、特征提取:从切割后的字符中提取出有用的特征,为后续的识别提取提供依据。
5、识别字符:这是OCR最核心的部分,涉及到深度学习、CNN等复杂的技术和算法,使用训练好的模型对的新的字符图像进行识别。
6、文字后处理:文本纠错以及文本结构化,对识别结果进行矫正,以及从文本中根据特定的语言上下文关系提取需要的信息。
7、文件重命名:根据提取的信息按照预设命名组合对文件进行重命名。
8、云盘目录创建:根据提取的信息,按照预设的目录架构设计进行新建以及识别工作。
9、文件归档:重命名的文件上传到符合识别结果的特定目录下。
OCR识别技术应用于资料电子化自动归档示例:
下边的项目材料经扫描仪扫描后,通过OCR识别技术提取密级、年度等信息自动创建目录,并自动化命名归档。
云盒子企业云盘经OCR识别并提取关键信息后,在云盘中自动建立结构目录以及文件重命名结果如下:
有不少票据或档案中会出现手写签名或字体,云盒子科技通过不断研究,为提高的OCR 识别的智能性与准确率,加入AI进行辅助,提高不规则表单、手写表单的识别准确率,满足各行各业对档案的识别要求。
OCR识别技术应用于资料电子化自动归档,是将技术转化为生产力的直接体现,保存了五年甚至十年的纸质档案电子化归档工作,以智能自动化代替人工手动完成,释放人力,减少出错率,云盒子OCR内容识别解决方案目前已广泛应用于政务、制造等行业。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有