OCR技术(Optical Character Recognition),是通过扫描等光学输入方式将各种文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的文字的计算机输入技术。近年来,随着档案实体数字化应用的发展,有一些档案部门也引进了OCR技术,在数字档案PDF文件中设立文本层,从而实现全文搜索功能。本文从实际工作情况出发,对档案数字化建设中引入OCR技术,谈一些看法。
一、 目前OCR技术存在识别率不高的问题
OCR识别率一直是OCR技术上的一个薄弱环节,为研究OCR技术对数字化档案的文字识别效果,我们对扫描后的各类档案进行了OCR识别测试,并对结果进行分析,发现不同条件下的OCR识别率差异很大:
(1)清晰的打印字体:识别率在90%以上。
(2)夹杂表格的页面:识别率在80%以上,主要是表格影响内部文字识别。
(3)页面中较小或较大的字体:识别率在30%以下。
(4)存在涂改、污渍等、深底色的页面:识别率在30%以下。
(5)页面中的非汉语语体和繁体字、公式、化学方程式:识别率非常低。
(6)手写字体、特殊字体、印章、图纸和图片:基本无法识别。
从上可以看出,OCR识别针对清晰文字效果最好,但也不可能达到100%的识别率。
二、 OCR技术在档案数字化应用中有很多制约因素
(一)最终数据的文本部分过于简单
OCR识别的原理,只是通过将含有文字的图像按字切割成可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征,通过比对标准特征库中的数据,判断出该文字在计算机中的标准编码,并按通用格式输出保存在文本文件中,对非打印文字或不清晰的文字等内容一律只能识别为乱码。从档案数字化工作来讲,OCR识别出文字基本都存放在双层PDF中的文本层,文字在该文本层是以无格式文字出现,除文字和标点符号外,各种文本格式、非文本符号、图像等等都无法显示,只能作为关键词(字)定位查询用。
(二)进行数字化的档案种类太杂
从目前整理的情况看,进行档案数字化的档案中有轮阅单、公文、发文稿、草稿、文本、书本、图纸、缴费单、证书、流程图、报纸、营业执照、各类复印件、清单、证明、抄告单、许可证、图纸目录、填写表、报告单、会议纪要、介绍信、工作证、工作计划、工作总结、员工名册、试卷、成绩单、幻灯片、协议书、劳动情况、合同书、体检表、代码证、登记表、登记证、营业执照、工作联系单、通知书、传递单、签证书、清单、图纸、许可证、审批表、收据、填写表、发票、承诺书以及会计档案等等各种类型,上面包含手写、表格、复印、污渍、印章、图表、图片、线条、繁体、字母以及特大特小号字符等等各种OCR识别不了的因素,每页的识别率都在90%以下,甚至整页无法识别,体现不出OCR的技术优势。
(三)OCR识别软件之间存在不兼容性
在实际的操作过程中,我们碰到过一个情况,某个单位数字化的档案文件,在用Adobe Acrobat察看识别的文本层时,某些页面的文本层中文字显示为空白,但这些页面在实施转化的电脑上能显示文字,经过分析,认为可能是该公司使用的OCR转换软件,与Adobe Acrobat存在一定的不兼容性,因此在转换电脑中能正常显示的某些页面文字,到另一台电脑中就无法正常显示,解决方法是统一识别与察看软件,但不可能统一每个单位的使用软件,会对使用单位的档案利用造成一定的麻烦。
三、 对档案数字化中应用OCR技术的几点建议
OCR是一门新兴的技术,有着很好的应用前景,但也是一门与识别率拔河的技术,存在的识别范围小、针对面窄等问题,还须要进一步完善,国内汉王等几大OCR识别公司还没有哪一家公司敢宣称自己的产品能识别所有类型的文字与符号。从档案工作的实际来看,目前引入OCR技术是一个比较超前的理念,要用好OCR这门新技术,在不影响速度的前提下,必须注意以下三点:
(一)要制定相应技术标准,提升OCR识别的定位率与准确率
OCR识别率虽然有一定的限制,但通过人工干预,制定较高的技术标准,在一定程度上能适当提高识别率,提升工作效率。一是提升扫描分辨率。国家《纸质档案数字化技术规范》规定:需要进行OCR汉字识别的档案,扫描分辨率建议选择大于或等于200dpi。但300dpi在OCR识别中更为合适;二是选择合适的色彩。从实际使用上来看,黑白扫描的OCR识别率高于彩色扫描的OCR识别率,因此如果要进行OCR识别,尽量采用黑白二值模式扫描的图像,弃用灰度、24位真彩(C24)模式扫描的图像,因为文本通常只用到黑白二色,过多的颜色只会变成干扰信息;三是对图像进行纠偏去污处理。图像中文字的偏斜,会极大地降低OCR识别率,而图像中的污点,会被OCR识别为乱码。因此,在OCR识别前,图像必须经过纠偏、去污处理,以提高识别率。图像的偏斜以不少于1℃为标准,去污以不影响页面整体内容为准。
(二)要缩小人工补录范畴,提升OCR识别的快速性与稳定性
从实际应用看,每一张页面的识别都不可能100%准确,因为每一张页面中都包含各种不能识别的因素,如果每一张都做人工补录,那就失去了OCR技术自动、快捷、方便的优势。因此,对页面中存在的某些因素,建议只做OCR自动识别,不用人工补录,这些因素主要有:一是特殊字体类:包括艺术字(黑体、宋体、仿宋之外的字体)、手写字、英文、繁体字、>1号字、<5号字、彩色字、带下划线字、模糊字、深浅色字、重叠字、破损字以及深页面文字等;二是符号类:包括算式、公式、化学方程式、非标点符号、线条、代码以及表格等;三是图像类:包括图纸、照片、图像、图标、流程图以及公章等;四是污渍类:包括涂改、污渍以及破损等;五是非汉语语体类等等。
同时,对于像“的、得、地”等对检索没有实际意义的文字,也可以只进行自动识别,不用人工补录。
(三)要与档案管理软件结合使用,提升检索的准确度与精确度
数字化档案应用OCR技术,主要为了在实际使用中能够使用全文检索功能,但要使用全文检索功能,就必须有相应的软件进行技术支持,而软件能支持的全文检索往往对文件的兼容性有很高的要求,有些文件转化得不是很彻底,在全文检索时就可能被漏掉。目前可行的实用方式,建议还是条目检索与全文检索相结合的查找方式,即在软件中利用条目检索找到要查阅的案卷,再利用打开程序中的关键字检索功能找到需要的页面。