本页使用了标题或全文手工转换

光學字元辨識

维基百科,自由的百科全书
跳到导航 跳到搜索

光学字符识别(英語:Optical Character RecognitionOCR)是指对文本资料图像文件进行分析识别处理,获取文字及版面信息的过程。

OCR光學掃描式电子词典

过程[编辑]

输入[编辑]

对于不同的图像格式,有着不同的存储格式,不同的压缩方式,目前有OpenCVCxImage等。

前期处理[编辑]

二值化[编辑]

如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。

对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

图像降噪[编辑]

对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,稱為降噪。

倾斜校正[编辑]

由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。

中期处理[编辑]

版面分析[编辑]

将文档图片分段落,分行的过程稱為版面分析,由于实际文档的多样性、复杂性,此步骤目前仍待优化。

字符切割[编辑]

由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。

字符识别[编辑]

早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。

版面還原[编辑]

人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程稱為版面还原。

后期处理[编辑]

根据特定的语言上下文的关系,对识别结果进行校正。

输出[编辑]

将识别出的字符以某一格式的文本输出。

发展历史[编辑]

OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。[來源請求]后来美国科学家Handel也提出了利用技术对文字进行识别的想法。[來源請求]中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。[來源請求]日本在20世纪60年代开始研究OCR识别理论,开发了邮政编码识别系统。[來源請求]

主流实现[编辑]

参考来源[编辑]