光學字元辨識

可攜式掃描器利用光學字元辨識，將紙本資料紀錄至電腦的過程

光學字元辨識（英語：Optical Character Recognition，縮寫：OCR）是指對包含文字內容的圖像或視訊進行處理和辨識，並提取其中所包含的文字及排版資訊的過程。例如，一個常見的應用是將包含文件圖像的不可編輯狀態的 PDF 文件通過 OCR 技術辨識後，轉換為可編輯狀態的 Word 格式文件^[1]。

通常來說，根據不同文字內容的特性而言，OCR 技術的應用場景大致可分為以下幾類：

印刷文字辨識：印刷文字通常指報刊、雜誌、文件、小票等使用現代電腦字型編排並印刷的文字內容。這類文字內容通常具有清晰一致的字型、間距等，因此辨識技術相對成熟，並被廣泛應用於紙質檔案、報刊的數位化上^[2]。
手寫文字辨識：相較於具有固定字型的印刷文字而言，手寫文字往往根據不同的書寫者以及書寫工具會具有極大的變化，因此其辨識難度相較於印刷文字而言要更高。手寫體辨識可以幫助使用者快速將手寫的筆記內容數位化輸入到電腦中，也被用在一些電子備忘錄中來對使用者的手寫筆記內容進行檢索^[3]。此外，由手寫文字辨識進一步衍生的一個應用則是簽章筆跡認證，這類別方法用於比對簽章的真實性。
公式文字辨識：數學公式通常由大量符號及數位組成，由於根式，分式等規則的存在，數學公式往往存在二維結構，即並不能保證辨識的順序一定符合固定的閱讀順序。因此，數學公式的 OCR 模型往往顯著有別於常規的自然語言文字 OCR 處理技術。通常來說，數學公式的 OCR 辨識需要藉助使用 LaTeX 等結構化的文件標記式語言來實現，即，OCR 給出的輸出是一組 LaTeX 標記符號^[4]。
場景文字辨識：場景文字辨識，有時也被稱作通用文字辨識技術。這類辨識技術能夠對任意場景下的圖片中包含的任意形式的文字進行辨識，包括但不僅限於：街邊商鋪的招牌、超市內商品中的文字、合影中人物衣著上的文字、城市建築上的商標名稱等等。這類技術已經被應用到了許多應用中，例如智慧型手機中允許搜尋或提取相簿中帶有文字內容的圖像^[5]^[6]，聊天軟體中允許直接複製對方傳送圖片中的文字內容等^[7]。
古籍文字辨識：古籍文件與現代印刷的排版和布局通常具有很大的差別，例如，閱讀順序可能自上而下，自右向左等。因此，使用基於現代文件資料開發的 OCR 技術和模型在包含這些內容的圖像上的辨識效果往往不夠好。因此，在對大量古籍進行數位化保護的過程中，催生了專門針對該類型文件內容進行辨識的 OCR 技術^[8]。

過程

輸入

對於不同的圖像格式，有著不同的儲存格式、不同的壓縮方式，目前有OpenCV、CxImage等。

前期處理

二值化

如今數位網路攝影機拍攝的圖片，大多數是彩色圖像，彩色圖像所含資訊量巨大，較為不適用於OCR技術。

對於圖片的內容，我們可以簡單的分為前景與背景，為了讓電腦更快的、更好地進行OCR相關計算，我們需要先對彩色圖進行處理，使圖片只剩下前景資訊與背景資訊。二值化也可以簡單地將其理解為「黑白化」。

圖像降噪

對於不同的圖像，噪點的定義可能不同，根據噪點的特徵進行去噪的過程，稱為降噪。

傾斜校正

由於一般使用者，在拍照文件時，難以拍攝得完全符合水平平齊與豎直平齊，因此拍照出來的圖片不可避免的產生傾斜，這就需要圖像處理軟體進行校正。

中期處理

版面分析

將文件圖片分段落，分行的過程稱為版面分析，由於實際文件的多樣性、複雜性，此步驟目前仍待最佳化。

字元切割

由於拍照、書寫條件的限制，經常造成字元粘連、斷筆，直接使用此類圖像進行OCR分析將會極大限制OCR效能。因此需要進行字元切割，即：將不同字元之間分割開。

字元辨識

早期以模板匹配為主，後期以特徵提取為主。由於文字的位移、筆畫的粗細、斷筆、粘連、旋轉等因素的影響，極大地影響特徵提取難度。

版面還原

人們希望辨識後的文字，仍然像原始文件圖片那樣排列，段落、位置、順序不變地輸出到Word文件、PDF文件等，這一過程稱為版面還原。

後期處理

根據特定的語言上下文的關係，對辨識結果進行校正。

輸出

將辨識出的字元以某一格式的文字輸出。

發展歷史

OCR的概念是在1929年由德國科學家Tausheck最先提出來，並申請了專利。^{[來源請求]}後來美國科學家Handel也提出了利用技術對文字進行辨識的想法。^{[來源請求]}中國最早的OCR商業應用是由科學家王慶人教授在南開大學開發出來的，並在美國市場投入商業使用。^{[來源請求]}日本在20世紀60年代開始研究OCR辨識理論，開發了郵政編碼辨識系統。^{[來源請求]}

主流實現

CNN+RNN+CTC^[9]
CNN+RNN 基於 Attention ^[10]的方法。

參考來源

^ 什么是OCR？如何使用OCR文字识别软件？_文本_文件_图片. www.sohu.com. [2023-10-06].
^ 人工智能技术在档案OCR工作中的应用. app.yunxiqu.gov.cn. [2023-10-06].
^ 手写笔记软件评测Notability、GoodNotes、MarginNote、OneNote_支持_功能_编辑器. www.sohu.com. [2023-10-06].
^ Synced. ‘Snip’ Converts Math Screenshots Into LaTeX | Synced. syncedreview.com. 2019-04-09 [2023-10-06]. （原始內容存檔於2023-03-23）（美國英語）.
^ Google 相册现在能让你搜索照片里的文字. 愛范兒. 2019-08-23 [2023-10-06]. （原始內容存檔於2022-12-08）（中文（中國大陸））.
^ 瘋先生. iOS 15原況文字怎麼用？教你6招iPhone相機實現OCR文字辨識 - 瘋先生. mrmad.com.tw. 2021-06-11 [2023-10-06]. （原始內容存檔於2022-04-05）（中文（臺灣））.
^ 虽迟但到，微信也可以「提取图片内文字」了？. 愛范兒. 2021-03-23 [2023-10-06]. （原始內容存檔於2022-11-29）（中文（中國大陸））.
^ 繁体字识别_应用_技术_古籍. www.sohu.com. [2023-10-06].
^ 存档副本. [2018-02-19]. （原始內容存檔於2018-02-19）.
^ 存档副本 (PDF). [2018-02-19]. （原始內容存檔 (PDF)於2018-03-04）.

[1] 什么是OCR？如何使用OCR文字识别软件？_文本_文件_图片. www.sohu.com. [2023-10-06].

[2] 人工智能技术在档案OCR工作中的应用. app.yunxiqu.gov.cn. [2023-10-06].

[3] 手写笔记软件评测Notability、GoodNotes、MarginNote、OneNote_支持_功能_编辑器. www.sohu.com. [2023-10-06].

[4] Synced. ‘Snip’ Converts Math Screenshots Into LaTeX | Synced. syncedreview.com. 2019-04-09 [2023-10-06]. （原始內容存檔於2023-03-23）（美國英語）.

[5] Google 相册现在能让你搜索照片里的文字. 愛范兒. 2019-08-23 [2023-10-06]. （原始內容存檔於2022-12-08）（中文（中國大陸））.

[6] 瘋先生. iOS 15原況文字怎麼用？教你6招iPhone相機實現OCR文字辨識 - 瘋先生. mrmad.com.tw. 2021-06-11 [2023-10-06]. （原始內容存檔於2022-04-05）（中文（臺灣））.

[7] 虽迟但到，微信也可以「提取图片内文字」了？. 愛范兒. 2021-03-23 [2023-10-06]. （原始內容存檔於2022-11-29）（中文（中國大陸））.

[8] 繁体字识别_应用_技术_古籍. www.sohu.com. [2023-10-06].

[9] 存档副本. [2018-02-19]. （原始內容存檔於2018-02-19）.

[10] 存档副本 (PDF). [2018-02-19]. （原始內容存檔 (PDF)於2018-03-04）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文字挖掘	文字分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體辨識指代文字情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文件摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文字簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語意學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動辨識與資料採集	語音辨識語音合成光學字元辨識自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語意索引
電腦輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文字（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言使用者介面（英語：Natural language user interface）	自動線上助手聊天機器人文字冒險遊戲問答系統

閱論編紙式資料儲存（英語：Paper data storage）媒體
古代	在莎草紙上寫作 (c.3000 BCE) 紙 (105 CE)
近代	穿孔紙帶 (1846) 書形樂曲（英語：Book music） (1863) 電報紙條（英語：Ticker tape） (1867) 鋼琴捲簾（英語：Piano roll） (1880s) 打孔卡 (1890) 邊緣穿孔卡（英語：Edge-notched card） (1896) 光學劃記符號辨識 (1930s) 光學字元辨識 (1929) 條形碼 (1948) 紙製光碟（英語：Paper disc） (2004)

權威控制資料庫
各地	法國 2 BnF data 2 德國以色列美國捷克
學術	AAT
其他	IdRef 2