口號大全團隊口號個性簽名藝術簽名經典古詩古詩大全成語故事成語大全漢語詞典字典詞典成語查詢四字成語成語經典成語解釋成語用法

OCR開源項目對比總結

光學字符識別（Optical Character Recognition, OCR）是指對文本資料的圖像文件進行分析識別處理，獲取文字及版面信息的過程。亦即將圖像中的文字進行識別，並以文本的形式返回。

ocr的發展已經有了非常多的積累，壹般人或者企業使用，都是直接使用第三方的服務，目前提供第三方服務的大企業也非常多，百度，阿裏雲，騰訊等等，都提供了非常方便的api接口，可以進行調用，識別的速度、精確度和效果也都是非常不錯的。唯壹的缺點就是api的調用是需要收費的，對於調用頻次不高的個人和企業，這個費用還是非常低的。

目前因為公司的現狀，使用開源的有幾個目的

目前針對ocr的相關開源項目也還是有不少的，作者正好是公司也需要類似的功能，所以做了壹些簡單的調研，在這裏進行記錄。

對於調研不準確的希望大家指出

Tesseract 是谷歌開發並開源的圖像文字識別引擎，使用python開發。

所以針對目前公司的現狀，放棄了這個項目的學習和調研

PaddleOCR 是百度開源的中文識別的ocr開源軟件

EasyOCR 是壹個用 Python 編寫的 OCR 庫，用於識別圖像中的文字並輸出為文本，支持 80 多種語言。

chineseocr

chineseocr_lite

TrWebOCR

cnocr

針對上面的比較討論，同時根據現在的公司的情況和之前既定的壹些目標，暫時選擇最簡單的cnocr進行學習和內部學習和使用。同時也針對目前cnocr僅僅是壹個python包，而且無法通過接口進行調用的情況，做了壹個補充項目 hn_ocr 。

目前放到github上面，歡迎大家壹起學習和完善。