先升級pip:
C:\Python27> python -m pip install --upgrade pip
再安裝包
C:\Python27> python -m pip install js2py
-------------------------------
因為沒有把pip加入環境變量,so 進入pip對應路徑:
C:\Python27\Scripts>pip install pytesseract
如果pip版本太弱了,升級pip
pip show pip
C:\Python27\Scripts>pip install --user --upgrade pip
或者用:python -m pip install --upgrade pip -i https://pypi.douban.com/simple
-------------------------------------------------------------------------------
- 打開cmd
- 到達安裝目錄
- python setup.py build
- python setup.py install
cd C:\Python27\Scripts\tesseract-ocr-0.0.1
pip install pytesseract
pip install --index-url http://pypi.douban.com/simple/ tesseract-ocr
==============================Tesseract-OCR 和 pytesseract 模塊安裝=======================
語言包下載地址:
3.04版本:https://github.com/tesseract-ocr/tessdata/tree/3.04.00
4.0版本:https://github.com/tesseract-ocr/tessdata
下載中文 chi_sim.traineddata 和 chi_tra.traineddata
一、環境變量配置
1.系統變量Path
D:\Program Files\Tesseract-OCR
2.系統自定義變量:TESSDATA_PREFIX
D:\Program Files\Tesseract-OCR\tessdata
測試:
【語法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename為目標圖片文件名,需加格式后綴;outputbase是轉換結果文件名;lang是語言名稱(在Tesseract-OCR中tessdata文件夾可看到以eng開頭的語言文件eng.traineddata),如不標-l eng則默認為eng。
tesseract --help
tesseract 1.jpg log -l eng (識別英文測試,默認)
tesseract 1.jpg log -l chi_sim(識別中文測試)
二、編輯:C:\Python27\Lib\site-packages\pytesseract\pytesseract.py
32行:
# tesseract_cmd = 'tesseract'
tesseract_cmd = u'D:/Program Files/Tesseract-OCR/tesseract.exe'
2、Tesseract訓練:
因為識別能力很有限,需要進行訓練
大體流程為:安裝jTessBoxEditor -> 獲取樣本文件 -> Merge樣本文件 –> 生成BOX文件 -> 定義字符配置文件 -> 字符矯正 -> 執行批處理文件 -> 將生成的traineddata放入tessdata中
參考博客:
https://www.cnblogs.com/hupeng1234/p/7136442.html
https://blog.csdn.net/dcba2014/article/details/78969658
http://www.inimei.cn/archives/770.html
https://blog.csdn.net/guzhenping/article/details/80122947
https://www.cnblogs.com/cnlian/p/5765871.html
https://www.cnblogs.com/wzben/p/5930538.html
