安装顺序
tesseract
配置 tesseract 环境变量
tesserocr
下载地址:
http://digi.bib.uni-mannheim.de/tesseract/
我的环境是win11 64位 python 3.7
其中,文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本。我选择下载tesseract-ocr-setup-3.05.01.exe。
在【系统变量】新建一个变量名称为:TESSDATA_PREFIX,值为:C:\Program Files (x86)\Tesseract-OCR\tessdata 点击确定。
可以先尝试用pip安装,如果不行就用whl安装,我用的是whl安装
pip install tesseroc
pip install pillow
下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
选择对应的python版本下载,我这里选择的3.7 64位的
下载后,放到pycharm开发工具terminal的默认目录下。
首先在pycharm中打开terminal,显示目录。我这里的目录是E:\workspace\pyspider
然后输入命令:
pip install XXX.whl
然后再安装 pillow
可以在该网址下载图片https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
也可以用本地图片。我用的是本地图片。
cd /d E:\workspace\pyspider\img
tesseract capcha.png result -l eng
这就测试完了,会在当前路径下生成一个结果
点进去就能看到生成结果
import tesserocr
from PIL import Image
import osimage = Image.open(f'..\\img\\capcha.png')
result = tesserocr.image_to_text(image)
print(result)
结果如下