python3使用OCR识别图片
作者:互联网
放假三天,闲来无事,想学下python爬虫。本想跟着网上教程操作一遍,奈何安装使用过程中出现一堆问题,并且在网上搜了一堆复制黏贴的答案,关键都不能起作用,最后终于找到一篇生效,为了以后不至于再经历这种痛苦,还是将多年未用的账号给翻了出来,将安装过程记录下来,以免以后突然心血来潮又想搞一把。
环境:
- win10
- python 3.10.4
- tesseract-ocr-w64-setup-v5.0.1.20220118
看网上教程,使用python识别图片需要先安装tesseract,然后再安装python ocr库,才能正常使用。这里分为两部分介绍:
tesseract
- 安装
安装包下载路径https://digi.bib.uni-mannheim.de/tesseract/,从上面下载所需版本后,点击安装:
需要注意的是此次将“Additional language data(download)”选中,然后一路点击Next,直至安装即可。
- 配置环境变量
首先需要新建系统变量TESSDATA_PREFIX,设置成你的软件安装路径:(注意加上tessdata,此处网上的坑极大,没有加导致使用时报
Error opening data file C:\Program Files\Tesseract-OCR\eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
)
然后需要在PATH变量中添加软件的安装路径:
然后打开CMD进入图片存放路径验证是否能识别成功:(image.png可以换成带有字母或数字的图)
安装Python的OCR识别库
- 安装
直接使用命令安装:
pip install Pillow pip install pytesseract
- 使用
在python脚步中添加如下代码,执行即可看到结果:
textPath = "C:\\Users\\umj\\Desktop\\image.jpg" print(pytesseract.image_to_string(Image.open(textPath), lang="eng"))
参考链接:https://www.jb51.net/article/183990.htm
标签:tesseract,python,image,识别,使用,OCR,安装,python3 来源: https://www.cnblogs.com/citta/p/16096174.html