系统相关
首页 > 系统相关> > Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

作者:互联网

 

 OCR(Optical character recognition) —— 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向

截止笔者发文(2019.12.25),tesseract-ocr 最新发布的稳定版本是4.1.0. 而tesseract-ocr依赖于leptonica——最新稳定版本是1.78.0

安装说明

(1)详情请移步至如下链接,下载安装:

https://github.com/UB-Mannheim/tesseract/wiki

(2)配置环境变量(跟JAVA一样)及添加TESSDATA_PREFIX请参见:

https://www.cnblogs.com/jianqingwang/p/6978724.html

注意需要下载训练集—traineddata:

https://github.com/tesseract-ocr/tessdata

中文请选如下4个:

chi_sim.traineddata (简体— 对于宋体,像素>= 300dpi:识别率高达%100,同时对英文阿拉伯数字识别率高达百分之90以上
chi_sim_vert.traineddata (简体,竖排)
chi_tra.traineddata (繁体)
chi_tra_vert.traineddata(繁体,竖排)【CoderBaby

 

(1)下载Leptonica 和 Teseract 源码

wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz

(2)配置、编译和安装

leptonica

 

$ tar xzvf leptonica-1.78.0.tar.gz
$ cd leptonica-1.78.0
$ ./configure
$ make
$ sudo make install


Tesseract-OCR

$ tar xzf tesseract-ocr-4.1.0.tar.gz
$ cd tesseract-4.1.0
$ ./autogen.sh
$ ./configure
$ make
$ sudo make install
$ sudo ldconfig

********************************************************************************************************************************************

在安装Tesseract-OCR过程中一步一错,具体错误和解决办法如下:

 稍等,还没有解决完,解决完了再详细补充

 

********************************************************************************************************************************************

3)下载语言包,并且拷贝到testdata

$ wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz       
$ tar xzf tesseract-ocr-3.02.eng.tar.gz       
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata


注:如果没有C编译器,先安装gcc,具体请移步参考—— https://linuxhostsupport.com/blog/how-to-install-gcc-on-centos-7/
如果安装失败,需要配置软件源

使用方法

参数的使用有两种:

参考:

1)https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6

2)http://www.zmonster.me/2015/04/17/tesseract-install-usage.html 

 

*****************************************************************************************************

精力有限,想法太多,专注做好一件事就行

*****************************************************************************************************

 

标签:OCR,4.1,CentOS,tar,chi,leptonica,tesseract,ocr,com
来源: https://www.cnblogs.com/NaughtyCat/p/how-to-install-tesseract-ocr-on-windows-and-centos.ht