Linux安装OCR识别工具tesseract

阅读: 评论:0

Linux安装OCR识别工具tesseract

Linux安装OCR识别工具tesseract

参考博客:【工具类】Linux安装OCR识别工具tesseract - 简书

参考网站: 

1 安装依赖

yum install -y libpng-devel libjpeg-devel libtiff-devel

2 安装leptonica

下载leptonica-1.78,下载地址:.78.
解压并安装

tar -xzvf leptonica-1.78.
cd leptonica-1.78.0
./configure
make && make install

 当./configure 报错,可以执行下面命令安装对应的环境

yum groupinstall "Development Tools"

安装完成后,配置环境变量
/etc/profile文件尾部添加

export LD_LIBRARY_PATH=/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

或者利用如下命令向 /etc/profile文件添加内容

echo "export LD_LIBRARY_PATH=/usr/local/lib" >> /etc/profile
echo "export LIBLEPT_HEADERSDIR=/usr/local/include" >> /etc/profile
echo "export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig" >> /etc/profile

使配置立即生效

source /etc/profile

3 安装tesseract-ocr

下载tesseract-ocr4.0,下载地址:.3.
解压并安装

.3.
tar -xzf 5.3.
cd tesseract-5.3.2
./autogen.sh
./configure
make && make install
ldconfig

下载OCR识别字符集

   语料包集合

cd /usr/local/share/tessdata
wget .traineddata
wget .traineddata
wget .traineddata

测试tesseract-ocr4.0是否可用,分别输入tesseract --versiontesseracttesseract --list-langs,如果能出现如下界面,则说明tesseract安装成功。

4.可能遇到的错误

1.【错误描述】
错误描述如下

[root@localhost nsimtest]# tesseract --list-langs
Error opening data file /usr/local/share/aineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!

【解决方案】
如果出现该错误,说明在默认的字符集路径中,未找到任何可用的字符集,此时就需要手动下载字符集,可参考安装步骤3来下载字符集。

【解决方案】
如果出现该错误,说明在默认的字符集路径中,有字符集,但是字符集有问题,笔者出现这个错误是因为直接复制Github上的链接到服务器直接下载的,结果下载下来的字符集都是85k左右,刚开始还未注意到这个问题,浪费较多时间。重新根据安装步骤3来下载字符集即可。

异常字符集

2.【错误描述】
错误描述如下

(base) [root@izrj97vwjyj7pi6cg9jveez tesseract-4.0.0]# make && make install
make  all-recursive
make[1]: Entering directory `/root/tesseract-4.0.0'
Making all in src/arch
make[2]: Entering directory `/root/tesseract-4.0.0/src/arch'
make[3]: Entering directory `/root/tesseract-4.0.0/src/arch'
/bin/sh ../../libtool  --tag=CXX   --mode=compile g++ -DHAVE_CONFIG_H -I. -I../..  -DNDEBUG -I../../src/ccstruct -I../../src/ccutil -I../../src/viewer  -I/usr/local/include/leptonica   -mavx -g -O2 -std=c++11 -MT libtesseract_avx_la-dotproductavx.lo -MD -MP -MF .deps/libtesseract_avx_la-dotproductavx.Tpo -c -o libtesseract_avx_la-dotproductavx.lo `test -f 'dotproductavx.cpp' || echo './'`dotproductavx.cpp
libtool: Version mismatch error.  This is libtool 2.4.6, but the
libtool: definition of this LT_INIT comes from libtool 2.4.2.
libtool: You should recreate aclocal.m4 with macros from libtool 2.4.6
libtool: and run autoconf again.
make[3]: *** [libtesseract_avx_la-dotproductavx.lo] Error 63
make[3]: Leaving directory `/root/tesseract-4.0.0/src/arch'
make[2]: *** [all-recursive] Error 1
make[2]: Leaving directory `/root/tesseract-4.0.0/src/arch'
make[1]: *** [all-recursive] Error 1
make[1]: Leaving directory `/root/tesseract-4.0.0'
make: *** [all] Error 2

【解决方案】
如果出现该错误,说明tesseract安装失败。

【解决方案】

解决方法很简单:

运行 autoreconf -ivf 即可。

3.【错误描述】
错误描述如下

checking how to hardcode library paths  immediate
checking whether C++ compiler accepts -std=c+&# no
checking whether C++ compiler accepts -std=c+&# no
configure: error: Your compiler does not have the necessary C++17 support! Cannot proceed.

【解决方案】
如果出现该错误,说明gcc 版本较低需要更新gcc版本

【解决方案】

解决方法很简单:

sudo yum install devtoolset-8
scl enable devtoolset-8 bash

本文发布于:2024-01-29 01:18:49,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170646233211681.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:工具   Linux   OCR   tesseract
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23