第一种:原生安装
参考方法: https://dotatong.cn/index.php/archives/54/
中间的秘钥是:
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/signing_keys/download?kind=gpg
第二种: docker方式安装
先把镜像文件pull下来
docker pull jitesoft/tesseract-ocr
再执行
docker run --rm -v /mnt/hgfs/project/post.jpg:/tmp/img.jpg -v /usr/share/tesseract/4/tessdata:/usr/local/share/tessdata jitesoft/tesseract-ocr /tmp/img.jpg stdout -l eng+chi_sim
--rm: 容器启用之后就删除
-v: 把本地的文件目录映射到容器里面
我的图片文件是/mnt/hgfs/project/post.jpg
,对应容器内的/tmp/img.jpg
我的训练文件夹是:/usr/share/tesseract/4/tessdata
,对应容器内的/usr/local/share/tessdata
然后stdout是指标准输出
-l 表示语言,多个语言用+来分隔,我的是eng(英语) + chi_sim(简体中文)
参考资料: https://blog.csdn.net/justlpf/article/details/127728286
https://packagist.org/packages/thiagoalessio/tesseract_ocr