Windows下安装Tesserocr

16 sec read

在爬虫过程中,经常会遇到各种验证码,大多数验证码是图形验证码,先前的文章中有介绍到破解图形验证码的原理。最简单的破击验证码的方式是使用OCR。

Tesseract

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。目前,Tesseract的源代码放在GitHub上。目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。Tesseract支持多种输出格式,如:普通文本、html、pdf等。

Tesseract的安装

Tesseract可以从源码自行编译进行安装,但是在Windows平台通常使用的是便宜好的.exe文件进行安装,下载地址为:https://digi.bib.uni-mannheim.de/tesseract/

安装过程中可以选择需要识别的文字,完成后需要将安装的目录(比如:D:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。

安装完成后即可通过命令行识别图片中的文字例如:

更多详细的使用方法请查看:https://github.com/tesseract-ocr/tesseract

Tesserocr

Tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装好tesseract。

使用命令行pip install tesserocr安装时会报如下错误:

上网查询了下,解决方案是使用编译好的.whl文件进行安装。.whl的下载地址为:https://github.com/simonflueckiger/tesserocr-windows_build/releases

安装完成后的使用方式如下:

备注:最新版本Tesseract没有对应的Tesserocr.whl包,所以我自己目前没有安装成功。

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用tqdm显示Python代码执行进度

在使用Python执行一些比较耗时的操作时,为了方便观察进度,通常使用进度条的方式来可视化呈现。Python中
标点符
34 sec read

利用SWIG实现Python调用C/C++

SWIG简介 SWIG是Simplified Wrapper and Interface Generator的
标点符
1 min read

WordPress又被黑了,解决方案记录

过了一个周末,今天整个网站打开无样式,后台无法打开,直接跳转到其他网站,才意识到网站可能被黑了。查看源代码:
标点符
1 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注