Windows下安装Tesserocr

16 sec read

在爬虫过程中,经常会遇到各种验证码,大多数验证码是图形验证码,先前的文章中有介绍到破解图形验证码的原理。最简单的破击验证码的方式是使用OCR。

Tesseract

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。目前,Tesseract的源代码放在GitHub上。目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。Tesseract支持多种输出格式,如:普通文本、html、pdf等。

Tesseract的安装

Tesseract可以从源码自行编译进行安装,但是在Windows平台通常使用的是便宜好的.exe文件进行安装,下载地址为:https://digi.bib.uni-mannheim.de/tesseract/

安装过程中可以选择需要识别的文字,完成后需要将安装的目录(比如:D:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。

安装完成后即可通过命令行识别图片中的文字例如:

更多详细的使用方法请查看:https://github.com/tesseract-ocr/tesseract

Tesserocr

Tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装好tesseract。

使用命令行pip install tesserocr安装时会报如下错误:

上网查询了下,解决方案是使用编译好的.whl文件进行安装。.whl的下载地址为:https://github.com/simonflueckiger/tesserocr-windows_build/releases

安装完成后的使用方式如下:

备注:最新版本Tesseract没有对应的Tesserocr.whl包,所以我自己目前没有安装成功。

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

含C/C++代码包Anaconda安装问题

上篇文章主要讲了libffm在Windows系统下安装遇到的问题,今天在Linux环境下的Anaconda中安
1 min read

FFM/libffm在Windows上的使用

FFM 的作者Yu-Chin Juan在GitHub上开源了C++版本的代码libffm,由于日常的数据处理都
5 min read

使用Python获取照片Exif信息

什么是Exif? Exif(Exchangeable image file format)是专门为数码相机的照
4 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注