Windows下安装Tesserocr

15 sec read

在爬虫过程中,经常会遇到各种验证码,大多数验证码是图形验证码,先前的文章中有介绍到破解图形验证码的原理。最简单的破击验证码的方式是使用OCR。

Tesseract

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。目前,Tesseract的源代码放在GitHub上。目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。Tesseract支持多种输出格式,如:普通文本、html、pdf等。

Tesseract的安装

Tesseract可以从源码自行编译进行安装,但是在Windows平台通常使用的是便宜好的.exe文件进行安装,下载地址为:https://digi.bib.uni-mannheim.de/tesseract/

安装过程中可以选择需要识别的文字,完成后需要将安装的目录(比如:D:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。

安装完成后即可通过命令行识别图片中的文字例如:

更多详细的使用方法请查看:https://github.com/tesseract-ocr/tesseract

Tesserocr

Tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装好tesseract。

使用命令行pip install tesserocr安装时会报如下错误:

上网查询了下,解决方案是使用编译好的.whl文件进行安装。.whl的下载地址为:https://github.com/simonflueckiger/tesserocr-windows_build/releases

安装完成后的使用方式如下:

备注:最新版本Tesseract没有对应的Tesserocr.whl包,所以我自己目前没有安装成功。

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

AttributeError: ‘NoneTyp…

在PyCharm创建的Virtualenv环境下,使用pip安装包时,老是提示需要升级pip,具体提示信息为:
12 sec read

Anaconda包更新遇到的问题及解决方案

Anaconda可以通过命令升级所有的Python包,具体命令为:conda update –al
7 sec read

复合事件处理CEP简介

什么是复合事件处理? 这是一个IT事件爆发的时代,各种IT系统之间或系统内部,每天产生大量事件。系统在关键点打
23 sec read

发表评论

电子邮件地址不会被公开。 必填项已用*标注