Windows下安装Tesserocr

在爬虫过程中,经常会遇到各种验证码,大多数验证码是图形验证码,先前的文章中有介绍到破解图形验证码的原理。最简单的破击验证码的方式是使用OCR。

Tesseract

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。目前,Tesseract的源代码放在GitHub上。目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。Tesseract支持多种输出格式,如:普通文本、html、pdf等。

Tesseract的安装

Tesseract可以从源码自行编译进行安装,但是在Windows平台通常使用的是便宜好的.exe文件进行安装,下载地址为:https://digi.bib.uni-mannheim.de/tesseract/

安装过程中可以选择需要识别的文字,完成后需要将安装的目录(比如:D:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。

安装完成后即可通过命令行识别图片中的文字例如:

更多详细的使用方法请查看:https://github.com/tesseract-ocr/tesseract

Tesserocr

Tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装好tesseract。

使用命令行pip install tesserocr安装时会报如下错误:

上网查询了下,解决方案是使用编译好的.whl文件进行安装。.whl的下载地址为:https://github.com/simonflueckiger/tesserocr-windows_build/releases

安装完成后的使用方式如下:

备注:最新版本Tesseract没有对应的Tesserocr.whl包,所以我自己目前没有安装成功。

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Python检测符号及乱码字符

最近在进行关键词的分析,中间涉及到对一些特殊的字符进行过滤的需求。包括带符号的(有部分还是SQL注入),并且存

PHP版本升级记录(7.0到7.4)

服务器上原先安装的版本为PHP 7.0.33, WordPress后台建议安装的最小版本为7.3,所以打算直接

WordPress LaTeX插件更换记录

由于自己的博客要插入很多的公式,所以需要依赖LaTeX插件来帮忙实现。先前一直使用的是WP QuickLaTe

发表评论

电子邮件地址不会被公开。 必填项已用*标注