Windows下安装Tesserocr

16 sec read

在爬虫过程中,经常会遇到各种验证码,大多数验证码是图形验证码,先前的文章中有介绍到破解图形验证码的原理。最简单的破击验证码的方式是使用OCR。

Tesseract

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。目前,Tesseract的源代码放在GitHub上。目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。Tesseract支持多种输出格式,如:普通文本、html、pdf等。

Tesseract的安装

Tesseract可以从源码自行编译进行安装,但是在Windows平台通常使用的是便宜好的.exe文件进行安装,下载地址为:https://digi.bib.uni-mannheim.de/tesseract/

安装过程中可以选择需要识别的文字,完成后需要将安装的目录(比如:D:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。

安装完成后即可通过命令行识别图片中的文字例如:

更多详细的使用方法请查看:https://github.com/tesseract-ocr/tesseract

Tesserocr

Tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装好tesseract。

使用命令行pip install tesserocr安装时会报如下错误:

上网查询了下,解决方案是使用编译好的.whl文件进行安装。.whl的下载地址为:https://github.com/simonflueckiger/tesserocr-windows_build/releases

安装完成后的使用方式如下:

备注:最新版本Tesseract没有对应的Tesserocr.whl包,所以我自己目前没有安装成功。

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

北大开源分词工具pkuseg

pkuseg简介 pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkus
1 min read

使用Python进行中文繁简转换

中文繁体、简体的差异,在NPL中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆、香港和台湾又
1 min read

Python因子分解库:fastFM

FastFM简介 FastFM的主要特点是将是将因子分解封装成scikit-learn API接口,核心代码使
2 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注