标点符(钱魏 Way)

使用Scrapy-redis实现分布式爬取

Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。 而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Sched […]

Python数据解析工具:Beautiful Soup

Beautiful Soup简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。这个特性lxml差不多。 Beautiful Soup的安装 Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,安装方法: [cra […]

数据提取工具lxml及xpath

在数据抓取过程中,经常遇到需要解析HTML中的内容,比较常用的是用正则表达式,今天主要介绍lxml工具及xpath的语法。 lxml简介 lxml 是一款高性能Python XML 库,它天生支持 XPath 1.0、XSLT 1.0、定制元素类,甚至 python 风格的数据绑定接口。它构建在两个 C 库之上:libxml2 和 libxslt。它们为执行解析、序列化和转换等核心任务提供了主要动 […]

Windows下lxml的安装及升级

今天在升级自己电脑中的Scrapy时,发现lxml无法进行升级,具体报错信息如下:

查询了以前安装Scrapy时的资料:Scrapy在Windows上的安装笔记,中间提到了解决方案: ‘xslt-config’ 不是内部或外部命令,也不是可运行的程序或批处理文件。 出现上述问题的主要是lxml安装不成功,只要上http://pypi […]

PHP采集类:Snoopy.class.php

Snoopy是一个php采集类,用来模拟浏览器获取网页内容和发送表单。 下面是一些Snoopy特性:  容易抓取网页内容 容易抓取页面文本(去除HTML标签) 容易抓取网页内链接 支持代理抓取 支持基本的用户名、密码认证 支持设置user-agent,referer,cookies和header内容 支持浏览器转向,和控制转向深度 能把页面中的链接转化成高质量的链接 容易提交数据和获得返还值 能追 […]