网页正文提取工具:Readability

16 sec read

从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现。Readability之前是开源的,后来不再公开了,这里还有当初的开源版本可以参考:arc90labs-readability – Readability cleans up hard-to-read articles on the Web

Readability通过遍历Dom对象,通过标签和常用文字的加减权,来重新整合出页面的内容。接下来我们就简单看看这个算法是如何实现的。首先,它定义了一系列正则:

可以看到,标签和文字都有加权或降权分组。整个内容分析是通过grabArticle函数来实现的。首先开始遍历节点:

然后将不像内容的元素去掉:

将DIV替换为P标签后,再对目标节点进行遍历,进行计分:

最后根据分值,重新拼接内容

可以看到,里边用到了很多很trick的技巧,比如25字以下的段落不计分。目前已经有很多其他语言的版本,但是考虑到原始功能是针对的英文页面进行设计的。在移植过程中需要考虑:

  • 支持GBK, GB2312等编码
  • 支持更多的视频网站,比如优酷、土豆等
  • 支持提取文章标题
  • 支持图片相对路径转成绝对路径

目前收集到的比较好的移植版本为:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

北大开源分词工具pkuseg

pkuseg简介 pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkus
1 min read

使用Python进行中文繁简转换

中文繁体、简体的差异,在NPL中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆、香港和台湾又
1 min read

Python因子分解库:fastFM

FastFM简介 FastFM的主要特点是将是将因子分解封装成scikit-learn API接口,核心代码使
2 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注