数据提取

网页正文提取工具:Readability

从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现。Readab

18 sec read