分类: 器→工具

HTML解析抽取工具Beautiful Soup

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。这个特性lxml 差不多。 BeautifulSoup的安装 BeautifulSoup…

器→工具, 开源项目 ·

HTML网页解析提取工具lxml和XPath

在数据抓取过程中,经常遇到需要解析HTML中的内容,常用的是用正则表达式,今天主要介绍lxml工具及xpath的语法。 lxml简介 lxml是一款高性能Python XML库,它天生支持XPath 1.0、XSLT 1.0、定制元素类,甚至Python…

条件随机场CRF及CRF++安装与使用

条件随机场(conditional random field, CRF)是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X,Y)来…

Linux下文件的压缩与解压缩

Linux下文件的压缩与解压缩与Windows环境下有较大的区别,在Windows下只需要安装类似Winrar工具就能解压缩大部分文件,而在Linux命令行下每一种文件都有不同的压缩和解压缩方法。 常用Linux压缩解压缩命令 使用ta…

器→工具, 工具软件 ·

短文本分类工具:LibShortText和TextGrocery

LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: 支持多分类 直接输入文本,无需做特征向量化的预处…

器→工具, 开源项目 ·

自然语言处理工具包推荐

结巴分词 就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成…

器→工具, 开源项目 ·

自然语言处理工具包之NLTK

NLTK简介 NLTK (Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用 python 语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-…

器→工具, 工具软件 ·

数据可视化之词云wordcloud

Wordcloud 是一个生成词云的 Python 包,可以以词语为基本单位更加直观和艺术的展示文本,呈现效果类似标签云。这里主要讲解下如何使用。 wordcloud 使用文档 所有函数均封装在 WordCloud 类里: WordCloud([...])…

Scikit-Learn中的异常检测算法

Sklearn 提供了一些机器学习方法,可用于奇异(Novelty)点或异常(Outlier)点检测,包括 OneClassSVM、IsolationForest、LocalOutlierFactor(LOF) 等。其中 OneClassSVM 可用于 Novelty Detection,而后两者可用…

Expedia异常检测系统Adaptive Alerting

Adaptive Alerting(AA)是Expedia开源的异常检测项目,整个项目也是完整一套监控体系,包括事件处理恢复操作都在内。系统设计主要在如何方便集成不同的异常检测算法和评估方法,然后根据指标的情况来路由和触发重…

器→工具, 开源项目 ·