分类: 器→工具

短文本分类工具:LibShortText和TextGrocery

LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: 支持多分类 直接输入文本,无需做特征向量化的预处…

器→工具, 开源项目 ·

自然语言处理工具包推荐

结巴分词 就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成…

器→工具, 开源项目 ·

自然语言处理工具包之NLTK

NLTK简介 NLTK (Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用 python 语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-…

器→工具, 工具软件 ·

数据可视化之词云wordcloud

Wordcloud 是一个生成词云的 Python 包,可以以词语为基本单位更加直观和艺术的展示文本,呈现效果类似标签云。这里主要讲解下如何使用。 wordcloud 使用文档 所有函数均封装在 WordCloud 类里: WordCloud([...])…

Scikit-Learn中的异常检测算法

Sklearn 提供了一些机器学习方法,可用于奇异(Novelty)点或异常(Outlier)点检测,包括 OneClassSVM、IsolationForest、LocalOutlierFactor(LOF) 等。其中 OneClassSVM 可用于 Novelty Detection,而后两者可用…

Expedia异常检测系统Adaptive Alerting

Adaptive Alerting(AA)是Expedia开源的异常检测项目,整个项目也是完整一套监控体系,包括事件处理恢复操作都在内。系统设计主要在如何方便集成不同的异常检测算法和评估方法,然后根据指标的情况来路由和触发重…

器→工具, 开源项目 ·

Python异常检测包:PyOD

异常检测 (anomaly detection),也叫异常分析 (outlier analysis 或者 outlier detection) 或者离群值检测,在工业上有非常广泛的应用场景: 金融业:从海量数据中找到“欺诈案例”,如信用卡反诈骗,识别虚假信…

器→工具, 开源项目 ·

雅虎时序异常检测框架EGADS

EGADS (Extendible Generic Anomaly Detection System) 是 Yahoo 一个开源的大规模时间序列异常检测项目,主要由两个模块构成,一个是时间序列构造模块,另一个是异常检测模块。 给定一段时间的离散值(构成一个序…

器→工具, 开源项目 ·

Docker安装多用户版JupyterHub

宿主服务器使用的是 Ubuntu 18.04,需要注意的是 Docker 目前不支持 Ubuntu 19.10。如要在 19.10 中使用 Docker 需要在 Docker 源配置时设置 Ubuntu 18.04 的版本标识:bionic。 deb [arch=amd64] https://download…

器→工具, 工具软件 ·

Streamlit:快速数据可视化界面工具

Streamlit简介 Streamlit是一个基于Python的可视化工具,和其他可视化工具不同的是,它生成的是一个可交互的站点(页面)。但同时它又不是我们常接触的类似Django、Flask这样的WEB框架。当前使用下来的感受: 缺点…