LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: 支持多分类 直接输入文本,无需做特征向量化的预处…
结巴分词 就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成…
NLTK简介 NLTK (Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用 python 语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-…
Wordcloud 是一个生成词云的 Python 包,可以以词语为基本单位更加直观和艺术的展示文本,呈现效果类似标签云。这里主要讲解下如何使用。 wordcloud 使用文档 所有函数均封装在 WordCloud 类里: WordCloud([...])…
Sklearn 提供了一些机器学习方法,可用于奇异(Novelty)点或异常(Outlier)点检测,包括 OneClassSVM、IsolationForest、LocalOutlierFactor(LOF) 等。其中 OneClassSVM 可用于 Novelty Detection,而后两者可用…
Adaptive Alerting(AA)是Expedia开源的异常检测项目,整个项目也是完整一套监控体系,包括事件处理恢复操作都在内。系统设计主要在如何方便集成不同的异常检测算法和评估方法,然后根据指标的情况来路由和触发重…
异常检测 (anomaly detection),也叫异常分析 (outlier analysis 或者 outlier detection) 或者离群值检测,在工业上有非常广泛的应用场景: 金融业:从海量数据中找到“欺诈案例”,如信用卡反诈骗,识别虚假信…
EGADS (Extendible Generic Anomaly Detection System) 是 Yahoo 一个开源的大规模时间序列异常检测项目,主要由两个模块构成,一个是时间序列构造模块,另一个是异常检测模块。 给定一段时间的离散值(构成一个序…
宿主服务器使用的是 Ubuntu 18.04,需要注意的是 Docker 目前不支持 Ubuntu 19.10。如要在 19.10 中使用 Docker 需要在 Docker 源配置时设置 Ubuntu 18.04 的版本标识:bionic。 deb [arch=amd64] https://download…
Streamlit简介 Streamlit是一个基于Python的可视化工具,和其他可视化工具不同的是,它生成的是一个可交互的站点(页面)。但同时它又不是我们常接触的类似Django、Flask这样的WEB框架。当前使用下来的感受: 缺点…