分类: 术→技巧

频繁项集算法Eclat

Equivalence Class Transformation(Eclat)是频繁项挖掘和关联性分析的另外一种常用的算法,与Apriori和FP-growth不同的是,Eclat采用垂直数据格式。所谓的垂直数据格式,就是从对原有数据进行倒排。 Apriori算法…

数据, 术→技巧 ·

格兰杰因果关系检验

格兰杰因果关系检验简介 格兰杰因果关系检验(英语:Granger causality test)是一种假设检定的统计方法,检验一组时间序列x是否为另一组时间序列y的原因。它的基础是回归分析当中的自回归模型。回归分析通常只能…

数据, 术→技巧 ·

时间序列预测之ARIMA

时间序列与平稳性 在数学上,随机过程被定义为一族时间随机变量,即{x(t),t∈T},其中T表示时间t的变动范围。当T={0,±1,±2,…}时,此类随机过程x(t)是离散时间t的随机函数,称为时间序列。时间序列的构成要素有: …

数据, 术→技巧 ·

时间序列分析之趋势判断

判断时间序列数据是上升还是下降是我们常见的问题。比如某个股票在过去一年整体趋势是上升还是下降。我们可以通过画图的方式直接观测出上升还是下降。但每次观测图片非常的麻烦,有没有一些数学方法进行检验? 方…

数据, 术→技巧 ·

时间序列预测的7种方法

时间序列预测在日常分析中常会用到,前段时间在处理预算相关的内容,涉到一些指标预测,学习到了这篇文章,整理出来分享给大家。 数据准备 数据集(JetRail高铁的乘客数量)下载,链接: https://pan.baidu.com/s/…

数据, 术→技巧 ·

Streamlit:快速数据可视化界面工具

Streamlit简介 Streamlit是一个基于Python的可视化工具,和其他可视化工具不同的是,它生成的是一个可交互的站点(页面)。但同时它又不是我们常接触的类似Django、Flask这样的WEB框架。当前使用下来的感受: …

机器学习算法之CatBoost

CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Gradient Boosting(梯度提升) + Categorical Features(类别型特征),也是基于梯度提升决策树的机器学习框架。 CatBoost简介 CatBoost这个名字…

机器学习算法之LightGBM

上一篇文章介绍了一个梯度提升决策树模型XGBoost,这篇文章我们继续学习一下GBDT模型的另一个进化版本:LightGBM。LigthGBM是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理…

机器学习算法之XGBoost

在上一篇Boosting方法的介绍中,对XGBoost有过简单的介绍。为了更还的掌握XGBoost这个工具。我们再来对它进行更加深入细致的学习。 什么是XGBoost? 全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿…

回归模型评估指标

在建立回归模型时需要对模型的效果进行评测,选择哪一种指标作为评估指标也会影响最终模型的效果。这里选择Scikit Learn自带的回归模型评估指标进行详细讲解。 explained_variance_score(y_true, y_pred) Expl…

数据, 术→技巧 ·