了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit 和 Statsmodels。 数据集的准备 美国波士顿房价的数据集是 sklearn 里面默认的数据集,sklearn 内置的数据集都…
Elo等级分制度 Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球、…
在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_属…
汉字是记录汉语的文字。汉字对发展中华民族的优秀文化起了重大的作用。汉字是世界上最古老的文字之一。汉字以象形字为基础,形、音、义、结合于一体,成为独特的方块形的表意体系的文字。 汉字的特点: 汉字的…
GBRank是一种pair-wise的学习排序算法,他是基于回归来解决pair对的先后排序问题。在GBRank中,使用的回归算法是梯度提升数GBT (Gradient Boosting Tree) 算法原理 Learning To Rank需要解决的问题是给定一个Query…
谈到推荐系统,很多人的印象中是“个人性推荐”和“千人千面”。关于“千域千面”应该很少人提及,主要能用到的场景不多,先前有想过在酒店场景上应用,但是由于各种原因最终没有尝试。以下是高德地图在“千域千面”的一些…
Matplotlib简介 MATLAB MATLAB是Matrix&Laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国Mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。 它将数值分析、…
在潜在语义分析LSA的文章中对LDA有一些简单的介绍,今天的目标是对LDA进行相对深入的了解,大致搞明白其原理。 LDA简介 在机器学习领域中有2个LDA: 线性判别分析(Linear Discriminant Analysis),主要用于降维和…
生活是所有选择的总和 大到一个国家如何选择合适的领导人和国家战略、一家企业如何选择自己的经营策略和项目方案,小到我们每个人每天选择吃什么、穿什么、用什么,可以说,一切组织和个人的荣耀与衰落,都源自选…
Learning to Ranking简介 Learning to Rank(LTR)是指一系列基于机器学习的排序算法,最初主要应用于信息检索(Information Retrieval,IR)领域,最典型的是解决搜索引擎对搜索结果的排序问题。除了信息检索以外…