钱魏Way

1058篇文章

自然语言处理之中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘…

机器学习算法之树回归

在前面的文章中介绍了基本的线性回归模型 属于全局的模型(除局部加权线性回归外),在线性回归模型中,其前提是假设全局的数据之间是线性的,通过拟合所有的样本点,训练得到最终的模型。然而现实中的很多问题是非…

机器学习, 法→原理 ·

相关性分析之Predictive Power Score(PPS)

常用相关性分析存在的问题 1、有许多非线性的关系是分数根本无法检测到的,比如下图:   2、计算出来的矩阵是对称的,即a与b的相关性同b与a的相同。更多的时候,关系是不对称的。一个有3个唯一值的…

相关性分析:Pearson、Kendall、Spearman

在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为: pearson:Pearson相关系数 kendall:Kendall秩相关系数 Spea…

机器学习算法之岭回归、Lasso回归和ElasticNet回归

在处理较为复杂的数据的回归问题时,普通的线性回归算法通常会出现预测精度不够,如果模型中的特征之间有相关关系,就会增加模型的复杂程度。当数据集中的特征之间有较强的线性相关性时,即特征之间出现严重的多重…

机器学习算法之线性回归

线性回归是统计学总最常用的算法之一。从根本上来说,当你想表示两个变量间数学关系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、因变量或标签)和预测变量(有时称为自变量、解…

机器学习算法之逻辑回归

逻辑回归算法的名字里虽然带有“回归”二字,但实际上逻辑回归算法是用来解决分类问题的。简单来说,逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。…

机器学习算法之Softmax Regression

由于Logistic Regression算法复杂度低、容易实现等特点,在工业界中得到广泛使用,如计算广告中的点击率预估等。但是,Logistic Regression算法主要是用于处理二分类问题,若需要处理的是多分类问题,如手写字识别…

机器学习算法之朴素贝叶斯

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。 贝叶斯定理 贝叶斯定理实际上就是计算"条件概率"的公式。…

地理信息系统之瓦片坐标系

最近抓取了部分百度地图的数据,中间的数据使用的是瓦片经纬度。由于先前对这方面知识没有接触过。今天抽时间整理下,供后续使用。 经纬度与坐标系 地球是一个椭球,Datum是一组用于描述这个椭球的数据集合。最常用…

术→技巧, 研发 ·