所有文章

腾讯AI Lab中文词向量数据使用

近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量…

Word2vec实战:中文维基百科语料训练

Word2vec是Google于2013年开源推出的一个用于获取词向量的工具包,关于它的介绍可以看先前整理的Word2Vec原理。 获取和处理中文语料 维基百科的中文语料库质量高、领域广泛而且开放,非常适合作为语料用来训练。…

数据, 术→技巧 ·

斯坦福大学的词向量工具:GloVe

GloVe简介 GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具。 Glove与LSA的区别 LSA(Laten…

层次聚类改进算法之Chameleon

Chameleon简介 Chameleon(变色龙)算法是一种两阶段层次聚类算法。在进行两个类簇合并时使用更高的标准,同时考虑了类簇之间的互连性(连接两个子簇的边的权重之和)和近似性(连接两个子簇的边的平均权重),具…

机器学习, 法→原理 ·

层次聚类改进算法之CURE

CURE(Clustering Using Representatives)是一种针对大型数据库的高效的聚类算法。基于层次的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法,可以较好…

机器学习, 法→原理 ·

层次聚类改进算法之BIRCH

BIRCH算法简介 BIRCH算法的全称是Balanced Iterative Reducing and Clustering using Hierarchies,它使用聚类特征来表示一个簇,使用聚类特征树(CF-树)来表示聚类的层次结构,算法思路也是“自底向上”的。 BI…

机器学习聚类算法之层次聚类

层次聚类简介 层次聚类算法(Hierarchical Clustering)将数据集划分为一层一层的clusters,后面一层生成的clusters基于前面一层的结果。层次聚类算法一般分为两类: Divisive 层次聚类:又称自顶向下(top-dow…

Facebook时间序列预测工具fbprophet

Prophet简介 时间序列(Time Series Analysis)作为计量经济学的三大数据形态之一, 比较主流的观点认为,时间序列受四种成分影响: 趋势:宏观、长期、持续性的作用力 周期:比如商品价格在较短时间内,…

机器学习算法之线性判别分析(LDA)

线性判别分析(linear discriminant analysis, LDA)一种常用的数据降维方法,目的是在保持分类的前体下把数据投影至低维空间以降低计算复杂度。在学习LDA之前,有必要将其与自然语言处理领域的LDA区别开来,在自然…

机器学习算法之主成分分析PCA

主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做…