分类: 开源项目

空间索引之 Google S2

在空间索引类问题中,一个最普遍而又最重要的问题是:给定你某个点的坐标,你如何能够在海量的数据点中找到他所在的区域以及最靠近他的点?”,比方说客户在路上突然想吃饭了,那么就要根据他的位置查询最近的餐馆并…

词向量实战:Word2Vec、FastText、Glove

之前的文章详细介绍Google的词向量工具Word2Vec、Facebook的词向量工具FastText、斯坦福大学词向量工具Glove。之前的文章主要从原理层面进行了介绍。今天想要分享的只要内容是如何使用这些工具。及比较针对相同的训…

腾讯AI Lab中文词向量数据使用

近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量…

Facebook时间序列预测工具fbprophet

Prophet简介 时间序列(Time Series Analysis)作为计量经济学的三大数据形态之一, 比较主流的观点认为,时间序列受四种成分影响: 趋势:宏观、长期、持续性的作用力 周期:比如商品价格在较短时间内,…

Netflix异常检测工具Surus初探

Surus简介 Surus是NetFlix开源的UDFs,是基于pig和hive的数据分析工具。Surus中的功能能够解决多种多样的问题,例如评分预测模型、异常检测与模式匹配等。目前开源的UDF功能主要包括两个,包括ScorePMML和Robust A…

数据分析查询引擎Impala初探

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理…

器→工具, 开源项目 ·