分类: 数据

Python推荐系统库:Surprise

Surprise简介 Surprise(Simple Python Recommendation System Engine)是一款推荐系统库,是scikit系列中的一个。surprise设计时考虑到以下目的: 让用户完美控制他们的实验。为此,特别强调文档,试图通过…

腾讯视频实时推荐系统实践

前面我们学习了 腾讯Item-based CF实时推荐算法,这篇文章延续同样来自腾讯,介绍的是腾讯实时视频推荐系统的实践。内容来自论文: Real-time Video Recommendation Exploration 这篇论文中的内容。 简介 传统的…

数据, 术→技巧 ·

腾讯Item-based CF实时推荐算法

以下内容主要翻译自2015年腾讯发表的论文 TencentRec: Real-time Stream Recommendation in Practice。对于推荐的搭建还是非常有借鉴意义。 简介 传统的推荐系统通过定期(几小时或几天)分析和更新模型并不能满…

数据, 术→技巧 ·

SciPy稀疏矩阵模块scipy.sparse

稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。本文总结几种典型的格式:COO,CSR,DIA,ELL,HYB…

PMML,JAVA调用Python算法模型

公司大部分应用的使用的是JAVA开发,要想使用Python模型非常困难,网上搜索了下,可以先将生成的模型转换为PMML文件后即可在JAVA中直接调用。 PMML简介 模型预测标记语言(Predictive Model Markup Language)是…

数据, 术→技巧, 研发 ·

短文本匹配实战:重复POI识别

项目需求 去除从地图网站抓取的POI数据中的重复数据。示例数据如下: 思考逻辑 POI去重问题,并非简单的文本匹配,按照编辑距离去做,可能会走到沟里去。 不同地方有相同名字的POI点,如: 行政管理…

数据, 术→技巧 ·

电商网站CTR预估实战

在之前的文章中我们学习了CTR常用模型:FM、FFM和DeepFM,也学习了美团搜索广告CTR预估模型的演变。这篇文章主要从实战的角度,梳理CTR算法的使用方法。 数据准备 KASANDR Data Set Abstract: KASANDR is a nove…

数据, 术→技巧 ·

项目学习:美团搜索广告排序实践

在计算广告场景中,需要平衡和优化三个参与方:用户、广告主和平台的关键指标,而预估点击率CTR(Click-through Rate)和转化率CVR(Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提高流量变现效…

数据, 术→技巧 ·

国外地理数据问题防范

2017年国家测绘地理信息局发布的《“问题地图”清查工作指南》中列出了绘图中应避免的 若干错误。下面列出了绘制中国全图时的常见注意事项: 阿克赛钦地区正确表示 藏南地区正确表示 钓鱼岛、赤尾屿位置正…

数据, 术→技巧, 研发 ·

经纬度与坐标系转换

WGS-84坐标系 通常,我们所说的地球地理经纬度是WGS-84坐标系(World Geodetic System-1984 Coordinate System)的经纬度。WGS-84坐标系是在1984年制定的全球坐标系,这个坐标系上的每一点经纬度能够精确映射到地…

数据, 术→技巧, 研发 ·