分类: 术→技巧

矩阵分解之交替最小二乘ALS

ALS(alternating least squares) ALS是交替最小二乘的简称。在机器学习中,ALS特指使用交替最小二乘求解的一个协同推荐算法。如:将用户(user)对商品(item)的评分矩阵分解成2个矩阵: user对item 潜在…

矩阵分解之SVD奇异值分解

什么是SVD? 奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分解,在生物信息学、信号处理、金融学、统计学等领域有重要应用,SVD都是提取信息的强度工具。在机器学习领域,很多应用与奇…

推荐算法之矩阵分解

矩阵分解简介 推荐领域的人一般都会听说过十年前 Netflix Prize 的比赛,随着Netflix Prize推荐比赛的成功举办,近年来隐语义模型(Latent Factor MOdel,LFM)受到越来越多的关注。隐语义模型最早在文本挖掘领域…

CTR预估模型FM、FFM、DeepFM

点击率(click-through rate, CTR) 是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。它通常用于衡量某个网站的在线广告活动是否成功,以及电子邮件活动的有效性,是互联网公司进行流量分配的核心…

空间索引之Uber H3

网格系统(Grid System)对于分析海量空间数据集,将地球空间划分为可识别的网格单元(cell)至关重要。H3是由Uber开源的一个六边形分层索引网格系统,也是最近几年实现数据聚合的主要趋势,在H3出现之前大部分情况采用…

数据, 术→技巧 ·

空间索引之GeoHash

Geohash简介 Geohash是一种地址编码,它能把二维的经纬度编码成一维的字符串。比如,北海公园的编码是wx4g0ec1。 Geohash有以下几个特点: Geohash用一个字符串表示经度和纬度两个坐标。在数据存储时可以…

数据, 术→技巧 ·

数据可视化之直方图

直方图简介 在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式具体表现。因为直方图…

数据, 术→技巧 ·

知乎话题结构数据库设计

先前一直在研究好的树形结构的数据存储方案,也分析了关系数据库中各种树形结构数据的设计。但是仔细分析下来离自己想要实现的树形结构的数据还是有一些差距。前端时间看了下知乎的树形的话题结构,发现目前知乎的…

术→技巧, 研发 ·

MySQL 高性能存储引擎TokuDB

在安装MariaDB的时候了解到代替InnoDB的TokuDB,看简介非常的棒,这里对ToduDB做一个初步的整理,使用后再做更多的分享。 什么是TokuDB? 在MySQL最流行的支持全事务的引擎为INNODB。其特点是数据本身是用B-TREE…

术→技巧, 研发 ·

树形结构数据数据库存储方案

在程序开发中,我们常遇到用树型结构来表示某些数据间的关系,如企业的组织架构、商品的分类、操作栏目等,目前的关系型数据库都是以二维表的形式记录存储数据,而树型结构的数据如需存入二维表就必须进行Schema设…

术→技巧, 研发 ·