分类: 术→技巧

Jpuyter中使用PySpark连接Hive

公司的 Jupyter 环境支持 PySpark。这样就可以非常方便的使用 PySpark 连接到 Hive 查询和使用。由于先前完全没有接触过 Spark,所以整理了一些参考资料。 SparkContext PySpark 里最核心的模块是 SparkContext(…

使用Python进行压缩与解压缩

在日常工作中,除了会涉及到使用Python处理文本文件,有时候还会涉及对压缩文件的处理。 通常会涉及到的压缩文件格式有: rar:Windows环境下用的比较多的压缩,比较著名的GUI工具是winrar tar:Linux系统下的…

力场分析:获客、转移和留存

在日常的工作中我们经常会遇到如何获客、如何转移用户(从PC站转移到APP、从小程序转移到APP)和如何挽留用户。个人认为以上的任务都可以通过力场分析来切入。 力场分析法 力场分析法(Force Field Analysis),由库…

术→技巧, 营销 ·

线性回归实战:波士顿房价预测

了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit 和 Statsmodels。 数据集的准备 美国波士顿房价的数据集是 sklearn 里面默认的数据集,sklearn 内置的数据集都…

数据, 术→技巧 ·

游戏排名算法:Elo、Glicko、TrueSkill

Elo等级分制度 Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球、…

数据, 术→技巧 ·

策略产品我的认识与理解

什么是策略产品? 产品经理的一个经典定义是产品的CEO,是为产品结果负责的人。随着互联网的发展,交互方式已经形成用户习惯,产品的竞争从前端交互设计的战场转移到了内部系统的战场,而这也导致策略产品经理有更…

基于决策树的特征重要性评估

在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_属…

数据, 术→技巧 ·

自然语言分析之汉字拆解

汉字是记录汉语的文字。汉字对发展中华民族的优秀文化起了重大的作用。汉字是世界上最古老的文字之一。汉字以象形字为基础,形、音、义、结合于一体,成为独特的方块形的表意体系的文字。 汉字的特点: 汉字的…

Learning to Rank算法学习之GBRank

GBRank是一种pair-wise的学习排序算法,他是基于回归来解决pair对的先后排序问题。在GBRank中,使用的回归算法是梯度提升数GBT (Gradient Boosting Tree) 算法原理 Learning To Rank需要解决的问题是给定一个Query…

推荐系统:从千人千面到千域千面

谈到推荐系统,很多人的印象中是“个人性推荐”和“千人千面”。关于“千域千面”应该很少人提及,主要能用到的场景不多,先前有想过在酒店场景上应用,但是由于各种原因最终没有尝试。以下是高德地图在“千域千面”的一些…