所有文章

Jpuyter中使用PySpark连接Hive

公司的Jupyter环境支持PySpark。这样就可以非常方便的使用PySpark连接到Hive查询和使用。由于先前完全没有接触过Spark,所以整理了一些参考资料。 Spark Context PySpark里最核心的模块是SparkContext(简称sc),…

使用Python进行压缩与解压缩

在日常工作中,除了会涉及到使用Python处理文本文件,有时候还会涉及对压缩文件的处理。 通常会涉及到的压缩文件格式有: rar:Windows 环境下用的比较多的压缩,比较著名的GUI工具是winrar tar: Li…

力场分析:获客、转移和留存

在日常的工作中我们经常会遇到如何获客、如何转移用户(从PC站转移到APP、从小程序转移到APP)和如何挽留用户。个人认为以上的任务都可以通过力场分析来切入。 力场分析法 力场分析法(Force Field Analysis),由…

术→技巧, 营销 ·

线性回归实战:波士顿房价预测

了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit和Statsmodels。 数据集的准备 美国波士顿房价的数据集是sklearn里面默认的数据集,sklearn内置的数据集都位于…

数据, 术→技巧 ·

Python中break/continue/pass的区别

Python中可以使用两种类型的循环:for循环和while循环。您可以将它们用于重复任务。因此,重复性任务将自动发生,使流程更加高效。不幸的是,您的循环可能会遇到一些问题。有时,您的程序可能会遇到问题,需要它跳…

器→工具, 编程语言 ·

游戏排名算法:Elo、Glicko、TrueSkill

Elo等级分制度 Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球…

数据, 术→技巧 ·

WordPress LaTeX插件的安装与使用

LaTeX简介 LaTeX 是一个强大的排版工具,一般场景很少会接触,但是在数学领域却用的非常的多,主要原因是他可以非常方便的生成各种数学公式。想要学会怎么使用LaTeX只需学会几个简单的概念即可。 显示模式 …

器→工具, 开源项目 ·

自然语言分析之汉字转拼音

在自然语言的处理中语义分析中,除了需要拆解字形外,字音有时也能表示含义。另外,在搭建搜索引擎时在搜索词query分析是也会的用到汉字转拼音或拼音转汉字的场景。 Python已经有很多包支持类似的功能,整理…

器→工具, 开源项目 ·

策略产品我的认识与理解

什么是策略产品? 产品经理的一个经典定义是产品的CEO,是为产品结果负责的人。随着互联网的发展,交互方式已经形成用户习惯,产品的竞争从前端交互设计的战场转移到了内部系统的战场,而这也导致策略产品经理有更…

基于决策树的特征重要性评估

在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_…

数据, 术→技巧 ·