钱魏Way

654篇文章

Pandas+SQLAlchemy与数据库交互

在使用Pandas分析数据时,除了读取文本类数据,如Excel、CSV文件外,还会涉及到数据库的读取。通常的方案是Pandas+ SQLAlchemy。 以下内容是记录的一些操作记录,算是备忘。 使用sqlalchemy连接数据库 Eng…

Pandas中DataFrame的合并与连接

在使用Pandas处理数据时,有时需要多数据进行合并和连接操作,最常用的包括将多个分割的文件进行合并: import pandas as pd import glob file_list = glob.glob('data/*') df_list = [] for file in file_l…

决策树可视化方法与技巧

决策树相对其他算法有一个优点是可以对决策树模型进行可视化。决策树又分为分类树和回归树,前者用于预测分类后者用于预测数值。决策树的可视化可以帮助我们非常直观的了解算法细节。但在具体使用过程中可能会遇到…

数据, 术→技巧 ·

Jpuyter中使用PySpark连接Hive

公司的Jupyter环境支持PySpark。这样就可以非常方便的使用PySpark连接到Hive查询和使用。由于先前完全没有接触过Spark,所以整理了一些参考资料。 Spark Context PySpark里最核心的模块是SparkContext(简称sc),…

使用Python进行压缩与解压缩

在日常工作中,除了会涉及到使用Python处理文本文件,有时候还会涉及对压缩文件的处理。 通常会涉及到的压缩文件格式有: rar:Windows 环境下用的比较多的压缩,比较著名的GUI工具是winrar tar: Li…

力场分析:获客、转移和留存

在日常的工作中我们经常会遇到如何获客、如何转移用户(从PC站转移到APP、从小程序转移到APP)和如何挽留用户。个人认为以上的任务都可以通过力场分析来切入。 力场分析法 力场分析法(Force Field Analysis),由…

术→技巧, 营销 ·

线性回归实战:波士顿房价预测

了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit和Statsmodels。 数据集的准备 美国波士顿房价的数据集是sklearn里面默认的数据集,sklearn内置的数据集都位于…

数据, 术→技巧 ·

Python中break/continue/pass的区别

Python中可以使用两种类型的循环:for循环和while循环。您可以将它们用于重复任务。因此,重复性任务将自动发生,使流程更加高效。不幸的是,您的循环可能会遇到一些问题。有时,您的程序可能会遇到问题,需要它跳…

器→工具, 编程语言 ·

游戏排名算法:Elo、Glicko、TrueSkill

Elo等级分制度 Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球…

数据, 术→技巧 ·

WordPress LaTeX插件的安装与使用

LaTeX简介 LaTeX 是一个强大的排版工具,一般场景很少会接触,但是在数学领域却用的非常的多,主要原因是他可以非常方便的生成各种数学公式。想要学会怎么使用LaTeX只需学会几个简单的概念即可。 显示模式 …

器→工具, 开源项目 ·