在使用Pandas分析数据时,除了读取文本类数据,如Excel、CSV文件外,还会涉及到数据库的读取。通常的方案是Pandas+SQLAlchemy。 以下内容是记录的一些操作记录,算是备忘。 使用sqlalchemy连接数据库 Engine翻译…
在使用Pandas处理数据时,有时需要多数据进行合并和连接操作,最常用的包括将多个分割的文件进行合并: import pandas as pd import glob file_list = glob.glob('data/*') df_list = [] for file in file_list: …
决策树相对其他算法有一个优点是可以对决策树模型进行可视化。决策树又分为分类树和回归树,前者用于预测分类后者用于预测数值。决策树的可视化可以帮助我们非常直观的了解算法细节。但在具体使用过程中可能会遇到…
公司的 Jupyter 环境支持 PySpark。这样就可以非常方便的使用 PySpark 连接到 Hive 查询和使用。由于先前完全没有接触过 Spark,所以整理了一些参考资料。 SparkContext PySpark 里最核心的模块是 SparkContext(…
在日常工作中,除了会涉及到使用Python处理文本文件,有时候还会涉及对压缩文件的处理。 通常会涉及到的压缩文件格式有: rar:Windows环境下用的比较多的压缩,比较著名的GUI工具是winrar tar:Linux系统下的…
在日常的工作中我们经常会遇到如何获客、如何转移用户(从PC站转移到APP、从小程序转移到APP)和如何挽留用户。个人认为以上的任务都可以通过力场分析来切入。 力场分析法 力场分析法(Force Field Analysis),由库…
了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit 和 Statsmodels。 数据集的准备 美国波士顿房价的数据集是 sklearn 里面默认的数据集,sklearn 内置的数据集都…
Python中可以使用两种类型的循环:for循环和while循环。您可以将它们用于重复任务。因此,重复性任务将自动发生,使流程更加高效。不幸的是,您的循环可能会遇到一些问题。有时,您的程序可能会遇到问题,需要它跳…
Elo等级分制度 Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球、…
LaTeX简介 LaTeX是一个强大的排版工具,一般场景很少会接触,但是在数学领域却用的非常的多,主要原因是他可以非常方便的生成各种数学公式。想要学会怎么使用LaTeX只需学会几个简单的概念即可。 显示模式 显示…