时序分析(Time Series Analysis)是一种统计方法,用于分析按时间顺序排列的一系列数据点。其主要目的是识别数据中的模式,如趋势、周期性和季节性变化,以便进行预测和解释。时序分析在金融、经济学、气象学、库…
对于很多数据分析的同学来说,最熟悉的莫过于SQL(相关SQL教程见产品&运营分析技能培训:Hive SQL),针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上…
在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Panda…
在使用Pandas分析数据时,除了读取文本类数据,如Excel、CSV文件外,还会涉及到数据库的读取。通常的方案是Pandas+ SQLAlchemy。 以下内容是记录的一些操作记录,算是备忘。 使用sqlalchemy连接数据库 Eng…
在使用Pandas处理数据时,有时需要多数据进行合并和连接操作,最常用的包括将多个分割的文件进行合并: import pandas as pd import glob file_list = glob.glob('data/*') df_list = [] for file in file_l…
Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解…
在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用Pandas预览一部分数据。今天要介绍的Pandas-Profiling工具可以使得以上的流程…
在使用Pandas处理数据时,常见的读取数据的方式时从Excel或CSV文件中获取,另外有时也会需要将处理完的数据输出为Excel或CSV文件。今天就一起来学习下Pandas常见的文件读取与导出的方法。 加载Excel文件 在Pa…