在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用Pandas预览一部分数据。今天要介绍的Pandas-Profiling工具可以使得以上的流程更加简单。
Pandas-Profiling的安装与使用
Pandas-Profiling的安装非常简单,直接使用Pip安装即可:
pip install pandas-profiling
Pandas-Profiling的使用也非常简单,一行代码即可搞定,这里使用titanic_dataset做演示:
import pandas as pd from pandas_profiling import ProfileReport df = pd.read_csv("data/titanic_dataset.csv") prof = ProfileReport(df) prof.to_file(output_file="output.html")
Pandas-Profiling ProfileReport详解
总体信息:
- 变量数(列)、观察数(行)、数据缺失率、内存
- 数据类型的分布情况
警告信息:
- 要点:类型,唯一值,缺失值
- 分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
- 描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度
单变量描述:对每个变量进行描述解析
相互关系(双变量):
相关性分析:突出高度相关变量
丢失数据:
数据预览:
参考链接: