器→工具, 工具软件

数据探索工具Pandas-Profiling

钱魏Way · · 147 次浏览

在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用Pandas预览一部分数据。今天要介绍的Pandas-Profiling工具可以使得以上的流程更加简单。

Pandas-Profiling的安装与使用

Pandas-Profiling的安装非常简单,直接使用Pip安装即可:

pip install pandas-profiling

Pandas-Profiling的使用也非常简单,一行代码即可搞定,这里使用titanic_dataset做演示:

import pandas as pd
from pandas_profiling import ProfileReport

df = pd.read_csv("data/titanic_dataset.csv")

prof = ProfileReport(df)
prof.to_file(output_file="output.html")

Pandas-Profiling ProfileReport详解

总体信息

  • 变量数(列)、观察数(行)、数据缺失率、内存
  • 数据类型的分布情况

警告信息:

  • 要点:类型,唯一值,缺失值
  • 分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
  • 描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度

单变量描述:对每个变量进行描述解析

相互关系(双变量)

相关性分析:突出高度相关变量

丢失数据:

数据预览:

参考链接:

发表评论

邮箱地址不会被公开。 必填项已用*标注