数据探索工具Pandas-Profiling

文章内容如有错误或排版问题，请提交反馈，非常感谢！

在使用数据进行机器学习前，通常会对已有的数据进行初步的观察，包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用 Pandas 预览一部分数据。今天要介绍的 Pandas-Profiling 工具可以使得以上的流程更加简单。

Pandas-Profiling 的安装与使用

Pandas-Profiling 的安装非常简单，直接使用 Pip 安装即可：

pip install pandas-profiling

Pandas-Profiling 的使用也非常简单，一行代码即可搞定，这里使用titanic_dataset 做演示：

import pandas as pd
from pandas_profiling import ProfileReport

df = pd.read_csv("data/titanic_dataset.csv")

prof = ProfileReport(df)
prof.to_file(output_file="output.html")

Pandas-Profiling ProfileReport 详解

总体信息：

变量数(列)、观察数(行)、数据缺失率、内存
数据类型的分布情况

警告信息：

要点：类型，唯一值，缺失值
分位数统计量，如最小值，Q1，中位数，Q3，最大值，范围，四分位数范围
描述性统计数据，如均值，模式，标准差，总和，中位数绝对偏差，变异系数，峰度，偏度

单变量描述：对每个变量进行描述解析

相互关系（双变量）：

相关性分析：突出高度相关变量

丢失数据：

数据预览：

参考链接：

数据探索工具Pandas-Profiling

Pandas-Profiling 的安装与使用

Pandas-Profiling ProfileReport 详解

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

移动端自动化测试工具Appium

发表回复取消回复

数据探索工具Pandas-Profiling

Pandas-Profiling 的安装与使用

Pandas-Profiling ProfileReport 详解

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

移动端自动化测试工具Appium

发表回复 取消回复

发表回复取消回复