数据探索Pandas-Profiling与Dataprep.eda

在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profiling是个非常不错的工具,它可以帮你快速生成数据概览。

Pandas-Profiling

Pandas-Profiling的安装与使用

Pandas-Profiling的安装非常简单,直接使用Pip安装即可:

Pandas-Profiling的使用也非常简单,一行代码即可搞定,这里使用titanic_dataset做演示:

Pandas-Profiling ProfileReport详解

总体信息

  • 变量数(列)、观察数(行)、数据缺失率、内存
  • 数据类型的分布情况

警告信息:

  • 要点:类型,唯一值,缺失值
  • 分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
  • 描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度

单变量描述:对每个变量进行描述解析

相互关系(双变量)

相关性分析:突出高度相关变量

丢失数据:

数据预览:

参考链接:

Dataprep.eda

Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的分析框架与当前EDA的最佳实践背道而驰。

Dataprep.eda(2020)是一个 Python 库,它支持迭代和以任务为中心的分析,就像 EDA 注定要做的那样。dataprep.eda比Pandas-profiling更适合进行探索分析主要有以下四点:

1.更好的 API 设计

dataprep.eda 中的 plot ()函数。为了理解如何使用这个函数有效地执行 EDA,下面给出了分析人员意图的函数调用的语法:

  • plot(df):我想要一个数据集的概览
  • plot(df, “col_1”):我想要深入了解col_1这一列
  • plot(df, “col_1”, “col_2”):我想了解col_1与col_2之间的关系

为了看到这一点的实际应用,我们将使用一个韩国新冠肺炎数据集,我们从数据集的概述开始:

注意到birth_year这有一个双峰分布,让我们了解更多关于这个列的信息:

接下来,让我们调查感染新冠肺炎的男性和女性的年龄分布。 为此,我们只需在前面的函数调用中添加列 sex:

而相对的使用pandas-profiling无法达到相同的效果

另外就是交互式的功能,Dataprep.eda底层使用了Bokeh,所以可以看到很多细节的提示信息,pandas-profiling并不支持。

2. Dataprep.eda比pandas-profiling快100倍

Dataprep.eda比pandas-profiling更快的主要原因:

  • 使用并行计算的Dask来替代Pandas处理数据
  • eda每次只创建于任务相关的可视化,减少了不必要的计算,而pandas-profiling是整个数据集的概要文件。

3. 智能可视化

dataprep.eda包含的一些智能特性:

  • 为每个 EDA 任务选择正确的图形来可视化数据
  • 列类型推断(数字型、类别型和日期时间型)
  • 选择合适的时间单位(用户也可以指定)
  • 对数量庞大的类型数据输出清晰的可视化方案(用户也可以指定)

4. 处理大数据

使用 Dask 的 Dataprep.eda 可以处理比内存数据集更大的数据集。 支持核外处理和并行处理,因此可以有效地评估非常大数据集上的计算。

参考链接:

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

机器学习在旅游与酒店个性化的研究

当我们访问Netflix、 YouTube 或Amazon时,我们认为个性化推荐是理所当然的。这些服务已经探索

机器学习: 商业与数据科学之间的桥梁

每次我们谈论自动驾驶汽车、聊天机器人、 AlphaGo 或者预测分析,都会涉及到一些机器学习技术的实现。在公众

Python检验数据是否正态分布

判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起

发表评论

电子邮件地址不会被公开。 必填项已用*标注