Pandas学习笔记之分组统计

Pandas中的统计函数

随机生成三组数据用于测试:

Pandas中常用的统计函数:

  • count() #非空元素计算
  • size() #包含NaN的计数
  • min() #最小值
  • max() #最大值
  • idxmin() #最小值的位置,类似于R中的which.min函数
  • idxmax() #最大值的位置,类似于R中的which.max函数
  • quantile(0.1) #10%分位数
  • sum() #求和
  • mean() #均值
  • median() #中位数
  • mode() #众数
  • var() #方差
  • std() #标准差
  • mad() #平均绝对偏差
  • skew() #偏度
  • kurt() #峰度

当我们想查看DataFrame每列数据的时候,可以自定义一个函数方便的将统计指标汇总在一起:

查看方法:

Pandas中的describe()

Pandas中的describe()方法可以针对Series和DataFrame。使用时的一个小技巧,可以通过设置include或exclude,只查看需要查看的列。

比如:

Pandas中的分组groupby()

最简单的方式,指定要进行分组的列和统计函数:

df.groupby(by=['col1','col2']).size()

通常统计出来的值没有列名,通过此方法可指定列名:

groupby结合agg进行聚合:

以上代码与以下SQL类型:

添加列名:

key1 = df.groupby(["key1"], as_index=False)["data1"].agg({"aa" : "count"})

参考链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby

Pandas中的排序sort_values()

使用方法:

df.sort_values(by=['col1'], ascending=True)

参考链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_values#pandas.DataFrame.sort_values

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

机器学习在旅游与酒店个性化的研究

当我们访问Netflix、 YouTube 或Amazon时,我们认为个性化推荐是理所当然的。这些服务已经探索

机器学习: 商业与数据科学之间的桥梁

每次我们谈论自动驾驶汽车、聊天机器人、 AlphaGo 或者预测分析,都会涉及到一些机器学习技术的实现。在公众

Python检验数据是否正态分布

判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起

发表评论

电子邮件地址不会被公开。 必填项已用*标注