Pandas学习笔记之数据类型

13 sec read

Pandas是建立在Numpy上,并与其他第三方库在科学运算环境中有较好兼容性的包。其最大的特色在于提供灵活直观的数据结构来处理关联和有标签的数据。如果从底层视角观察Pandas,可以把它看成增强版的NumPy结构化数据,行列都不再只是简单的整数索引,还可以带上标签。

Pandas提供了两大数据结构:一维结构的Series类型数据和二维结构的DataFrame数据。这两大数据结构都有数据标签这一独特的性质,数据标签能够对不同变量的数据按照相同数据标签进行汇总,为多个变量的特定数据提取、变量合并等操作分析提供了极大的遍历。因而,Pandas被广泛运用于金融、统计以及社会科学领域的数据处理。

Series

Series是一种类似与一维数组的对象,它由一组数据以及一组与之相关的数据便签(即索引)组成,仅由一组数据即可产生最简单的Series。

示例:

系统会自动为Series数据创建整数索引,可通过series的values和index属性获取其数组表示形式和索引对象,这与字典型数据的keys(),values()类似。

同时我们在创建Series时也可以自定义索引值,示例:

另外,也可以将字典转换为series:

DataFrame

DataFrame是一个表格型数据,含有一组有序的列,每一列可以是不同的类型值。DataFrame可以看成是由多个Series组成的字典,它们共用一个索引。

在构建DataFrame时,最最常用的就是先创建一个data,data一般可以是字典和数组,再用a=DataFrame(data)来转换为DataFrame结构。在DataFrame(data)时也可以同时传入index和columns参数,两个参数必须是列表型。

构建DataFrame最常见的方法是传入一个由等长列表或数组组成的字典:

也可以为DataFrame指定索引:

另外也可以将字典列表直接转换成DataFrame:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Python进行相关性分析

在数据分析时,经常会针对两个变量进行相关性分析。在Python中主要用到的方法是pandas中的corr()方
42 sec read

一维数组的聚类

需求:分析订单的价格分布 方案:按照100为梯度,分析不同价格区间的订单量 缺陷:现实生活中,定价存在一些自然
1 min read

Pandas学习笔记:Excel、CSV文件的读取与导出

在使用Pandas处理数据时,常见的读取数据的方式时从Excel或CSV文件中获取,另外有时也会需要将处理完的
2 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注