其他分享
首页 > 其他分享> > pandas库

pandas库

作者:互联网

pandas是python第三方库,提供高性能易用数据类型和分析工具。

pandas基于numpy实现,常与numpy和matplotlib一同使用

更多学习,请参考pandas中文网:https://www.pypandas.cn/

目录

1.Series

2.DataFrame


1.Series

Series是一种类似于一维数组的对象,它由一维数组(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成.

可理解为带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。

import pandas as pd
import numpy as np

s = pd.Series(['a','b','c','d','e'])
print(s)
运行结果:
0    a
1    b
2    c
3    d
4    e
dtype: object

Seris中可以使用index设置索引列表。

与字典不同的是,Seris允许索引重复

#与字典不同的是:Series允许索引重复
s = pd.Series(['a','b','c','d','e'],index=[100,200,100,400,500])
print(s)
运行结果:
100    a
200    b
100    c
400    d
500    e
dtype: object

Series 可以用字典实例化

d = {'b': 1, 'a': 0, 'c': 2}
pd.Series(d)
运行结果:
b    1
a    0
c    2
dtype: int64

可以通过Series的values和index属性获取其数组表示形式和索引对象

print(s)
print(s.values)
print(s.index)
运行结果:
100    a
200    b
100    c
400    d
500    e
dtype: object
['a' 'b' 'c' 'd' 'e']
Int64Index([100, 200, 100, 400, 500], dtype='int64')
#与普通numpy数组相比,可以通过索引的方式选取Series中的单个或一组值
print(s[100])
print(s[[400, 500]])

运行结果:

100    a
100    c
dtype: object
400    d
500    e
dtype: object

索引反置

s = pd.Series(np.array([1,2,3,4,5]), index=['a', 'b', 'c', 'd', 'e'])
print(s)

#对应元素求和
print(s+s)

#对应元素乘
print(s*3)
运行结果:
a    1
b    2
c    3
d    4
e    5
dtype: int64
a     2
b     4
c     6
d     8
e    10
dtype: int64
a     3
b     6
c     9
d    12
e    15
dtype: int64

Series中最重要的一个功能是:它会在算术运算中自动对齐不同索引的数据

Series 和多维数组的主要区别在于, Series 之间的操作会自动基于标签对齐数据。因此,不用顾及执行计算操作的 Series 是否有相同的标签。

其中两次运算中只有一个数即为NAN

obj1 = pd.Series({"Ohio": 35000, "Oregon": 16000, "Texas": 71000, "Utah": 5000})
print(obj1)
obj2 = pd.Series({"California": np.nan, "Ohio": 35000, "Oregon": 16000, "Texas": 71000})
print(obj2)
print(obj1 + obj2)

运行结果:

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64
s = pd.Series(np.array([1,2,3,4,5]), index=['a', 'b', 'c', 'd', 'e'])

print(s[1:])

print(s[:-1])

print(s[1:] + s[:-1])

运行结果:

b    2
c    3
d    4
e    5
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64
a    NaN
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

2.DataFrame

 

DataFrame是一个表格型的数据结构,类似于Excel或sql表

它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)

DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)

用多维数组字典、列表字典生成 DataFrame

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = pd.DataFrame(data)
print(frame)
运行结果:
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
#如果指定了列顺序,则DataFrame的列就会按照指定顺序进行排列          #columns排序

frame1 = pd.DataFrame(data, columns=['year', 'state', 'pop'])

print(frame1)

运行结果:

   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9

跟原Series一样,如果传入的列在数据中找不到,就会产生NAN值


frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])
print(frame2)

#通过类似字典标记的方式或属性的方式,可以将DataFrame的列获取为一个Series,返回的Series拥有原DataFrame相同的索引

print(frame2['state'])

运行结果:

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

用 Series 字典或字典生成 DataFrame

d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
print(pd.DataFrame(d))

运行结果:

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0

列可以通过赋值的方式进行修改,例如,给那个空的“delt”列赋上一个标量值或一组值

frame2['debt'] = 16.5
print(frame2)
运行结果:
       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5

乘法:

print(frame2)
frame2['new'] = frame2['debt' ]* frame2['pop'] 
print(frame2)

运行结果:

       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
       year   state  pop  debt    new
one    2000    Ohio  1.5  16.5  24.75
two    2001    Ohio  1.7  16.5  28.05
three  2002    Ohio  3.6  16.5  59.40
four   2001  Nevada  2.4  16.5  39.60
five   2002  Nevada  2.9  16.5  47.85

随机数:

frame2['debt'] = np.arange(5.)
print(frame2)

运行结果:

       year   state  pop  debt    new
one    2000    Ohio  1.5   0.0  24.75
two    2001    Ohio  1.7   1.0  28.05
three  2002    Ohio  3.6   2.0  59.40
four   2001  Nevada  2.4   3.0  39.60
five   2002  Nevada  2.9   4.0  47.85

标签:dtype,16.5,Series,print,Ohio,Nevada,pandas
来源: https://blog.csdn.net/qq_45986917/article/details/122677091