其他分享
首页 > 其他分享> > pandas最快入门(一)

pandas最快入门(一)

作者:互联网

pandas读取文件

读取csv文件
import pandas as pd
#读取csv文件
fpath="test.csv"
df=pd.read_csv(fpath,encoding='gbk')
#查看前几行
df.head()
编号操作方式催化剂总质量(mg)HAP:Co/SiO2Co/SiO2(wt%)乙醇浓度(ml/min)温度乙醇转化率(%)乙烯选择性(%)C4烯烃选择性(%)乙醛选择性(%)碳数为4-12脂肪醇选择性(%)甲基苯甲醛和甲基苯甲醇选择性(%)其他生成物的选择性(%)C4烯烃收率(乙醇转化率*C4烯烃选择性)
0114001.01.01.682502.071.1734.052.4152.590.009.780.703871
1114001.01.01.682755.851.6337.431.4253.210.006.312.190299
2114001.01.01.6830014.973.0246.944.7135.161.009.177.026398
3114001.01.01.6832519.687.9749.7014.6915.162.1310.359.781635
4114001.01.01.6835036.8012.4647.2118.669.221.6910.7617.373760
#查看形状
df.shape
(114, 15)
#查看属性
df.columns
Index(['编号', '操作方式', '催化剂总质量(mg)', 'HAP:Co/SiO2', 'Co/SiO2(wt%)',
       '乙醇浓度(ml/min)', '温度', '乙醇转化率(%)', '乙烯选择性(%)', 'C4烯烃选择性(%)', '乙醛选择性(%)',
       '碳数为4-12脂肪醇选择性(%)', '甲基苯甲醛和甲基苯甲醇选择性(%)', '其他生成物的选择性(%)',
       'C4烯烃收率(乙醇转化率*C4烯烃选择性)'],
      dtype='object')
#查看索引
df.index
RangeIndex(start=0, stop=114, step=1)
读取txt文件
#当header=None即没有标题时可以手动指定names=
fpath='book.txt'
df=pd.read_csv(fpath,
              sep="\t",
              #header=True,
              #names=['x','y','z']
              )
df
序号 书名 分类
01 HTML5+CSS3+JavaScript从入门到精通(标准版) ...
12 JavaWeb项目开发实战入门(全彩版) ...
23 案例学WEB前端开发 ...
34 一看就停不下来的中国史 ...
45 显微镜下的大明 ...
5​ ...
读取excel文件
fpath='test.xlsx'
df=pd.read_excel(fpath)
df.head()
编号操作方式催化剂总质量(mg)HAP:Co/SiO2Co/SiO2(wt%)乙醇浓度(ml/min)温度乙醇转化率(%)乙烯选择性(%)C4烯烃选择性(%)乙醛选择性(%)碳数为4-12脂肪醇选择性(%)甲基苯甲醛和甲基苯甲醇选择性(%)其他生成物的选择性(%)C4烯烃收率(乙醇转化率*C4烯烃选择性)
0114001.01.01.682502.0671691.1734.052.4152.590.009.780.703871
1114001.01.01.682755.8517211.6337.431.4253.210.006.312.190299
2114001.01.01.6830014.9688913.0246.944.7135.161.009.177.026398
3114001.01.01.6832519.6813597.9749.7014.6915.162.1310.359.781635
4114001.01.01.6835036.80101712.4647.2118.669.221.6910.7617.373760
读取mysql表
#此处只给出范例,请连接自己的数据库再使用
import pymssql
#连接信息
con=pymssql.connect(host='127.0.0.1',
                   user='root',
                   password='1234567',
                   database='test',
                   charset='utf-8'
                   )
#sql语句+连接信息
df=pd.read_sql("select * from teaches",con=con)
df.head()

panda数据结构

DataFrame:二维数据,整个表格,部分矩表二维表格也是DataFrame

Series:一维数据,行或者列,部分行列也是Series

列表创建series
s1=pd.Series([1,'a',5.2,7],
            index=['b','c','d','e'])
s1
b      1
c      a
d    5.2
e      7
dtype: object
s1.index
Index(['b', 'c', 'd', 'e'], dtype='object')
字典创建series
#使用字典方式创建,可以使用字典方式访问
dict={'a':1,
     'b':2,
      'c':3,
      'd':4}
s=pd.Series(dict)
s
a    1
b    2
c    3
d    4
dtype: int64
print(s['a'])
print(type(s['a']))
print(s[['a','b']])
print(type(s[['a','b']]))
1
<class 'numpy.int64'>
a    1
b    2
dtype: int64
<class 'pandas.core.series.Series'>
多个字典创建DataFrame
dict={'a':[1,9,1],
     'b':[2,1,7],
      'c':[1,2,5],
      'd':[6,3,0]}
df=pd.DataFrame(dict)
df
abcd
01216
19123
21750
df.columns
Index(['a', 'b', 'c', 'd'], dtype='object')
df.index
RangeIndex(start=0, stop=3, step=1)
df.dtypes
a    int64
b    int64
c    int64
d    int64
dtype: object
DataFrame中查询Series
#查询单列是Series
df['a']
0    1
1    9
2    1
Name: a, dtype: int64
#查询多列(行)也是DataFrame
df[['a','d']]
ad
016
193
210
#查询一行
df.loc[1]
a    9
b    1
c    2
d    3
Name: 1, dtype: int64
#查询多行
df.loc[1:3]
abcd
19123
21750

源代码和相应数据下载请点击 https://github.com/MiaoChenglin125/Data-Acquisition/tree/master/pandas%E6%93%8D%E4%BD%9C

标签:入门,df,最快,选择性,int64,pd,dtype,pandas,C4
来源: https://blog.csdn.net/m0_48856561/article/details/120576479