其他分享
首页 > 其他分享> > 数据预处理

数据预处理

作者:互联网

data.xlsx 数据如下
1 # -*- coding: utf-8 -*-
 2 # 我们必须进行数据预处理 它直接关系到分析结果的准确性 处理缺失值 数据重复值
 3 # 检查缺失值  检测缺失值最简单的方法就是调用info()方法 通过观察每一列的非空值 即可判断出哪些列存在缺失值
 4 # any() 一个序列中有一个True,则返回True。否则返回False
 5 import pandas as pd
 6 
 7 df = pd.read_excel('file/data.xlsx')
 8 
 9 
10 # 还有一种检测是否存在缺失值的方法 既isnull()方法搭配any()方法
11 def isnull_demo():
12     print(df)
13     print(df.isnull())
14 
15 
16 # isnull() 对于缺失值 返回True;对于非缺失值,返回False
17 def isnull_demo_any():
18     print(df.isnull().any())
19 
20 
21 # 检测重复数据 duplicated()方法 作用:可以检测重复值
22 def duplicated_demo():
23     print(df.duplicated())
24     print(df.duplicated().any())
25 
26 
27 # 缺失值处理 在python中 通常使用NaN表示缺失值  可以用pandas模块中的fillna()方法来填充数据
28 # 可以用dropna()方法来删除缺失值
29 def fillna_demo():
30     df1 = df.fillna({'数学': 0})
31     df2 = df.dropna()
32     print(df1)
33     print(df2)
34 
35 
36 # drop_duplicates()方法来删除重复数据
37 def drop_duplicates_demo():
38     df1 = df.fillna({'数学': 0})
39     df2 = df.drop_duplicates()
40     print(df1)
41     print(df2)
42 
43 
44 # 数据替换 replace()方法 实现数据替换 例如replace(A, B) 表示将A替换为B
45 def replace_demo():
46     df['数学'] = df['数学'].replace(0, 150)
47     print(df)
48 
49 
50 # isnull_demo()
51 # isnull_demo_any()
52 # duplicated_demo()
53 # fillna_demo()
54 # drop_duplicates_demo()
55 replace_demo()

 

标签:df,demo,缺失,isnull,print,数据,预处理,def
来源: https://www.cnblogs.com/zhaoyiguang/p/16648225.html