其他分享
首页 > 其他分享> > 企业数据清洗项目实践day2

企业数据清洗项目实践day2

作者:互联网

进度

今天完整地进行了行业维度的清洗分析,把行业代码根据国家标准清洗出格式为  “编码·门类·大类·中类·小类”  的数据格式

过程

1、先把国家标准编码转化为json数据

2、根据原始数据编码逐层遍历json数据,补全缺失数据和问题数据。

代码

  1 import pandas as pd
  2 import xlwt
  3 rank10=""    #A
  4 rank11=""    #A的名字
  5 rank20=""
  6 rank21=""
  7 rank30=""
  8 rank31=""
  9 rank40=""
 10 rank41=""
 11 finalstr=""
 12 def std_excel():
 13     # dict={"A":{"01":{"011":"谷物种植","0111":"稻谷种植"} ,
 14     #            "02":{"021":"林木育种和育苗","0211":"林木育种"}},
 15     #
 16     #       "B":{"06":{ "0610":"烟煤和无烟煤开采洗选","0620":"褐煤开采洗选"},
 17     #            "07":{"0710":"石油开采","0720":"天然气开采"}}
 18     #       }
 19 
 20     # layer1=dict['A']
 21     # print("第一层 A:\n",layer1)
 22     #
 23     # layer2 = dict['A']['01']
 24     # print("第二层 01农业:\n", layer2)
 25     #
 26     # layer3 = dict['A']['01']["011"]
 27     # print("第三层 :\n", layer3)
 28     #读取标准文件
 29     df = pd.read_excel('GBT4754-2011.xlsx')
 30     #首先寻找第一层大写字母层的数据 定位行loc[] 定位
 31     # print(df.columns.values[0]) #A
 32     my_dict={"A":{}}
 33     new_dict={"A":
 34                   {"农、林、牧、渔业":
 35                        {"01":
 36                             {"农业":
 37                                  {"001":
 38                                       {"谷物种植":
 39                                           {
 40                                             "0111":"稻谷种植","0112":"小麦种植"
 41                                           }
 42                                        }
 43                                   }
 44                              }
 45                         }
 46                    }
 47               }
 48     # new_dict["A"].update(
 49     #     {df.loc[0].values[0]:df.loc[0].values[1]}
 50     # )
 51     # print("excel表的行数:\n",len(df.index.values))
 52     # print("测试字典:\n",new_dict)
 53     # print(df.loc[80].values)
 54     # print("一个单元格数据的数据类型:\n",type(df.loc[0].values[0]))
 55 
 56     #测试完毕 开始构建行业领域分类字典
 57     industry_json={}
 58     #开始遍历表格 0 - 1423
 59     for i in range(len(df.index.values)):
 60         #由于表格的第一列数据被判定为int型 所以要转化成str
 61         temp=df.loc[i].values
 62         one = str(temp[0])
 63         # print(len(one))
 64         two = str(temp[1])
 65         # print("数据格式:\n",type(temp[0]))
 66         #通过判断values[0]的字符串的长度判断处于字典的哪一层 如果长度是1 那么在第一层门类 如果长度是2那么在第二层大类 如果长度是3那么在第三层中类
 67         if(len(one)==1):
 68             global rank10
 69             global rank11
 70             rank10=one
 71             rank11=two
 72             my_dict.update({rank10:{rank11:{}}})
 73         if(len(one)==2):
 74             global rank20
 75             global rank21
 76             rank20 = one
 77             rank21 = two
 78             my_dict[rank10][rank11].update({rank20:{rank21:{}}})
 79         if (len(one) == 3):
 80             global rank30
 81             global rank31
 82             rank30 = one
 83             rank31 = two
 84             my_dict[rank10][rank11][rank20][rank21].update({rank30:{rank31:{}}})
 85         #这里做了代码的前三位字符串切分,为了判断一下有没有小类跳过中类的情况,需要直接跨过中类存储,少了一层字典{}
 86         if (len(one) == 4):
 87             global rank40
 88             global rank41
 89             rank40 = one
 90             rank41 = two
 91             divide_rank40=rank40[:3]
 92             # print(divide_rank40,rank30)
 93             if(divide_rank40==rank30):
 94                 # print("!!!!!~~~~~~~~~~~~")
 95                 my_dict[rank10][rank11][rank20][rank21][rank30][rank31].update({rank40:rank41})
 96             else:
 97                 my_dict[rank10][rank11][rank20][rank21].update({rank40: rank41})
 98     #得到最终的字典my_dict
 99     # print(my_dict.keys())
100     # print(my_dict)
101     return my_dict
102 def is_excit(qb03):
103     global finalstr
104     #设置个标记,初始值False 说明默认找不到这个编码 如果找到了则设为 True 如果最终是False则重新分割字符串回调函数
105     flag = False
106     #获取字典
107     my_dict={}
108     my_dict.update(std_excel())
109     # print(my_dict)
110     #门类KEY
111     category=""
112     #大类
113     big_class=""
114     #中类
115     medium_class=""
116     #小类
117     small_class=""
118     # 遍历第一层 门类
119 
120     for items in my_dict.items():
121         res = ""
122         for layer_0 in items[1].items():
123             # print("门类:\n",layer_0)
124             # print("门类名称:\n",layer_0[0])
125             category=layer_0[0]
126             """
127             --------------------------------------------------
128             """
129             # 遍历第二层大类
130             """
131             每进入一层遍历第一个for循环是进入一个这样格式的数据 ( 编码:{  } )
132             之后第二个for循环进入那个字典{ }
133             字典构建的方式是 上一层是key 下一层是对应的value 同时它作为下一层的key
134             
135             """
136             #进入第一层(A:{ } )
137             for layer_10 in layer_0[1].items():
138                 # print("大类编码(两位):\n",layer_10[0])
139                 #进入A对应的{ }
140                 for layer_11 in layer_10[1].items():
141                     # print("大类:\n",layer_11)
142                     big_class = layer_11[0]
143                     # 自己调用自己补全缺失值
144                     if(len(qb03)==2 and qb03==layer_10[0]):
145                         print("缺失值补全:\n", finalstr)
146                         flag=True
147                         res = finalstr + "·" + category + "·" + big_class + "·" + big_class + "·" + big_class
148                         # print(res)
149                         return res
150                     # print("大类名称:\n",big_class)
151                     """
152                     --------------------------------------------------
153                     """
154                     #进入大类(01,{ })
155                     for layer_20 in layer_11[1].items():
156                         #进入01对应的 { }
157                         #判断第二层下一级的名称是三位还是四位,如果是三位那么是正常的中类划分,如果是四位,那么是跳过了中类划分到了小类
158                         if(len(layer_20[0])==4):
159                             small_class=layer_20[1]
160                             # print("大类直接分到小类:\n",small_class)
161                             #判断字符串
162                             if(qb03==layer_20[0]):
163                                 print("跨过中类的小类,判断成功!",qb03)
164                                 flag=True
165                                 res = qb03+ "·"+ category + "·" + big_class + "·"+small_class+ "·"+small_class
166                                 return res
167                         else:
168                             #这个分支的意思是有的类别只到了大类,没有中类直接分到了四位数的小类,所以必须分开遍历,字符串不能按字典遍历
169                             for layer_21 in layer_20[1].items():
170                                 # print("中类:\n",layer_21)
171                                 medium_class = layer_21[0]
172                                 # print("中类名称:\n",medium_class)
173                                 # 这里是个大坑,我的遍历是进入值的那一层,编码在上一级的遍历 layer_20[0]
174                                 if (qb03 == layer_20[0]):
175                                     print("三位中类判断成功!", qb03)
176                                     flag=True
177                                     res = qb03 + "·" + category + "·" + big_class + "·" + medium_class+ "·" + medium_class
178                                     return res
179                                 #继续划分到小类
180                                 for layer_30 in layer_21[1].items():
181                                     #这个layer_30就是最后一层的四位数数据了 格式: ('0111', '稻谷种植') 是一个tuple 索引0是编码1是名称
182                                     small_class=layer_30[1]
183                                     # print("小类名称:\n",small_class)
184                                     #--------------------------------------------------------------------------------
185                                     # 判断字符串
186                                     if (qb03 == layer_30[0]):
187                                         print("正常四位小类判断成功!", qb03)
188                                         flag=True
189                                         res=qb03+"·"+category+"·"+big_class+"·"+medium_class+"·"+small_class
190                                         return res
191     if(flag==False):
192         finalstr = qb03
193         new_qb03=qb03[:2]
194         return is_excit(new_qb03)
195 def clean():
196     """
197     1、读取源数据表格
198     2、逐个把数据传入is_exist()方法获得返回值存回excel表格
199     :return:
200     """
201     df=pd.read_excel("2013_year_data.xlsx")
202     # print(df.loc[0].values)
203     res=[]
204     temp_res=""
205     #range(len(df.index.values))
206     for i in range(len(df.index.values)):
207         # print(df.loc[i].values[0])
208         temp_res=is_excit(str(df.loc[i].values[0]))
209         print(temp_res)
210         if(temp_res!=None):
211             res.append(temp_res)
212         else:
213             res.append(str(df.loc[i].values[0]))
214     # print(res)
215     #把结果存储到excel表
216     workbook = xlwt.Workbook(encoding='utf-8')
217     sheet = workbook.add_sheet('sheet1', cell_overwrite_ok=True)
218     sheet.col(0).width=256*100
219     sheet.write(0, 0, "data")
220     for i in range(len(res)):
221         sheet.write(i+1, 0, res[i])
222     workbook.save('2013_res_data.xls')
223     return None
224 if __name__ == '__main__':
225     # print()
226     #311 2662 610
227     # res=is_excit("610")
228     # print("----------------------")
229     # print(res)
230     # print("----------------------")
231 
232     clean()

部分json数据(格式)

 1 {
 2     'A': {
 3         '农、林、牧、渔业': {
 4             '01': {
 5                 '农业': {
 6                     '011': {
 7                         '谷物种植': {
 8                             '0111': '稻谷种植',
 9                             '0112': '小麦种植',
10                             '0113': '玉米种植',
11                             '0119': '其他谷物种植'
12                         }
13                     },
14                     '012': {
15                         '豆类、油料和薯类种植': {
16                             '0121': '豆类种植',
17                             '0122': '油料种植',
18                             '0123': '薯类种植'
19                         }
20                     },
21                     '013': {
22                         '棉、麻、糖、烟草种植': {
23                             '0131': '棉花种植',
24                             '0132': '麻类种植',
25                             '0133': '糖料种植',
26                             '0134': '烟草种植'
27                         }
28                     },
29                     '014': {
30                         '蔬菜、食用菌及园艺作物种植': {
31                             '0141': '蔬菜种植',
32                             '0142': '食用菌种植',
33                             '0143': '花卉种植',
34                             '0149': '其他园艺作物种植'
35                         }
36                     },
37                     '015': {
38                         '水果种植': {
39                             '0151': '仁果类和核果类水果种植',
40                             '0152': '葡萄种植',
41                             '0153': '柑橘类种植',
42                             '0154': '香蕉等亚热带水果种植',
43                             '0159': '其他水果种植'
44                         }
45                     },
46                     '016': {
47                         '坚果、含油果、香料和饮料作物种植': {
48                             '0161': '坚果种植',
49                             '0162': '含油果种植',
50                             '0163': '香料作物种植',
51                             '0169': '茶及其他饮料作物种植'
52                         }
53                     },
54                     '0170': '中药材种植',
55                     '0190': '其他农业'
56                 }
57             },
58             '02': {
59                 '林业': {
60                     '021': {
61                         '林木育种和育苗': {
62                             '0211': '林木育种',
63                             '0212': '林木育苗'
64                         }
65                     },
66                     '0220': '造林和更新',
67                     '0230': '森林经营和管护',
68                     '024': {
69                         '木材和竹材采运': {
70                             '0241': '木材采运',
71                             '0242': '竹材采运'
72                         }
73                     },
74                     '025': {
75                         '林产品采集': {
76                             '0251': '木竹材林产品采集',
77                             '0252': '非木竹材林产品采集'
78                         }
79                     }
80                 }
81             },

 

标签:layer,种植,res,day2,实践,dict,print,清洗,class
来源: https://www.cnblogs.com/rainbow-1/p/15449397.html