其他分享
首页 > 其他分享> > 金融风控训练营TASK02学习笔记

金融风控训练营TASK02学习笔记

作者:互联网

金融风控训练营TASK02学习笔记

学习知识点概要

学习内容

1、读取文件的部分

# nrows=5表示一次读取5行
data_train_sample = pd.read_csv("train.csv",nrows=5)
# 设置chunksize参数,来控制每次迭代数据的大小
chunker = pd.read_csv("train.csv",chunksize=5)
# chunker表示train分成5行每份的dataframe

2、特征具体含义

3、print(f’’)

4、缺失特征和缺失率的可视化

missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

5、特征的数值类型、对象类型

6、select_dtypes()

# exclude=['object'] 表示选取除object类型以外的所有类型
#numerical_fea 是一个装着除object类型以外所有类型的特征的列表
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)

7、filter()

# 把data_train的各个特种中不在numerical_fea列表中的特征过滤出来
filter(lambda x: x not in numerical_fea,list(data_train.columns))

8、数值连续型变量分析

查看某一个数值型变量的分布,查看变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。
如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出
正态化的原因:一些情况下正态非正态可以让模型更快的收敛,一些模型要求数据正态(eg. GMM、KNN),保证数据不要过偏态即可,过于偏态可能会影响模型预测结果。

8.1 melt()

8.2 facetgrid()、map()

9、groupby()

这里找到两个自认为比较好的groupby讲解,链接如下:

10、seaborn()

cell里面有2~3个方法是我比较陌生的,我先给提出来:

其次seaborn本身也属于使用率比较高的库了,找到一个介绍seaborn比较全面的博客,日后自己也可以回来复习

10、时间格式数据处理及查看

startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')

11、透视图pivot_table()

学习问题与解答

pandas_profiling的使用

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

强行运行就会出现下面的错误:

python -m pip install -U pip pandas_profiling

更新之后,已经可以正常运行了,三行代码就可以给出一个数据分析报告,还是挺香的。

import pandas_profiling

pfr=pandas_profiling.ProfileReport('data_train')
pfr.to_file('report.html')

这里给出一些报告里的内容:

学习思考与总结

那么总的来说,数据分析与可视化这个task也还是属于基础环节,在这一part你做的操作,除非是要对数据进行处理,不然对后面可以说没什么影响。从task03开始才是真正的重头戏,那就,加油吧,打工人!

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.4.18a34d57pn0nTe&postId=170949

标签:profiling,特征,训练营,风控,借款人,train,TASK02,data,pandas
来源: https://blog.csdn.net/zzm13798974259/article/details/115964843