金融风控训练营-Task02-数据分析学习笔记
作者:互联网
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker
一、学习知识点概要
Task02-数据分析介绍了对数据的初步认识和分析,通过数字和图形可视化的形式显示数据
二、学习内容
1.读取数据文件
csv和tsv文件:
import pandas as pd
csv_data = pd.read_csv('csv_data') #读取csv文件
tsv_data = ps.read_csv('tsv_data',sep='\t') #读取tsv文件
大文件:
读取前n行:nrows=n
分块读取:chunksize=n(n指每次迭代数据的大小)
2.了解总体数据
shape:数据的行列数
info():数据类型
column:数据的属性
describe():显示数据的个数、平均值、标准差、最小值、下四分位、中位数、上四分位、最大值
head(n):前n行数据
tail(n):后n行数据
3.判断缺失值
data_train.isnull().any().sum() 判断有缺失值的列数
data_train.isnull() 判断元素的缺失值
纵向比较:如果某个特征属性的缺失值大于50%,考虑删除;如果缺失值很小,考虑填充。
横向比较:如果某行数据的缺失值过多且样本数据充足,考虑删除。
lgb模型可以自动处理缺失值。
nunique():查看特征属性是否有一值的特性,可能是全部为缺失值。
4.查看特征的数据类型
- 类别型特征(过滤)
- 数值关系
- 非数值关系
- 数值型特征(往往需要做特征分箱)
- 连续型
- 离散型
DataFrame.select_dtypes(include=None, exclude=None)
value_counts() 某特征列中不同值的个数,不同值的重复值个数
正态化数据,直接查看变量是否符合正态分布/log化;
统一处理一批数据标准化,必须把已经正态化的数据剔除
5.特征数据可视化
6.用pandas_profiling生成数据报告
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")
三、学习问题与解答
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html") #每次运行这一步服务器就会断开连接
四、学习思考与总结
EDA阶段是初步了解数据的重要阶段,主要处理数据的缺失值和异常值,提取对模型有价值的特征向量,对数据进行可视化。
标签:csv,data,训练营,风控,pfr,tsv,Task02,数据,缺失 来源: https://blog.csdn.net/weixin_45731258/article/details/116099388