其他分享
首页 > 其他分享> > 金融风控训练营-Task02-数据分析学习笔记

金融风控训练营-Task02-数据分析学习笔记

作者:互联网

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker

一、学习知识点概要

Task02-数据分析介绍了对数据的初步认识和分析,通过数字和图形可视化的形式显示数据

二、学习内容

1.读取数据文件

csv和tsv文件:

import pandas as pd
csv_data = pd.read_csv('csv_data')   #读取csv文件
tsv_data = ps.read_csv('tsv_data',sep='\t')   #读取tsv文件

大文件:

读取前n行:nrows=n

分块读取:chunksize=n(n指每次迭代数据的大小)

2.了解总体数据

shape:数据的行列数

info():数据类型

column:数据的属性

describe():显示数据的个数、平均值、标准差、最小值、下四分位、中位数、上四分位、最大值

head(n):前n行数据

tail(n):后n行数据

3.判断缺失值

data_train.isnull().any().sum()    判断有缺失值的列数

data_train.isnull()   判断元素的缺失值

纵向比较:如果某个特征属性的缺失值大于50%,考虑删除;如果缺失值很小,考虑填充。

横向比较:如果某行数据的缺失值过多且样本数据充足,考虑删除。

lgb模型可以自动处理缺失值。

nunique():查看特征属性是否有一值的特性,可能是全部为缺失值。

4.查看特征的数据类型

DataFrame.select_dtypes(include=None, exclude=None)
value_counts()  某特征列中不同值的个数,不同值的重复值个数

正态化数据,直接查看变量是否符合正态分布/log化;

统一处理一批数据标准化,必须把已经正态化的数据剔除

5.特征数据可视化

6.用pandas_profiling生成数据报告

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

 

三、学习问题与解答

pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")   #每次运行这一步服务器就会断开连接

 

四、学习思考与总结

EDA阶段是初步了解数据的重要阶段,主要处理数据的缺失值和异常值,提取对模型有价值的特征向量,对数据进行可视化。

标签:csv,data,训练营,风控,pfr,tsv,Task02,数据,缺失
来源: https://blog.csdn.net/weixin_45731258/article/details/116099388