其他分享
首页 > 其他分享> > 第2次作业-titanic数据集练习

第2次作业-titanic数据集练习

作者:互联网

 一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。

1 import xlrd
2 import pandas as pd
3 titanic=pd.DataFrame(pd.read_excel('C:\\Users\\Admin\\Desktop\\titanic.xlsx'))
4 titanic.head()

 

 

  

1 titanic.drop("embark_town",axis=1,inplace=True)
2 titanic.head() 

 

 

 

1 titanic.duplicated()

 

 

 

1 titanic=titanic.drop_duplicates()
2 titanic.head()

 

 

 

1 titanic["who"].isnull().value_counts()

 

1 titanic["who"]=titanic["who"].fillna("man")
2 titanic.head()

 

 

 

 

1 titanic.describe()

 

 

 

1 titanic.replace([512.329200],titanic["fare"].mean())

titanic数据集包含11个特征,分别是:

Survived:0代表死亡,1代表存活
Pclass:乘客所持票类,有三种值(1,2,3)
Name:乘客姓名
Sex:乘客性别
Age:乘客年龄(有缺失)
SibSp:乘客兄弟姐妹/配偶的个数(整数值)
Parch:乘客父母/孩子的个数(整数值)
Ticket:票号(字符串)
Fare:乘客所持票的价格(浮点数,0-500不等)
Cabin:乘客所在船舱(有缺失)
Embark:乘客登船港口:S、C、Q(有缺失)

二、对titanic数据集完成以下统计操作

1.统计乘客死亡和存活人数

1 import xlrd
2 import pandas as pd
3 xlsx_t=pd.read_excel('C:\\Users\\Admin\\Desktop\\titanic.xlsx')
4 xlsx_t.drop_duplicates()
5 print(xlsx_t["survived"].isnull().value_counts())
6 print(xlsx_t["survived"].value_counts())

 

 

 

2.统计乘客中男女性别人数

1 print(xlsx_t["sex"].isnull().value_counts())
2 print(xlsx_t["sex"].value_counts())

 

 

3.统计男女获救的人数

1 xlsx_tm=xlsx_t[(xlsx_t.sex=="male" )& (xlsx_t.survived==1)]
2 print(xlsx_tm["sex"].value_counts())
3 xlsx_tf=xlsx_t[(xlsx_t.sex=="female" )& (xlsx_t.survived==1)]
4 print(xlsx_tf["sex"].value_counts())

 

 

4.统计乘客所在的船舱等级的人数

1 xlsx_t["pclass"]=xlsx_t["pclass"].fillna('NaN') 
2 xlsx_t
3 xlsx_t["pclass"].value_counts()

 

 

5.使用corr()函数,判断两个属性是否具有相关性,分析舱位的高低和存活率的关系

1 #假设船舱从1-3由低到高
2 xlsx_t["pclass"]
3 print(xlsx_t[["pclass",'survived']].corr(method="pearson"))
4 #船舱越高与存活率越低
5 #船舱低高与存活率呈现较小的负相关关系

 

 

6.画出乘客票价与舱位等级的箱体图Boxplot,从图中能够得到哪些结论?

 1 import matplotlib.pyplot as plt
 2 import pandas as pd
 3 f1=xlsx_t[xlsx_t.pclass == 1]["fare"]
 4 f2=xlsx_t[xlsx_t.pclass == 2]["fare"]
 5 f3=xlsx_t[xlsx_t.pclass == 3]["fare"]
 6 fig=plt.figure()
 7 s1=fig.add_subplot(131)
 8 s2=fig.add_subplot(132)
 9 s3=fig.add_subplot(133)
10 f1.plot(kind="box",ax=s1,title="1")
11 f2.plot(kind="box",ax=s2,title="2")
12 f3.plot(kind="box",ax=s3,title="3")
13 plt.show()

 

 

 

标签:xlsx,乘客,练习,作业,titanic,pclass,value,counts
来源: https://www.cnblogs.com/SilverSakura/p/11677648.html