第2次作业-titanic数据集练习
作者:互联网
一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。
1 import xlrd 2 import pandas as pd 3 titanic=pd.DataFrame(pd.read_excel('C:\\Users\\Admin\\Desktop\\titanic.xlsx')) 4 titanic.head()
1 titanic.drop("embark_town",axis=1,inplace=True) 2 titanic.head()
1 titanic.duplicated()
1 titanic=titanic.drop_duplicates() 2 titanic.head()
1 titanic["who"].isnull().value_counts()
1 titanic["who"]=titanic["who"].fillna("man") 2 titanic.head()
1 titanic.describe()
1 titanic.replace([512.329200],titanic["fare"].mean())
titanic数据集包含11个特征,分别是:
Survived:0代表死亡,1代表存活
Pclass:乘客所持票类,有三种值(1,2,3)
Name:乘客姓名
Sex:乘客性别
Age:乘客年龄(有缺失)
SibSp:乘客兄弟姐妹/配偶的个数(整数值)
Parch:乘客父母/孩子的个数(整数值)
Ticket:票号(字符串)
Fare:乘客所持票的价格(浮点数,0-500不等)
Cabin:乘客所在船舱(有缺失)
Embark:乘客登船港口:S、C、Q(有缺失)
二、对titanic数据集完成以下统计操作
1.统计乘客死亡和存活人数
1 import xlrd 2 import pandas as pd 3 xlsx_t=pd.read_excel('C:\\Users\\Admin\\Desktop\\titanic.xlsx') 4 xlsx_t.drop_duplicates() 5 print(xlsx_t["survived"].isnull().value_counts()) 6 print(xlsx_t["survived"].value_counts())
2.统计乘客中男女性别人数
1 print(xlsx_t["sex"].isnull().value_counts()) 2 print(xlsx_t["sex"].value_counts())
3.统计男女获救的人数
1 xlsx_tm=xlsx_t[(xlsx_t.sex=="male" )& (xlsx_t.survived==1)] 2 print(xlsx_tm["sex"].value_counts()) 3 xlsx_tf=xlsx_t[(xlsx_t.sex=="female" )& (xlsx_t.survived==1)] 4 print(xlsx_tf["sex"].value_counts())
4.统计乘客所在的船舱等级的人数
1 xlsx_t["pclass"]=xlsx_t["pclass"].fillna('NaN') 2 xlsx_t 3 xlsx_t["pclass"].value_counts()
5.使用corr()函数,判断两个属性是否具有相关性,分析舱位的高低和存活率的关系
1 #假设船舱从1-3由低到高 2 xlsx_t["pclass"] 3 print(xlsx_t[["pclass",'survived']].corr(method="pearson")) 4 #船舱越高与存活率越低 5 #船舱低高与存活率呈现较小的负相关关系
6.画出乘客票价与舱位等级的箱体图Boxplot,从图中能够得到哪些结论?
1 import matplotlib.pyplot as plt 2 import pandas as pd 3 f1=xlsx_t[xlsx_t.pclass == 1]["fare"] 4 f2=xlsx_t[xlsx_t.pclass == 2]["fare"] 5 f3=xlsx_t[xlsx_t.pclass == 3]["fare"] 6 fig=plt.figure() 7 s1=fig.add_subplot(131) 8 s2=fig.add_subplot(132) 9 s3=fig.add_subplot(133) 10 f1.plot(kind="box",ax=s1,title="1") 11 f2.plot(kind="box",ax=s2,title="2") 12 f3.plot(kind="box",ax=s3,title="3") 13 plt.show()
标签:xlsx,乘客,练习,作业,titanic,pclass,value,counts 来源: https://www.cnblogs.com/SilverSakura/p/11677648.html