首页 > TAG信息列表 > survived
机器学习—决策树
泰坦尼克号沉没是历史上最臭名昭着的沉船之⼀。 1912年4⽉ 15⽇ , 在她的处⼥航中, 泰坦尼克号在与冰⼭相撞后沉没, 在2224名乘客和机组⼈员中造成1502⼈死亡。 这场耸⼈听闻的悲剧震惊了国际社会, 并为船舶制定了更好的安全规定。 造成海难失事的原因之⼀是乘客和机组⼈员没有⾜够的DataWhale 9月组队学习-动手学数据分析 task2_学习记录
数据清洗及特征处理 通常原数据都是不干净的,可能存在异常值,缺失值以及其他问题。所以一般进行数据分析之前都需要先对数据进行清洗。 读个文件先 #加载所需的库 import numpy as np import pandas as pd #加载数据train.csv df = pd.read_csv('train.csv') 缺失值观察与处Datawhale7月组队学习task4数据可视化
Datawhale7月task4数据可视化 准备工作 **复习:**回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Datawhale动手学习数据分析-Task4
数据可视化 导入相关库: import pandas as pd import numpy as np import matplotlib.pyplot as plt 导入数据: text = pd.read_csv(r'result.csv') text.head() # 可视化展示泰坦尼克号数据集中男女中生存人数分布情况 sex = text.groupby('Sex')['Survived'].sum() sex.plot.bar第二章:第三节数据重构笔记
开始之前,导入numpy、pandas包和数据 # 导入基本库 import numpy as np import pandas as pd import os os.getcwd() 'C:\\Users\\Hello\\Desktop\\hands-on-data-analysis-master\\chapterTwo' # 载入data文件中的:train-left-up.csv df=pd.read_csv('./data/train-lef动手数据分析-task3-数据重构
本节数据重构内容有两部分,因为误解了学习安排,数据重构1的内容我已写入任务2中 数据重构是一项非常重要的数据分析步骤,当我们把手头上的数据清洗完成后,通过数据重构的方法对现有的数据特征进行组合,可视化化显示,可以分析出许多深层次的数据信息。pandas中数据重构的方法主要有g动手学数据分析task3数据重构
数据聚合与运算 计算泰坦尼克号男性与女性的平均票价 # 写入代码 df = text['Fare'].groupby(text['Sex']) means = df.mean() means 计算客舱不同等级的存活人数 # 写入代码 survived_pclass = text['Survived'].groupby(text['Pclass']) survived_pclass.sum() 统计在titanic乘客简单的数据分析
数据来源: kaggle的Titanic 生存模型:titanic_train.csv。 引入的库: import numpy as np import pandas as pd import sys reload(sys) sys.setdefaultencoding('gbk') import matplotlib.pyplot as plt import seaborn as sns [/code] ## 数据分析:Kaggle泰坦尼克号比赛项目详解
Kaggle泰坦尼克号比赛项目详解 项目背景目标数据字典一、基础字段二、衍生字段(部分,在后续代码中补充) 特征工程特征分析一、导入必要库二、导入数据三、查看数据四、查看字段信息五、查看字段统计数据六、查看船舱等级与幸存量的关系七、查看性别与幸存情况的关系八、查看乘Task04:数据可视化
text = pd.read_csv(r'result.csv') text.head() #可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。 sex=text.group.by('Sex')['Survived'].sum() sex.plot.bar() plt.title('survived_count') plt.show() sex = text.groupby('Sex'机器学习实战2:KNN决策树探究泰坦尼克号幸存者问题
KNN决策树解决泰坦尼克 import pandas as pd from sklearn.tree import DecisionTreeClassifier, export_graphviz from sklearn.metrics import classification_report import graphviz #决策树可视化 data = pd.read_csv(r"titanic_data.csv") data.drop("PassengerIppandas进行多条件过滤时可能出现的优先级bug,导致程序无法运行
pandas进行多条件过滤时可能出现的优先级bug,导致程序无法运行 当我们进行pandas 多条件过滤时,可能会出像这样的报错 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() 和 cannot compare a dtyped [float64] array with a s数据分析之KAGGLE-泰坦尼克号人员生存预测问题
本文参考 handsye https://blog.csdn.net/handsye/article/details/83999641 对部分内容进行了修正和整理 数据分析之KAGGLE-泰坦尼克号人员生存预测问题 分析目的 完成对什么样的人可能生存的分析。 # 导入相关数据包 import numpy as np import pandas as pd import seaborn as跟Kaggle做泰坦尼克乘客生存分析
参照kaggle来学习Python数据分析的思路和方法:https://www.kaggle.com/startupsci/titanic-data-science-solutions 中间夹杂了一些微专业视频中的图表,完全跟做下来,其实对如何认识数据、清洗数据有了初步的认识。虽然看的时候感觉不难,但照着敲代码还是有很多细微的错误,主要还第2次作业-titanic数据集练习
一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。 titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的个数(整数值)Parch:乘客父母/孩子的个数(整数据挖掘 workfolw 总结
个人将数据挖掘的流程简单表示为“ 数据 → 特征 → 模型 ”。 首先,明确问题的性质和任务(分类、回归、聚类、推荐、排序、关联分析、异常检测等); 其次,理解数据(含义、类型、值的范围),并通过描述性统计分析(describing data)和可视化分析(visualizing data)等工作对数据进行探索使用Graphlab参加Kaggle比赛(2017-08-20 发布于知乎)
之前用学生证在graphlab上申了一年的graphlab使用权(华盛顿大学机器学习课程需要)然后今天突然想到完全可以用这个东东来参加kaggle. 下午参考了一篇教程,把notebook上面的写好了 本文很多代码参考了turi官网的一个教程,有兴趣的同学可以去看原版 https://turi.com/learn/gallery案例分析 - 泰坦尼克数据
这里记录一下通过这个案例掌握的之前不会的api(pandas) 1.数据的统计描述 往往都df.decsribe() 但是可以分数值型和对象型变量 数值型 # describe函数查看部分变量的分布# 因为Survived是0-1变量,所以均值就是幸存人数的百分比,这个用法非常有用titanic_df[["Survived","Age",pandas中分组和统计个数
1. 这个是筛选出来survived和name,以survived分组