survived

首页 > TAG信息列表 > survived

机器学习—决策树

泰坦尼克号沉没是历史上最臭名昭着的沉船之⼀。 1912年4⽉ 15⽇，在她的处⼥航中，泰坦尼克号在与冰⼭相撞后沉没，在2224名乘客和机组⼈员中造成1502⼈死亡。这场耸⼈听闻的悲剧震惊了国际社会，并为船舶制定了更好的安全规定。造成海难失事的原因之⼀是乘客和机组⼈员没有⾜够的

DataWhale 9月组队学习-动手学数据分析 task2_学习记录

数据清洗及特征处理通常原数据都是不干净的，可能存在异常值，缺失值以及其他问题。所以一般进行数据分析之前都需要先对数据进行清洗。读个文件先 #加载所需的库 import numpy as np import pandas as pd #加载数据train.csv df = pd.read_csv('train.csv') 缺失值观察与处

Datawhale7月组队学习task4数据可视化

Datawhale7月task4数据可视化准备工作 **复习：**回顾学习完第一章，我们对泰坦尼克号数据有了基本的了解，也学到了一些基本的统计方法，第二章中我们学习了数据的清理和重构，使得数据更加的易于理解；今天我们要学习的是第二章第三节：数据可视化，主要给大家介绍一下Python数据可视化库

Datawhale动手学习数据分析-Task4

数据可视化导入相关库： import pandas as pd import numpy as np import matplotlib.pyplot as plt 导入数据： text = pd.read_csv(r'result.csv') text.head() # 可视化展示泰坦尼克号数据集中男女中生存人数分布情况 sex = text.groupby('Sex')['Survived'].sum() sex.plot.bar

第二章：第三节数据重构笔记

开始之前，导入numpy、pandas包和数据 # 导入基本库 import numpy as np import pandas as pd import os os.getcwd() 'C:\\Users\\Hello\\Desktop\\hands-on-data-analysis-master\\chapterTwo' # 载入data文件中的:train-left-up.csv df=pd.read_csv('./data/train-lef

动手数据分析-task3-数据重构

本节数据重构内容有两部分，因为误解了学习安排，数据重构1的内容我已写入任务2中数据重构是一项非常重要的数据分析步骤，当我们把手头上的数据清洗完成后，通过数据重构的方法对现有的数据特征进行组合，可视化化显示，可以分析出许多深层次的数据信息。pandas中数据重构的方法主要有g

动手学数据分析task3数据重构

数据聚合与运算计算泰坦尼克号男性与女性的平均票价 # 写入代码 df = text['Fare'].groupby(text['Sex']) means = df.mean() means 计算客舱不同等级的存活人数 # 写入代码 survived_pclass = text['Survived'].groupby(text['Pclass']) survived_pclass.sum() 统计在

titanic乘客简单的数据分析

数据来源： kaggle的Titanic 生存模型：titanic_train.csv。引入的库： import numpy as np import pandas as pd import sys reload(sys) sys.setdefaultencoding('gbk') import matplotlib.pyplot as plt import seaborn as sns [/code] ## 数据分析：

Kaggle泰坦尼克号比赛项目详解

Kaggle泰坦尼克号比赛项目详解项目背景目标数据字典一、基础字段二、衍生字段（部分，在后续代码中补充）特征工程特征分析一、导入必要库二、导入数据三、查看数据四、查看字段信息五、查看字段统计数据六、查看船舱等级与幸存量的关系七、查看性别与幸存情况的关系八、查看乘

Task04：数据可视化

text = pd.read_csv(r'result.csv') text.head() #可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）。 sex=text.group.by('Sex')['Survived'].sum() sex.plot.bar() plt.title('survived_count') plt.show() sex = text.groupby('Sex'

机器学习实战2：KNN决策树探究泰坦尼克号幸存者问题

KNN决策树解决泰坦尼克 import pandas as pd from sklearn.tree import DecisionTreeClassifier, export_graphviz from sklearn.metrics import classification_report import graphviz #决策树可视化 data = pd.read_csv(r"titanic_data.csv") data.drop("PassengerI

ppandas进行多条件过滤时可能出现的优先级bug，导致程序无法运行

pandas进行多条件过滤时可能出现的优先级bug，导致程序无法运行当我们进行pandas 多条件过滤时，可能会出像这样的报错 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() 和 cannot compare a dtyped [float64] array with a s

数据分析之KAGGLE-泰坦尼克号人员生存预测问题

本文参考 handsye https://blog.csdn.net/handsye/article/details/83999641 对部分内容进行了修正和整理数据分析之KAGGLE-泰坦尼克号人员生存预测问题分析目的完成对什么样的人可能生存的分析。 # 导入相关数据包 import numpy as np import pandas as pd import seaborn as

跟Kaggle做泰坦尼克乘客生存分析

参照kaggle来学习Python数据分析的思路和方法：https://www.kaggle.com/startupsci/titanic-data-science-solutions 中间夹杂了一些微专业视频中的图表，完全跟做下来，其实对如何认识数据、清洗数据有了初步的认识。虽然看的时候感觉不难，但照着敲代码还是有很多细微的错误，主要还

第2次作业-titanic数据集练习

一、读入titanic.xlsx文件，按照教材示例步骤，完成数据清洗。 titanic数据集包含11个特征，分别是： Survived:0代表死亡，1代表存活Pclass:乘客所持票类，有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的个数(整数值)Parch:乘客父母/孩子的个数(整

数据挖掘 workfolw 总结

　　个人将数据挖掘的流程简单表示为“ 数据 → 特征 → 模型 ”。首先，明确问题的性质和任务（分类、回归、聚类、推荐、排序、关联分析、异常检测等）；其次，理解数据（含义、类型、值的范围），并通过描述性统计分析（describing data）和可视化分析（visualizing data）等工作对数据进行探索

使用Graphlab参加Kaggle比赛(2017-08-20 发布于知乎)

之前用学生证在graphlab上申了一年的graphlab使用权（华盛顿大学机器学习课程需要）然后今天突然想到完全可以用这个东东来参加kaggle. 下午参考了一篇教程，把notebook上面的写好了本文很多代码参考了turi官网的一个教程，有兴趣的同学可以去看原版 https://turi.com/learn/gallery

案例分析 - 泰坦尼克数据

这里记录一下通过这个案例掌握的之前不会的api(pandas) 1.数据的统计描述往往都df.decsribe() 但是可以分数值型和对象型变量数值型 # describe函数查看部分变量的分布# 因为Survived是0-1变量，所以均值就是幸存人数的百分比，这个用法非常有用titanic_df[["Survived","Age",

pandas中分组和统计个数

1. 这个是筛选出来survived和name,以survived分组