首页 > TAG信息列表 > Embarked
【决策树】泰坦尼克号幸存者预测项目
项目目标 泰坦尼克号的沉没是历史上最著名的还难事件之一,在船上的2224名乘客和机组人员中,共造成1502人死亡。本次项目的目标是运用机器学习工具来预测哪些乘客能够幸免于难。 项目过程 导入并探索数据 处理缺失值,删除与预测无关的特征 将分类变量转换为数值型变量 实例化模型并机器学习(1)——从TItanic开始
机器学习(1)——从TItanic开始 Kaggle-TitanicStep1-环境配置Step2-数据概览Step3-数据统计与预处理3.1 数据统计代码与结果分析3.2 数据处理 Step4-线性回归分析Step5-Logistic回归分析Step6-随机森林预测Step7-生成新数据&数据关联性判断7.1 头衔('Title')的影响7.2 名字长入坑kaggle第四天- Titanic - Machine Learning from Disaster模型优化(进阶10%)
由于昨天毫无目标的调整参数, 很快用完了kaggle的十次提交机会。 以后, 需要有目标的提交, 防止浪费提交次数。 1 如何观察数据 1.1 通过四个方法, 观察数据 method 1: import pandas as pd df = pd.read_csv('titanic/train.csv') method 2: df.shape (891, 12) method 3: dKaggle——Titanic预测
下载数据集到本地 分析数据 先知晓各个数据特征的含义,观察一下 找到有用的,也就是可以影响到预测标签的数据 没有用的数据不用管 处理数据 这些有用的数据中,有些可能是空值 如果该列数据较多,就取平均值 如果极少,可以删了该行数据 有些有用的数据是字符串,不是数值,需要转跟Kaggle做泰坦尼克乘客生存分析
参照kaggle来学习Python数据分析的思路和方法:https://www.kaggle.com/startupsci/titanic-data-science-solutions 中间夹杂了一些微专业视频中的图表,完全跟做下来,其实对如何认识数据、清洗数据有了初步的认识。虽然看的时候感觉不难,但照着敲代码还是有很多细微的错误,主要还泰坦尼克获救预测
数据中标签的含义: PassengerId => 乘客ID Pclass => 乘客等级(1/2/3等舱位) Name => 乘客姓名 Sex => 性别 Age => 年龄 SibSp => 堂兄弟/妹个数 Parch => 父母与小孩个数 Ticket => 船票信息 Fare => 票价 Cabin => 客舱 Embarked => 登船港口 将数据进行描述读取 impor用pyhton分析数据的抽样分布
数据集:数据有四列 ID、年龄、价格、港口 操作环境:jupyter notebook 分析一:按照港口分类,求出各类港口数据年龄和价格的统计量(包括均值、方差、标准差、变异系数等) 1.导入数据 import numpy as np import pandas as pd df=pd.read_excel("C:/../data.xlsx",index_col=0,head