首页 > TAG信息列表 > 泰坦尼克
kaggle 泰坦尼克事件——随机森林算法实现
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 泰坦尼克事件——随机森林算法实现 前言实现步骤1.引入库2.加载数据集3.具体步骤4.数据清洗5.进行特征构建6.构建新的字段,基于scikit-learn中的LabelEncoder()7.特征选择(根据实际情况进行选择,选择不唯一)8.获取kaggle泰坦尼克数据之模型建立和评估
第三章 模型搭建和评估–建模 经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合动手数据分析-泰坦尼克案例(数据重构)
复习:在前面我们已经学习了Pandas基础,第二章我们开始进入数据分析的业务部分,在第二章第一节的内容中,我们学习了数据的清洗,这一部分十分重要,只有数据变得相对干净,我们之后对数据的分析才可以更有力。而这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。 # 导入基本库动手数据分析-泰坦尼克案例(panda基础)
官网参考: http://pandas.pydata.org/ 1.1 Series 1.2 Dataframe 1.3 查看DataFrame数据的每列的名称 1.4 查看"Cabin"这列的所有值[有多种方法 思考 : 删除多列的方法 筛选逻辑: 任务一: 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。基于机器学习的数据分析(泰坦尼克数据集)
基于机器学习的泰坦尼克数据集数据分析 数据集以及ipynb文件放在了我的GitHub上面:欢迎自取 Titanic - Machine Learning from Disaster 如果对你有帮助,欢迎点赞、订阅以及star我的项目。 您的支持是我创作的最大功力! 泰坦尼克数据集 任务:预测泰坦尼克乘客生存概率 数据集:trai从零开始,手把手,一文kaggle竞赛速度入门! 泰坦尼克
从零开始,手把手,一文kaggle竞赛速度入门! 泰坦尼克 1. 前言2. 如何开始kaggle竞赛2.1进入网站注册账号2.2进入到比赛界面2.3了解项目2.4下载数据 3. 数据导入与预处理4. 训练决策树模型4.1决策树模型4.2python实现决策树 5. 提交结果6.完整源码7.可以改进的地方8.贡献者介绍跟Kaggle做泰坦尼克乘客生存分析
参照kaggle来学习Python数据分析的思路和方法:https://www.kaggle.com/startupsci/titanic-data-science-solutions 中间夹杂了一些微专业视频中的图表,完全跟做下来,其实对如何认识数据、清洗数据有了初步的认识。虽然看的时候感觉不难,但照着敲代码还是有很多细微的错误,主要还泰坦尼克获救预测
数据中标签的含义: PassengerId => 乘客ID Pclass => 乘客等级(1/2/3等舱位) Name => 乘客姓名 Sex => 性别 Age => 年龄 SibSp => 堂兄弟/妹个数 Parch => 父母与小孩个数 Ticket => 船票信息 Fare => 票价 Cabin => 客舱 Embarked => 登船港口 将数据进行描述读取 impor