其他分享
首页 > 其他分享> > 机器学习尝试-Titanic幸存者(一)

机器学习尝试-Titanic幸存者(一)

作者:互联网

1 机器学习项目步骤

一般来说,一个机器学习项目可以分成下面8个步骤来实施(《机器学习实战:基于Scikit-Learn和TensorFlow》):

  1. 明确问题,分析架构
  2. 获取数据
  3. 研究数据
  4. 预处理数据用于提供给机器学习算法
  5. 从不同的模型中挑选出最好的模型
  6. 微调模型,或组合为更好的解决方案
  7. 提出和展示解决方案
  8. 启动、监视、维护系统

遵循这些步骤(当然可以省略某些步骤),我们可以利用一些公共数据集来尝试解决机器学习问题。在这篇文章中,我尝试按照上面的步骤来解决kaggle上的Titanic幸存者问题,这是kaggle上一个入门的教学问题,适合新手实践,在实现过程中,我尽量避免参考其他人的做法,到测试完成后再去看看其他大牛怎么做的。

2 Kaggle

Kaggle是一家在其网站上托管各种数据集和机器学习竞赛的公司。Kaggle上的比赛通常由各种各样的公司、非营利组织和大学举办,获奖者甚至可以获得一些重要的奖金。在其官网上,除了公布的各种竞赛项目,我们还可以获取各种数据集,交流开发经验以及获得学习资料。对于新手,我们可以挑选Competitions中类型为Getting Started的题目来进行实践,选择合适的题目,了解题目的内容,下载数据集,经过实践后将测试集的结果上传,Kaggle网站会计算我们的分数。
开始之前我们需要在Kaggle上进行注册,否则无法下载和上传,可是需要注意的是,注册Kaggle以及测试结果上传都需要能访问Google,所以如果是在通常的国内环境下是无法进行的。

3 Titanic问题

Titanic问题是Getting Started中显示在第一个的问题,因此拿它来练手的人最多。根据问题描述,我们需要使用提供的幸存者名单训练模型,预测测试集名单上乘客的存货情况。这是一个典型的二值分类问题,其数据包括了年龄这种连续值属性,座位等级这种分类数值属性,以及性别这种字符属性。

4 工具

为了方便的分析及调试,可以使用jupyter notebook来进行程序的编写,这是一种交互式网页笔记本,可以在上面用多种语言进行程序的编写,使用起来就好像在自己的笔记本上进行演算,同时可以方便的查看各个子段的结果。
安装jupyter notebook最方便的方法是直接安装anaconda,它包括了jupyter工具。要新建一个notebook,打开anaconda prompt控制台,输入jupyter notebook 运行,一会网页会自动跳转到jupyter notebook工作空间,然后就可以新建python语言的notebook来进行作业了

标签:尝试,jupyter,Titanic,Kaggle,学习,notebook,幸存者,机器
来源: https://blog.csdn.net/wangzhenyang2/article/details/87991545