05-机器学习算法分类以及开发流程
作者:互联网
"""
1. 需要明确:
算法是核心,数据和计算是基础
2. 找准定位:
如果只是开发工程师:没必要把数学的推导搞得特别清楚。仅需要把算法的原理搞清楚、知道用在哪些方面、该算法擅长及不擅长的领域即可
重要:
特征工程、调参数、优化
大部分复杂模型的算法设计都是算法工程师在做
应该怎么做?
1. 学会分析问题,使用机器学习算法的目的,想要算法完成何种任务
2. 掌握算法基本思想,并对问题用相应的算法以及库和框架去解决问题
3. 机器学习算法的判别依据
数据类型:
离散型数据,又称计算数据:全部是整数,不能再细分,也不能再进一步提高其精确度
连续型数据:变量可以在某个范围内取任一数,如时间、质量等,含有小数部分
仅需记住:离散型区间内不可分,连续型区间内可分
数据类型个不同应用:
离散型:分类
连续型:预测
4. 机器学习算法的分类:
监督学习(预测):有特征值+目标值,即有标准答案
分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
目标值是离散型数据
概念:分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题会变成分类问题。最基础的便是二分类问题,即判断是否
回归:线性回归、岭回归
目标值是连续型数据
用途:用于预测输入变量和输出变量之间的关系
标注:隐马尔可夫模型
无监督学习:只有特征值,即没有标准答案
聚类:k-means
5. 机器学习的开发流程:
(围绕)数据:
来源:
1. 本身有数据
2. 合作过来数据
3. 购买的数据(很少)
流程:
1. 原始数据:明确问题做什么。即建立模型(到底是分类还是回归等):根据数据类型(目标值类型),划分应用种类
2. 数据的基本处理:用pd去处理数据(缺失值、合并表...)
3. 特征工程:对特征进行处理(重要环节)
4. 找到合适的算法去进行预测
ps:模型=算法+数据
5. 模型的评估:判定模型的效果怎么样。
如果模型评估没有合格:
1. 换算法、参数
2. 特征工程重新处理
6. 上线使用:常以API形式提供
"""
标签:05,流程,分类,连续型,学习,算法,数据,模型 来源: https://blog.csdn.net/qq_34873298/article/details/101033297