编程语言
首页 > 编程语言> > 05-机器学习算法分类以及开发流程

05-机器学习算法分类以及开发流程

作者:互联网

"""
1. 需要明确:
    算法是核心,数据和计算是基础

2. 找准定位:
    如果只是开发工程师:没必要把数学的推导搞得特别清楚。仅需要把算法的原理搞清楚、知道用在哪些方面、该算法擅长及不擅长的领域即可
        重要:
            特征工程、调参数、优化
    大部分复杂模型的算法设计都是算法工程师在做
    应该怎么做?
        1. 学会分析问题,使用机器学习算法的目的,想要算法完成何种任务
        2. 掌握算法基本思想,并对问题用相应的算法以及库和框架去解决问题

3. 机器学习算法的判别依据
    数据类型:
        离散型数据,又称计算数据:全部是整数,不能再细分,也不能再进一步提高其精确度
        连续型数据:变量可以在某个范围内取任一数,如时间、质量等,含有小数部分
        仅需记住:离散型区间内不可分,连续型区间内可分
    数据类型个不同应用:
        离散型:分类
        连续型:预测

4. 机器学习算法的分类:
    监督学习(预测):有特征值+目标值,即有标准答案
        分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
            目标值是离散型数据
            概念:分类是监督学习的一个核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题会变成分类问题。最基础的便是二分类问题,即判断是否
        回归:线性回归、岭回归
            目标值是连续型数据
            用途:用于预测输入变量和输出变量之间的关系
        标注:隐马尔可夫模型
    无监督学习:只有特征值,即没有标准答案
        聚类:k-means

5. 机器学习的开发流程:
    (围绕)数据:
        来源:
            1. 本身有数据
            2. 合作过来数据
            3. 购买的数据(很少)
        流程:
            1. 原始数据:明确问题做什么。即建立模型(到底是分类还是回归等):根据数据类型(目标值类型),划分应用种类
            2. 数据的基本处理:用pd去处理数据(缺失值、合并表...)
            3. 特征工程:对特征进行处理(重要环节)
            4. 找到合适的算法去进行预测

            ps:模型=算法+数据
            5. 模型的评估:判定模型的效果怎么样。
                如果模型评估没有合格:
                    1. 换算法、参数
                    2. 特征工程重新处理
            6. 上线使用:常以API形式提供
"""

标签:05,流程,分类,连续型,学习,算法,数据,模型
来源: https://blog.csdn.net/qq_34873298/article/details/101033297