机器学习---P1

2021-06-26 13:58:04 作者：互联网

前言：
项目驱动学习：爱奇艺个性化实时推荐系统----项目的落地实现
市场需求：推荐系统庞大的需求应用
学习方法：知识图谱的制作、对学习的东西进行总结，每次听完课之后就要进行总结；讲了几个模块、几个知识点、几个技术，总结到思维导图中XMind5；
今天上课的内容：为了日后的推荐系统做铺垫、常见的面试问题、以及常见的公式推导
抓住老师的上课思路，跟着老师的节奏来，这是属于大数据的一门课程，可以一边学习架构一边学习大数据
老师介绍：张富强（Javaweb—》Hadoop–》Spark）
前言技术：hdfs yarn hive hbase spark (spark core sparksql sparkstreaming) flume(数据采集) sqoop(关系型数据库和非关系型数据库的转换) kafka(mq)
hdfs：不适合查询
HBase：擅长存储半结构化的数据、非结构化的数据，而且适合查询，改进了hdfs的缺点
Yran：资源管理框架
框架之间的整合和关系
海量数据的存储-----》海量数据的计算总结统计 BI-----》总结与展望机器学习

1.机器学习学习介绍、原理及应用场景
1.1 引入机器学习
总结已学习的技术：之前的技术是用于海量数据的存储和计算
引出机器学习：根据这些数据进行总结和展望
1.2机器学习的应用场景
2016年IBM–“沃森”
推荐系统：亚马孙32%，京东17%
AlphaGo：哈萨比斯
谷歌的无人汽车，百度无人汽车，特斯拉无人汽车
科普：5G时代的到来，为基站时代，边缘计算：八角鱼，区块链实现边缘计算；
1.3机器学习的原理？为什么机器学习可以展望未来？
机器学习（手段）—》使得机器变得智能----》人工智能（目标）
类比人类：如何从什么都不懂变得------》智能
例子：人是如何学会做饭的？
100次做饭的失败经验+思维总结=规律
机器变得智能： 数据（大数据来收集和计算数据）+算法（机器学习）=规律（人工智能），机器学习就是一个个的算，用算法来训练模型就是来找规律
技术来源于生活
改善模式的三个手段：提高数据量和算法、提高数据量、牛逼算法；数据量决定了模型的高度，算法只是逼近这个高度，大数据是机器学习的根基
人工智能岗位：为了业务而做人工智能的公式才是有意义的公司；
之前学的技术是对数据进行总结，是BI，对数据的展望就是人工智能就是AI；
人工智能是目标，是一个交叉学科，实现的手段是大数据+机器学习
深度学习（神经网络）：有一个个神经元组成，一个神经元就是一个算法，可以实现更加复杂的算法，使用神经元的方式将我们的算法连接起来；

2.简单的线性回归算法
大数据的机器学习和人工智能的机器学习是有交集的
大数据的机器学习是为了后面的推荐系统来做铺垫的
这节课来了解简单的线性回归算法-----是一个简单的一元线性方程

y = w0 + w1*x
由
x=1 y=2
x=2 y=3
确定 w0 和 w1
求出这条直线的方程

错题
x=1 y=2
x=2 y=3
x=3 y=5
无法求出一条直线是同时通过这上个点的，这是一个错题
但这是一个机器学习的题目
假如有三亿组这样的（x,y）数据，要求出一条最好的线，这条直线就是我们的目标函数h = w0 + w1*x
先定义什么是最好的一条直线？----空间的点到直线的距离最近的直线
那么如何求出这样一条最好的直线呢？也就是如何在这三亿组数据中找到规律？----机器学习（手段）
规律就是求出直线的w0和w1
量化空间的距离：量化公式J(θ)，公式包含w0 和 w1
使得距离最小就是：量化公式的值最小，即min J(θ),此时的w0和w1就是我们要找的规律，它们表示的直线就是最好的直线；

问题转换

那么有了量化公式J(θ)之后，我们如何找到最小的min值呢？
第一步：确定公式的函数特性（凹凸性、单调性等）
可以验证：J(θ)是一个凹函数，是存在min的，极小值
第二步：求J(θ)最小值的方法
理想的方法：
1）求参数的偏导数
2）令偏导数为0
在海量数据下，如果x特别多，通过偏导数为0来求解w参数基本不可能，需要很多算力；
通过导数=0-----》反推w是不行的；

正常的方法-----梯度下降的方式
正向来式的方法来求得参数的值
1）随机初始化w0 w1的值，
2）将随机的参数w和3亿组数据（训练集数据）带入到误差函数J(θ)中
3）人为的设置容忍的误差值，如0.01，如果此时的误差值小于0.01，那么此时的参数就是可行的；如果此时的误差大于0.01，那么更改参数值（调参），重新的计算误差；
到此为止，模型训练完毕，接着就可以用这个模型来预测数据了；

求出求J(θ)最小值的方法的关键是调参，通过不断的调整w的值，来一步步逼近完美的直线；
机器学习工程师也叫调参工程师
可以把人工智能想象成**找规律**，而机器学习就是找到这种规律的手段和技巧；
调整参数的方法：------梯度下降法（下节课的重点）

三个函数
目标函数：h = w0 + w1*x，是要找的规律的模型；
量化函数：J(θ)，也是叫loss函数，损失函数，误差函数，关注的是点到y的距离，而不是点到直线的距离；
优化函数：梯度下降算法，找出所有可能的loss函数中，loss最小的函数；

本节课的重点：机器学习训练模型的惯用套路
在这里插入图片描述

标签：学习,P1,机器,---,算法,w1,w0,数据
来源： https://blog.csdn.net/jly_0707jly/article/details/118241041