机器学习---P1
作者:互联网
前言:
项目驱动学习:爱奇艺个性化实时推荐系统----项目的落地实现
市场需求:推荐系统庞大的需求应用
学习方法:知识图谱的制作、对学习的东西进行总结,每次听完课之后就要进行总结;讲了几个模块、几个知识点、几个技术,总结到思维导图中XMind5;
今天上课的内容:为了日后的推荐系统做铺垫、常见的面试问题、以及常见的公式推导
抓住老师的上课思路,跟着老师的节奏来,这是属于大数据的一门课程,可以一边学习架构一边学习大数据
老师介绍:张富强(Javaweb—》Hadoop–》Spark)
前言技术:hdfs yarn hive hbase spark (spark core sparksql sparkstreaming) flume(数据采集) sqoop(关系型数据库和非关系型数据库的转换) kafka(mq)
hdfs:不适合查询
HBase:擅长存储半结构化的数据、非结构化的数据,而且适合查询,改进了hdfs的缺点
Yran:资源管理框架
框架之间的整合和关系
海量数据的存储-----》海量数据的计算 总结统计 BI-----》总结与展望 机器学习
1.机器学习学习介绍、原理及应用场景
1.1 引入机器学习
总结已学习的技术:之前的技术是用于海量数据的存储和计算
引出机器学习:根据这些数据进行总结和展望
1.2机器学习的应用场景
2016年IBM–“沃森”
推荐系统:亚马孙32%,京东17%
AlphaGo:哈萨比斯
谷歌的无人汽车,百度无人汽车,特斯拉无人汽车
科普:5G时代的到来,为基站时代,边缘计算:八角鱼,区块链实现边缘计算;
1.3机器学习的原理?为什么机器学习可以展望未来?
机器学习(手段)—》使得机器变得智能----》人工智能(目标)
类比人类:如何从什么都不懂变得------》智能
例子:人是如何学会做饭的?
100次做饭的失败经验+思维总结=规律
机器变得智能: 数据(大数据来收集和计算数据)+算法(机器学习)=规律(人工智能),机器学习就是一个个的算,用算法来训练模型就是来找规律
技术来源于生活
改善模式的三个手段:提高数据量和算法、提高数据量、牛逼算法;数据量决定了模型的高度,算法只是逼近这个高度,大数据是机器学习的根基
人工智能岗位:为了业务而做人工智能的公式才是有意义的公司;
之前学的技术是对数据进行总结,是BI,对数据的展望就是人工智能就是AI;
人工智能是目标,是一个交叉学科,实现的手段是大数据+机器学习
深度学习(神经网络):有一个个神经元组成,一个神经元就是一个算法,可以实现更加复杂的算法,使用神经元的方式将我们的算法连接起来;
2.简单的线性回归算法
大数据的机器学习和人工智能的机器学习是有交集的
大数据的机器学习是为了后面的推荐系统来做铺垫的
这节课来了解简单的线性回归算法-----是一个简单的一元线性方程
y = w0 + w1*x
由
x=1 y=2
x=2 y=3
确定 w0 和 w1
求出这条直线的方程
错题
x=1 y=2
x=2 y=3
x=3 y=5
无法求出一条直线是同时通过这上个点的,这是一个错题
但这是一个机器学习的题目
假如有三亿组这样的(x,y)数据,要求出一条最好的线,这条直线就是我们的目标函数h = w0 + w1*x
先定义什么是最好的一条直线?----空间的点到直线的距离最近的直线
那么如何求出这样一条最好的直线呢?也就是如何在这三亿组数据中找到规律?----机器学习(手段)
规律就是求出直线的w0和w1
量化空间的距离:量化公式J(θ),公式包含w0 和 w1
使得距离最小就是:量化公式的值最小,即min J(θ),此时的w0和w1就是我们要找的规律,它们表示的直线就是最好的直线;
问题转换
那么有了量化公式J(θ)之后,我们如何找到最小的min值呢?
第一步:确定公式的函数特性(凹凸性、单调性等)
可以验证:J(θ)是一个凹函数,是存在min的,极小值
第二步:求J(θ)最小值的方法
理想的方法:
1)求参数的偏导数
2)令偏导数为0
在海量数据下,如果x特别多,通过偏导数为0来求解w参数基本不可能,需要很多算力;
通过导数=0-----》反推w是不行的;
正常的方法-----梯度下降的方式
正向来式的方法来求得参数的值
1)随机初始化w0 w1的值,
2)将随机的参数w和3亿组数据(训练集数据)带入到误差函数J(θ)中
3)人为的设置容忍的误差值,如0.01,如果此时的误差值小于0.01,那么此时的参数就是可行的;如果此时的误差大于0.01,那么更改参数值(调参),重新的计算误差;
到此为止,模型训练完毕,接着就可以用这个模型来预测数据了;
求出求J(θ)最小值的方法的关键是调参,通过不断的调整w的值,来一步步逼近完美的直线;
机器学习工程师也叫调参工程师
可以把人工智能想象成**找规律**,而机器学习就是找到这种规律的手段和技巧;
调整参数的方法:------梯度下降法(下节课的重点)
三个函数
目标函数:h = w0 + w1*x,是要找的规律的模型;
量化函数:J(θ),也是叫loss函数,损失函数,误差函数,关注的是点到y的距离,而不是点到直线的距离;
优化函数:梯度下降算法,找出所有可能的loss函数中,loss最小的函数;
本节课的重点:机器学习训练模型的惯用套路
标签:学习,P1,机器,---,算法,w1,w0,数据 来源: https://blog.csdn.net/jly_0707jly/article/details/118241041