编程语言
首页 > 编程语言> > spark支持的machine learning 算法汇总及pipelines简介

spark支持的machine learning 算法汇总及pipelines简介

作者:互联网

本文针对spark支持的machine learning 算法进行汇总,并针对各类算法、ml pipeline的使用提供一个简单的入门介绍。

machine learning 算法汇总

spark支持的machine learning 算法汇总如下
在这里插入图片描述

机器学习的流程

机器学习流程

拿到一个机器学习问题时,通常处理的机器学习的流程一般如下:
在这里插入图片描述

ML Pipelines

ML Pipelines: 提供了基于DataFrame上统一的高等级API,可以帮助使用者创建和调试机器学习工作流

MLlib标准化了用于机器学习算法的api,使其更容易将多个算法组合到单个管道(Pipeline)或工作流中:

流程图示意如下:
在这里插入图片描述

算法

分类算法

分类通常是指将事物分为不同的类别,属于监督学习中的一种形式。通过大量的样本数据构成一个训练集,每个样本有多个属性,属性可以是连续型,也可以是离散型。其中有一个属性都称为事物的类别属性,用来表示事物所属的类别。
简而言之,分类就是通过一组代表物体、事件等的相关属性来判断其类别。

分类有如下三种:

回归算法

回归算法是机器学习中最常见也是使用最广的一个算法,回归算法主要有线性回归和逻辑回归2种。

聚类算法

聚类算法属于无监督学习,从没有标签数据的数据中提炼出规则或特征。比如识别异常数据,对用户进行分类。
聚类算法的思想就是物以类聚的思想,相同性质的点在空间中表现得较为紧密和接近,主要用于数据探索和异常检测

频繁模式挖掘

序列模式:找出序列数据库中数据之间的先后顺序。比如:用户访问某个网站各个网页的顺序。
关联规则:找出事务数据库中数据之间的并发关系。比如:啤酒和尿布
关联规则挖掘不关注事务之间的先后顺序,序列模式挖掘需要考虑序列间的先后顺序

推荐算法

协同过滤

协同过滤简单来说就是利用某个兴趣相投、拥有共同经验的群体的喜好来为个体用户推荐其感兴趣的资讯或物品。
换句话说就是,借鉴和你相关的人群的观点来进行推荐。

协同过滤的目标:在于填充“用户-项【资讯或物品】” 关联矩阵中的缺失项。
spark.ml使用交替最小二乘算法来学习这些潜在因子。

降维算法

数据降维

特征工程

标签:学习,pipelines,标签,分类,DataFrame,machine,算法,learning,ML
来源: https://blog.csdn.net/penriver/article/details/121128559