首页 > TAG信息列表 > apache-spark-mllib

python-如何在Spark中对以DenseVector为键的RDD进行groupByKey?

我创建了一个RDD,每个成员是一个键值对,键是DenseVector,值是int.例如 [(DenseVector([3,4]),10), (DenseVector([3,4]),20)] 现在,我想按密钥k1分组:DenseVector([3,4]).我希望该行为将键k1的所有值分组为10和20.但是我得到的结果是 [(DenseVector([3,4]), 10), (DenseVector([

在理解python中的Spark MLlib的LinearRegressionWithSGD示例时遇到问题吗?

因此,我是机器学习和Spark的新手,并且正在阅读Spark MLlibs关于回归的文档,尤其是this page处的LinearRegressionWithSGD.我在理解python代码方面有些困难.这就是我到目前为止所了解的-代码加载数据,然后形成labeledpoint.之后,建立模型,然后根据训练数据进行评估,并计算MSE. 现在

python-将字符串列转换为矢量列Spark DataFrames

我有一个Spark数据框,看起来如下: +-----------+-------------------+ | ID | features | +-----------+-------------------+ | 18156431|(5,[0,1,4],[1,1,1])| | 20260831|(5,[0,4,5],[2,1,1])| | 91859831|(5,[0,1],[1,3]) | | 206186631|(5,[3,4,

python-SparkSession和上下文混淆

我有一个pyspark 2.0.0脚本,定义了以下会话: spark = SparkSession \ .builder \ .appName("Python Spark") \ .master("local[*]")\ .config("spark.some.config.option", "some-value") \ .getOrCreate() 我训练了一个随机森林

Spark和Java的分层抽样

我想确保我正在对数据的分层样本进行培训. 似乎Spark 2.1和更早版本通过JavaPairRDD.sampleByKey(…)和JavaPairRDD.sampleByKeyExact(…)对此提供了支持,如here所述. 但是:我的数据存储在Dataset< Row>中,而不是JavaPairRDD中.第一列是标签,所有其他都是功能(从libsvm格式的文件导

如何在PySpark mllib中滚动自定义估算器

我想在PySpark MLlib中构建一个简单的自定义Estimator.我有here可以写一个自定义的Transformer,但我不知道如何在Estimator上做.我也不明白@keyword_only是做什么的,为什么我需要这么多的setter和getter. Scikit-learn似乎有适合自定义模型的文档(see here但PySpark没有. 示例模型

python – Spark的KMeans无法处理bigdata吗?

KMeans的training有几个参数,初始化模式默认为kmeans ||.问题是它快速(少于10分钟)前进到前13个阶段,然后完全挂起,不会产生错误! 再现问题的最小示例(如果我使用1000点或随机初始化,它将成功): from pyspark.context import SparkContext from pyspark.mllib.clustering import KM

java – Apache Spark中的矩阵乘法

我正在尝试使用Apache Spark和Java执行矩阵乘法. 我有两个主要问题: >如何创建可以代表Apache Spark中的矩阵的RDD? >如何将两个这样的RDD相乘?解决方法:所有这些都取决于输入数据和维度,但一般来说你想要的不是RDD,而是来自org.apache.spark.mllib.linalg.distributed的分布式数据结

如何使用scala或python在apache spark中运行多线程作业?

我正面临一个与spark并发相关的问题,这阻碍了我在生产中使用它,但我知道有一条出路.我正在尝试使用订单历史记录为700万用户运行Spark ALS.首先,我将获取不同用户的列表,然后对这些用户运行循环以获取建议,这是一个非常缓慢的过程,需要几天时间才能获得所有用户的建议.我尝试用笛卡

在Pyspark中使用UDF函数时,密集向量应该是什么类型?

参见英文答案 > How to convert ArrayType to DenseVector in PySpark DataFrame?                                    1个 我想在pySpark中将List更改为Vector,然后将此列用于Machine Learning模型进行训练.但我的火花版本是1.6.0,没有Vecto

python – Spark mllib预测奇怪的数字或NaN

我是Apache Spark的新手,并尝试使用机器学习库来预测一些数据.我现在的数据集只有大约350个点.以下是其中的7个点: "365","4",41401.387,5330569 "364","3",51517.886,5946290 "363","2",55059.838,6097388 "362","1",43780.977,530469