首页 > TAG信息列表 > apache-spark-ml

python-将字符串列转换为矢量列Spark DataFrames

我有一个Spark数据框,看起来如下: +-----------+-------------------+ | ID | features | +-----------+-------------------+ | 18156431|(5,[0,1,4],[1,1,1])| | 20260831|(5,[0,4,5],[2,1,1])| | 91859831|(5,[0,1],[1,3]) | | 206186631|(5,[3,4,

python – 将数据从Dataframe传递到现有ML VectorIndexerModel时出错

我有一个Dataframe,我想用它来预测现有的模型.使用模型的transform方法时出错. 这就是我处理trainingdata的方法. forecast.printSchema() 我的Dataframe的架构: root |-- PM10: double (nullable = false) |-- rain_3h: double (nullable = false) |-- is_rain: double (null

python – 遇到丢失的功能时,Apache Spark会抛出NullPointerException

在为要素中的字符串列编制索引时,我对PySpark有一个奇怪的问题.这是我的tmp.csv文件: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 我在’x0’中有一个缺失值. 首先,我正在使用pyspark_csv:https://github.co

如何在PySpark mllib中滚动自定义估算器

我想在PySpark MLlib中构建一个简单的自定义Estimator.我有here可以写一个自定义的Transformer,但我不知道如何在Estimator上做.我也不明白@keyword_only是做什么的,为什么我需要这么多的setter和getter. Scikit-learn似乎有适合自定义模型的文档(see here但PySpark没有. 示例模型

python – 在PySpark ML中创建自定义Transformer

我是Spark SQL DataFrames和ML的新手(PySpark). 如何创建服装标记器,例如删除停用词并使用nltk中的某些库?我可以延长默认值吗? 谢谢.解决方法: Can I extend the default one? 并不是的.默认Tokenizer是pyspark.ml.wrapper.JavaTransformer的子类,与pyspark.ml.feature中的其他tra

如何使用初始GaussianMixtureModel训练GMM?

我们正在尝试用指定的方法训练高斯混合模型(GMM) python中的初始模型与Spark上的MLLIB.pyspark的Doc 1.5.1文档说我们应该使用GaussianMixtureModel对象作为输入对于GaussianMixture.train方法的“initialModel”参数.在创建我们自己的初始模型之前(计划是使用Kmean例如结果),我们

如何从MultilayerPerceptronClassifier获取分类概率?

这似乎与:How to get the probability per instance in classifications models in spark.mllib最相关 我正在使用spark ml进行分类任务,构建一个MultilayerPerceptronClassifier.一旦我构建了一个模型,我可以得到一个给定输入向量的预测类,但是我不能得到每个输出类的概率.上面的清