首页 > TAG信息列表 > k-means

如何在Java中实现k-means进行简单分组

我想知道Java中的简单k均值算法.我只想将k均值用于对一维数组进行分组而不是对多个数组进行分组. 例如,在对数组进行分组之前,包含2,4,7,5,12,34,18,25如果我们要四组,那么我们得到组1:2,4,5组2:7,12组3:18,25小组4:34解决方法:如果您需要的只是集群而不是实现,则可以看看Weka implemen

Sklearn Kmeans参数混淆?

因此,我可以按以下方式运行sklearn kmeans: kmeans = KMeans(n_clusters=3,init='random',n_init=10,max_iter=500) 但是我对参数的含义有些困惑 所以n_init说: Number of time the k-means algorithm will be run with different centroid seeds. The final results will be the

python – ValueError:标签数为1.使用silhouette_score时,有效值为2到n_samples – 1(包括)

我正在尝试计算剪影得分,因为我找到了要创建的最佳簇数,但得到的错误表明: ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive) 我无法理解这个原因.这是我用来聚类和计算轮廓分数的代码. 我读了包含要聚类的文本的csv,并在n个簇值上运行K-Mean

python – Spark的KMeans无法处理bigdata吗?

KMeans的training有几个参数,初始化模式默认为kmeans ||.问题是它快速(少于10分钟)前进到前13个阶段,然后完全挂起,不会产生错误! 再现问题的最小示例(如果我使用1000点或随机初始化,它将成功): from pyspark.context import SparkContext from pyspark.mllib.clustering import KM

用Java读取wav文件

我想用Java读取wav文件,我将用K-means对它们进行分类. 如何用Java读取wav文件并将它们分配到一个数组或类似的东西(你可以建议它的想法)来对它们进行分类? 编辑:我想使用API​​来读取wav文件和K-means.解决方法:A Greensted的这篇文章:Reading and Writing Wav Files in java应该会有

python – 按两个条件过滤的Numpy数组

我正在尝试运行自定义kmeans聚类算法,并且无法按群集获取2-d numpy数组的每列(term)的文档频率.我当前的算法有两个numpy数组,一个原始数据集按术语[2000L,9500L]列出文档,一个是聚类赋值[2000L,].共有5个集群.我需要做的是创建一个列出每个集群的文档频率的数组 – 基本上是列数与

python – 如何为k-means聚类选择初始质心

我正在努力在Python中实现k-means聚类.为数据集选择初始质心的好方法是什么?例如:我有以下数据集: A,1,1 B,2,1 C,4,4 D,4,5 我需要创建两个不同的集群.我如何从质心开始?解决方法:您可能想要了解K-means++方法,因为它是选择初始质心的最流行,最简单和最一致的结果方式之一.在这里你

java – 在ELKI中运行聚类算法

我需要以编程方式使用ELKI运行k-medoids聚类算法.我有一个相似矩阵,我希望输入到算法. 是否有任何代码片段可用于运行ELKI算法? 我基本上需要知道如何创建Database和Relation对象,创建自定义距离函数,以及读取算法输出. 不幸的是,ELKI教程(http://elki.dbs.ifi.lmu.de/wiki/Tutorial

python – 来自scipy.cluster.kmeans的不稳定结果

以下代码在每个运行时给出不同的结果,同时使用k均值方法将数据聚类为3个部分: from numpy import array from scipy.cluster.vq import kmeans,vq data = array([1,1,1,1,1,1,3,3,3,3,3,3,7,7,7,7,7,7]) centroids = kmeans(data,3,100) #with 100 iterations print (centroids)

python – sklearn:计算测试数据集上k-means的准确度分数

我正在对具有2个簇的30个样本的集合进行k-means聚类(我已经知道有两个类).我将我的数据分成训练和测试集,并尝试计算我的测试集上的准确度分数.但是有两个问题:首先我不知道我是否可以实际为k-means聚类做这个(测试集的准确度得分).第二:如果我被允许这样做,我的实现是写还是错.这是

python – 具有有限内存的kmeans聚类

我正在App Engine上开发一个应用程序,并且正在使用SciPy的kmeans2. 群集运行时,我收到此错误: 服务1个请求后,超出159.852 MB的软私有内存限制 这是我正在做的,color_data将是大约500万x,y,z点: def _cluster(color_data, k): """ Clusters colors and return top k Argum

在Python中使用scipy kmeans和kmeans2集群时出现问题

我有一个关于scipy的kmeans和kmeans2的问题.我有一组1700个lat-long数据点.我想在空间上将它们聚类成100个簇.但是,当使用kmeans vs kmeans2时,我得到了截然不同的结果.你能解释一下这是为什么吗?我的代码如下. 首先,我加载数据并绘制坐标.这看起来都很正确. import pandas as pd,

python – 如何分析sklearn中tfidf矩阵的值?

我正在使用sklearn的KMeans算法进行文档聚类 http://brandonrose.org/clustering 这是TFIDF矩阵的计算.我已经理解了TFIDF技术背后的概念,但是当我打印这个矩阵时,矩阵是这样的: (0, 11) 0.238317554822 (0, 34) 0.355850989305 (0, 7) 0.355850989305 (0, 21) 0.

在使用kmeans创建集群时,有没有办法输出每行的扭曲?

这是一些代码: df_tr_std = stats.zscore(df_tr[clmns]) km = KMeans(n_clusters=3, init='k-means++',n_init=10,max_iter=300,tol=1e-04,random_state=0) y_km = km.fit_predict(df_tr_std) 我尝试引用惯性_但这是总失真.以下代码用于计算各个距离: distance = euclidean_dista

Python – 输入包含NaN,无穷大或对于dtype(‘float64’)来说太大的值

我是Python的新手.我正在尝试使用sklearn.cluster. 这是我的代码: from sklearn.cluster import MiniBatchKMeans kmeans=MiniBatchKMeans(n_clusters=2) kmeans.fit(df) 但是我收到以下错误: 50 and not np.isfinite(X).all()): 51 raise ValueEr

如何找到有意义的单词来表示从word2vec向量派生的每个k-means集群?

我使用Python中的gensim包加载预先训练的Google word2vec数据集.然后,我想使用k-means在我的单词向量上找到有意义的聚类,并找到每个聚类的代表性单词.我正在考虑使用其对应的向量最接近群集质心的单词来表示该群集,但不知道这是否是一个好主意,因为我的实验没有给我带来好结果. 我

Python – 使用K-means进行聚类.某些列的方差为零

我有一个由~200个99×20频率组成的数据集,每列总和为1.我用热像图画了这些.每个阵列非常稀疏,每99个位置只有大约1-7 / 20个值非零. 但是,我想根据频率曲线的相似程度(最小欧氏距离或类似距离)对这些样本进行聚类.我已经将每个99×20阵列安排到一个1980×1阵列中,并将它们聚合成一

java – 如何获取weka集群质心的值

我正在使用weka kmeans分类器,我已经建立了一个模型.现在我想要聚集每个质心的中心值. 我在weka UI上得到它 Attribute Full Data 0 1 (48836) (39469) (9367) ============================================ tt 428.6238

c# – 如何保存Accord.Net K-Means的聚类结果以供重用?

我正在尝试保存Accord.Net K-Means的聚类结果,这样我每次运行程序时都不必重新计算. 我还想为每个群集分配永久的人类可读标签.如果我每次都要计算集群,这是不可能的.解决方法:在Accord.NET中,可以使用标准的.NET二进制序列化保存每个对象.这意味着您可以使用以下方法保存您的K-Mea