首页 > TAG信息列表 > cluster-analysis
php-Google Maps-服务器端群集
我有大约50万个标记,自然不能全部显示.我已经尝试了MakerClusterer,但是对于js来说,在地图上绘制集群太复杂了.我在考虑server-side clusterer,但是它比JavaScript解决方案要慢得多!!! 您知道这个问题的解决方案吗?我知道500 000是一个非常大的数字,但是php应该至少与js一样快.这可能是java-使用WEKA API定义输入数据以进行聚类
我想聚类经度和纬度指定的点.我正在使用WEKA API问题出在Instances实例= new Instances(40.01,1.02);那么,如何在不使用ARFF文件的情况下指定输入数据?我只想将数组读入实例. import java.io.Reader; import weka.clusterers.ClusterEvaluation; import weka.clusterers.SimpleKMepython-计算k均值的距离时的环绕
我正在尝试使用sklearn对某些数据集进行K-均值聚类.问题在于,其中一个维度是一天中的一个小时:一个介于0-23之间的数字,因此距离算法认为0与23的距离非常远,因为从绝对意义上来说,它是23.实际上,出于我的目的,小时0非常接近小时23.是否有一种方法可以使距离算法进行某种形式的环绕,python-根据空间接近度对几何点进行分组
我在3D空间中有以下几点: 我需要根据D_max和d_max对点进行分组: D_max = max dimension of each group d_max = max distance of points inside each group 像这样: 上图中的组的形状看起来像一个盒子,但是形状可以是可以作为分组算法输出的任何形状. 我正在使用Python,并使用Blenpython中的单词聚类列表
我是文本挖掘的新手,这是我的情况. 假设我有一个单词列表[[car],’dog’,’puppy’,’vehicle’],我想将单词聚类为k组,我希望输出为[[‘car’,’vehicle’ ],[‘dog’,’puppy’]].我首先计算每个成对单词的相似度得分,以获得4×4矩阵(在这种情况下)M,其中Mij是单词i和j的相似度得如何在2D numpy数组中查找簇大小?
我的问题如下, 我有一个2D numpy数组填充0和1,具有吸收边界条件(所有外部元素都是0),例如: [[0 0 0 0 0 0 0 0 0 0] [0 0 1 0 0 0 0 0 0 0] [0 0 1 0 1 0 0 0 1 0] [0 0 0 0 0 0 1 0 1 0] [0 0 0 0 0 0 1 0 0 0] [0 0 0 0 1 0 1 0 0 0] [0 0 0 0 0 1 1 0 0 0] [0 0 0 1 0 1java – 将float数组分区为类似的段(clustering)
我有一个像这样的浮点数组: [1.91, 2.87, 3.61, 10.91, 11.91, 12.82, 100.73, 100.71, 101.89, 200] 现在,我想像这样对数组进行分区: [[1.91, 2.87, 3.61] , [10.91, 11.91, 12.82] , [100.73, 100.71, 101.89] , [200]] // [200]将被视为异常值,因为群集支持较少 我必须为几个使用Python中的Scipy Hierarchy Clustering进行文本聚类
我有一个文本语料库,每个文章包含1000个文章.我试图在python中使用Scipy使用层次结构聚类来生成相关文章的集群. 这是我用来进行聚类的代码 # Agglomerative Clustering import matplotlib.pyplot as plt import scipy.cluster.hierarchy as hac tree = hac.linkage(X.toarray(),python – dbscan – 最大集群跨度的设置限制
根据我对DBSCAN的理解,您可以指定一个100米的ε,并且 – 因为DBSCAN在查找群集时会考虑密度可达性而不是直接的密度可达性 – 最终得到一个最大距离的群集在任何两点之间是> 100米在更极端的可能性中,似乎可以设置100米的epsilon并最终得到1公里的簇: see [2][6] in this array of ipython – 用于聚类地理位置数据的DBSCAN
我有一个纬度和经度对的数据帧. 这是我的数据帧外观. order_lat order_long 0 19.111841 72.910729 1 19.111342 72.908387 2 19.111342 72.908387 3 19.137815 72.914085 4 19.119677 72.905081 5 19.119677 72.905081 6 19.119677 72.905081 7python – 按两个条件过滤的Numpy数组
我正在尝试运行自定义kmeans聚类算法,并且无法按群集获取2-d numpy数组的每列(term)的文档频率.我当前的算法有两个numpy数组,一个原始数据集按术语[2000L,9500L]列出文档,一个是聚类赋值[2000L,].共有5个集群.我需要做的是创建一个列出每个集群的文档频率的数组 – 基本上是列数与如何使用scipy的hierchical聚类将聚类分配给新的观察(测试数据)
from scipy.cluster.hierarchy import dendrogram, linkage,fcluster import numpy as np import matplotlib.pyplot as plt # data np.random.seed(4711) # for repeatability of this tutorial a = np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[100,]python – 如何为k-means聚类选择初始质心
我正在努力在Python中实现k-means聚类.为数据集选择初始质心的好方法是什么?例如:我有以下数据集: A,1,1 B,2,1 C,4,4 D,4,5 我需要创建两个不同的集群.我如何从质心开始?解决方法:您可能想要了解K-means++方法,因为它是选择初始质心的最流行,最简单和最一致的结果方式之一.在这里你java – 在ELKI中运行聚类算法
我需要以编程方式使用ELKI运行k-medoids聚类算法.我有一个相似矩阵,我希望输入到算法. 是否有任何代码片段可用于运行ELKI算法? 我基本上需要知道如何创建Database和Relation对象,创建自定义距离函数,以及读取算法输出. 不幸的是,ELKI教程(http://elki.dbs.ifi.lmu.de/wiki/Tutorial在C中处理非常大的距离矩阵(如果可能有帮助,则处理C)
我在我的软件中用C实现了这个聚类算法http://www.sciencemag.org/content/344/6191/1492.full(free access version),我需要建立一个距离矩阵,但在某些情况下,数据集的大小(在冗余删除之后)是巨大的(n> 1 500 000并且它甚至更大,在更复杂的情况下高达4 000 000).我的问题是,即使分c – 矢量量化中的马哈拉诺比斯距离与欧几里德距离
我使用C在OpenCV中完成了Kmeans聚类,并且有12个聚类中心(每个都有200个维度). 现在,我有200个维度的一组点,我正在尝试找到最接近的聚类(矢量量化). 哪个距离优于另一个距离(Mahalanobis距离或欧几里德距离)?目前我正在使用欧几里德距离.解决方法:Andrey’s point是有效的.我可以添网络集群和python
我有一个网络图数据,并希望根据节点之间的距离将节点分成簇.是否有任何python库或其他工具,我可以通过python脚本给出输入,并可以查询节点所属的集群.解决方法:scikit-learn包括各种clustering algorithms,包括一些接受距离矩阵作为输入. [免责声明:我参与了scikit-learn项目.]python – 具有有限内存的kmeans聚类
我正在App Engine上开发一个应用程序,并且正在使用SciPy的kmeans2. 群集运行时,我收到此错误: 服务1个请求后,超出159.852 MB的软私有内存限制 这是我正在做的,color_data将是大约500万x,y,z点: def _cluster(color_data, k): """ Clusters colors and return top k Argum在Python中使用scipy kmeans和kmeans2集群时出现问题
我有一个关于scipy的kmeans和kmeans2的问题.我有一组1700个lat-long数据点.我想在空间上将它们聚类成100个簇.但是,当使用kmeans vs kmeans2时,我得到了截然不同的结果.你能解释一下这是为什么吗?我的代码如下. 首先,我加载数据并绘制坐标.这看起来都很正确. import pandas as pd,python – 在3d数组的“切片”中置换行以相互匹配
我有一系列的2d数组,其中行是某些空间中的点.所有数组都有许多类似的点,但行顺序不同.我想对行进行排序,以便它们具有最相似的顺序.对于使用K-means或DBSCAN进行聚类,这些点也太不同了.问题也可以像这样.如果我将数组堆叠成3d数组,我如何置换行以最小化沿第二轴的平均标准偏差(SD)?python – 如何比较集群?
希望这可以用python完成!我在相同的数据上使用了两个集群程序,现在有两个集群文件.我重新格式化了文件,使它们看起来像这样: Cluster 0: Brucellaceae(10) Brucella(10) abortus(1) canis(1) ceti(1) inopinata(1) melitensis(1)python – 使用潜在的语义分析进行聚类
假设我有一个文档语料库,我在其上运行LSA算法.如何使用应用SVD后获得的最终矩阵来语义聚类出现在我的文档语料库中的所有单词?维基百科说LSA可用于查找术语之间的关系. Python中是否有可用的库可以帮助我完成基于LSA语义聚类单词的任务?解决方法:尝试gensim(http://radimrehurek.com/使用matplotlib Python绘制一系列图像
我正在Python中实现kmeans聚类算法.我想在每次迭代时绘制群集质量的状态(图像).所以,基本上我有一个循环,在每次迭代时绘制一个图像,我想要动画这个.我不知道我是否说清楚了.目前我只是使用show()命令绘制图像,但我必须关闭它才能继续迭代. 那么,是否有某种方法可以动画在每一步计Python – 使用K-means进行聚类.某些列的方差为零
我有一个由~200个99×20频率组成的数据集,每列总和为1.我用热像图画了这些.每个阵列非常稀疏,每99个位置只有大约1-7 / 20个值非零. 但是,我想根据频率曲线的相似程度(最小欧氏距离或类似距离)对这些样本进行聚类.我已经将每个99×20阵列安排到一个1980×1阵列中,并将它们聚合成一在python中获取sklearn中的簇大小
我正在使用sklearn DBSCAN来集群我的数据,如下所示. #Apply DBSCAN (sims == my data as list of lists) db1 = DBSCAN(min_samples=1, metric='precomputed').fit(sims) db1_labels = db1.labels_ db1n_clusters_ = len(set(db1_labels)) - (1 if -1 in db1_labels else 0) #Ret