首页 > TAG信息列表 > data-mining

如何在python中的sklearn中获取GridSearchCV中的选定功能

我使用交叉验证(rfecv)的递归特征消除作为GridSearchCV的特征选择技术. 我的代码如下. X = df[my_features_all] y = df['gold_standard'] x_train, x_test, y_train, y_test = train_test_split(X, y, random_state=0) k_fold = StratifiedKFold(n_splits=5, shuffle=True, ran

python-在Outlook中寻找API(任何语言)的有效演示,以便对电子邮件进行数据挖掘以生成社交图和知识图并进行标记.

我想在工作中对我的Outlook邮箱进行数据挖掘,以便能够更多地了解与人之间的互动以及他们的专业领域: >从“收件人:”和“抄送:”列表中生成社交图,以将人显示为网络上的节点,并与他们进行交互的人之间有界线 >用概念标记人(例如,代词和公认的公司定义概念以及电子邮件中的同义词) 这样

算法检测Python数据集中的重复/类似字符串(例如电子邮件主题)

这个问题已经在这里有了答案:            >            A better similarity ranking algorithm for variable length strings                                    22个 我正在下载一长串电子邮件主题行,目的是查找我

php-智能地抓取第一段/开始的文字

我想要一个可以在其中输入URL的脚本,它将智能地抓住文章的第一段…除了从< p>中提取文本外,我不确定从哪里开始.标签.您知道有关如何进行此类操作的任何提示/教程吗? 更新 为了进一步说明,我正在网站的一部分中,用户可以在Facebook上提交链接,该链接将从网站上获取图片以及文字.我正

python-SQL中的KD-Tree实现

有谁知道用SQL实现的KD-Tree或类似的空间索引?我当时正在考虑使用Python和Django的ORM编写自己的代码,但我想避免重新发明轮子. 我有一个包含数百万行的表,每行包含128列,分别代表图像特征数据.给定任意128个元素的长图像特征列表,我想使用KD-Tree在数据库中查找N个最相似的图像.我

mysql-在考试卷中链接类似的总和/问题

我正在开发一个应用程序,该应用程序从旧的试卷创建问题数据库.我想维护一张表格,将插入的类似问题联系在一起. (我想到的表是一个修改过的预排序遍历树). 我的要求是: >数字变化的单词问题应联系在一起 >应将专有名词/名称不同的单词问题联系在一起.> XYZ,ABC,PQR,MNO是等效的(例如

python-特征缩放(标准化)以及LabelEncode和OneHotEncode数据的最佳实践是什么

这里我们有训练数据(x_train)和测试数据(x_test)以及all_data,它们与训练和测试数据结合在一起 因此,如果我们对数据进行标准化,那么您认为哪一种是最佳做法? 假设我们正在使用熊猫和sklearn from sklearn.preprocessing import StandardScaler scaler = StandardScaler() >对火车

python-如何加快基于Apriori框架的速度,以仅生成关联规则,因此结果(右手侧)是数据集的一个元素?

我有一个具有60万行和15列的csv文件“ Col1,Col2 … COl15”.我想生成关联规则,其中只有右侧只有col15中的值.我正在使用here的apriori实现 它以这种方式计算每个项目集的minSupport: oneCSet = returnItemsWithMinSupport(itemSet, trans

Python解析框架

如果我需要促进从各种(非API)互联网资源中提取数据,是否有一种框架类型的解决方案可以简化让开发人员编写可重用但特定于源的大型解析器的过程?解决方法:我发现Pyparsing是一个Python库,对于解析自定义域特定语言非常有用.

python-使用Gensim提取短语时出错

我正在尝试使用Gensim中的短语来获取句子中的双字母组,如下所示. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present

python – dbscan – 最大集群跨度的设置限制

根据我对DBSCAN的理解,您可以指定一个100米的ε,并且 – 因为DBSCAN在查找群集时会考虑密度可达性而不是直接的密度可达性 – 最终得到一个最大距离的群集在任何两点之间是> 100米在更极端的可能性中,似乎可以设置100米的epsilon并最终得到1公里的簇: see [2][6] in this array of i

python – 如何为k-means聚类选择初始质心

我正在努力在Python中实现k-means聚类.为数据集选择初始质心的好方法是什么?例如:我有以下数据集: A,1,1 B,2,1 C,4,4 D,4,5 我需要创建两个不同的集群.我如何从质心开始?解决方法:您可能想要了解K-means++方法,因为它是选择初始质心的最流行,最简单和最一致的结果方式之一.在这里你

使用nltk和scikit-learn从文本中为标签云挑选最相关的单词

我想从文本中获取最相关的单词以准备标签云. 我使用scikit-learn包中的CountVectoriser: cv = CountVectorizer(min_df=1, charset_error="ignore", stop_words="english", max_features=200) 这很好,因为它给了我的话和频率: counts = cv.fit_transform([text]).toarray().ra

使用PHP在文本正文中查找3-8个单词常用短语

我正在寻找一种使用PHP在文本体内查找常用短语的方法.如果在php中不可能,我会对其他可以帮助我完成此操作的网络语言感兴趣. 记忆或速度不是问题. 现在,我能够轻松找到关键字,但不知道如何搜索短语.解决方法:我编写了一个PHP脚本来实现这一点,right here.它首先将源文本拆分为一个

python – mlpy – 动态时间扭曲取决于x?

我试图通过DTW获得下面显示的这两个数组之间的距离. 我正在使用提供的Python mlpy包 dist, cost, path = mlpy.dtw_std(y1, y2, dist_only=False) 据我所知,DTW确实照顾了“转移”.另外,从上面可以看出,mlpy.dtw_std()只接受2个1-D数组.所以我希望无论我如何左/右移动我的曲线,函

Python,用于频繁模式的Web日志数据挖掘

我需要开发一个用于Web日志数据挖掘的工具. 在特定用户会话中请求的许多网址序列(从网络应用程序日志中检索),我需要弄清楚网站用户的使用模式和组(群集). 我是Data Mining的新手,现在正在检查Google. 找到一些有用的信息,即查询Frequent Pattern Mining in Web Log Data似乎指向几

java – 使用什么数据挖掘应用程序?

我使用的最后一次是weka .最后我听说java为它提出了一个API(JDM).任何人都可以与这些工具分享经验.我最感兴趣的是使用这些工具进行分类/聚类(weka在这里做得不错),该工具应该有很好的API支持.解决方法:我使用Weka进行文本分类.很不错. book也不错.一个框架的想法,你可以保持数据表

python – 从文本中提取关系

我想以(SUBJECT,OBJECT,ACTION)关系的形式从非结构化文本中提取关系, 例如, “那个男孩坐在桌子上吃鸡肉” 会给我的,(男孩,鸡,吃的)(男孩,表,LOCATION) 等等.. 虽然python程序NLTK可以处理如上所述的这么简单的句子. 我想知道你是否有人使用工具或库优选开源来从更广泛的领域中提