首页 > TAG信息列表 > text-mining

python-使用Gensim提取短语时出错

我正在尝试使用Gensim中的短语来获取句子中的双字母组,如下所示. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present

python-无法使用NLTK tokeniser处理重读单词

我正在尝试使用以下代码来计算utf-8编码文本文件中单词的频率.成功标记文件内容,然后遍历单词后,我的程序无法读取带重音的字符. import csv import nltk from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords print "computing word frequency..." if

python中的单词聚类列表

我是文本挖掘的新手,这是我的情况. 假设我有一个单词列表[[car],’dog’,’puppy’,’vehicle’],我想将单词聚类为k组,我希望输出为[[‘car’,’vehicle’ ],[‘dog’,’puppy’]].我首先计算每个成对单词的相似度得分,以获得4×4矩阵(在这种情况下)M,其中Mij是单词i和j的相似度得

使用Python中的Scipy Hierarchy Clustering进行文本聚类

我有一个文本语料库,每个文章包含1000个文章.我试图在python中使用Scipy使用层次结构聚类来生成相关文章的集群. 这是我用来进行聚类的代码 # Agglomerative Clustering import matplotlib.pyplot as plt import scipy.cluster.hierarchy as hac tree = hac.linkage(X.toarray(),

如何判断两个Web内容是否相似?

鉴于2个html源代码,我想首先使用类似于this的东西从中提取主要内容.是否有任何other better libraries – 我特意寻找Python / Javascript代码? 一旦我有两个提取的内容,我想要返回0到1之间的分数,表示它们有多相似,例如来自美国有线电视新闻网和英国广播公司的同一主题的新闻文章

如何计算段落中的单词数并排除某些单词(从文件中)?

我刚刚开始学习Python,所以我的问题可能有点傻.我正在尝试创建一个程序: – 导入文本文件(得到它) – 计算单词总数(得到它), – 计算特定段落中的单词数量,从特定短语开始(例如“P1”,以另一个参与者“P2”结尾),并从我的单词计数中排除这些单词.不知怎的,我最终得到了一些可以计

使用nltk和scikit-learn从文本中为标签云挑选最相关的单词

我想从文本中获取最相关的单词以准备标签云. 我使用scikit-learn包中的CountVectoriser: cv = CountVectorizer(min_df=1, charset_error="ignore", stop_words="english", max_features=200) 这很好,因为它给了我的话和频率: counts = cv.fit_transform([text]).toarray().ra

用python数据帧中的新结尾替换单词的结尾

我有一个充满法语单词,结尾和新结尾的Dataframe.我想创建第4列,替换为单词,如下所示: word |ending|new ending|what i want| -------------------------------------- placer |cer |ceras |placeras | placer |cer |cerait |placerait | placer |cer |ceront

python – 使用字典替换数据框中的Internet首字母缩略词

我正在开发一个文本挖掘项目,我正在尝试使用手动编写的字典替换文本中存在的缩写,俚语和互联网首字母缩略词(在数据框列中). 我面临的问题是代码在dataframe列中的第一个单词停止,并且不会用dict中的查找单词替换它 这是我使用的示例字典和代码: abbr_dict = {"abt":"about", "b/c"

使用PHP在文本正文中查找3-8个单词常用短语

我正在寻找一种使用PHP在文本体内查找常用短语的方法.如果在php中不可能,我会对其他可以帮助我完成此操作的网络语言感兴趣. 记忆或速度不是问题. 现在,我能够轻松找到关键字,但不知道如何搜索短语.解决方法:我编写了一个PHP脚本来实现这一点,right here.它首先将源文本拆分为一个

什么是解析文章内容的Wikipedia XML转储并填充MySQL数据库的快速方法?

对于某些文本挖掘应用程序,我需要识别英语维基百科中每篇文章的每个单词的频率,并使用该数据填充MySQL数据库. This official page建议在转储上使用mwdumper或xml2sql,但它们并不直接用于我的目的(除非有人可以解释它们如何). 另一方面,使用WikiExtractor,用于Python的MySQLdb和本

python – 为什么我会收到错误? ValueError:块结构必须包含标记的标记或树

我一直在修补NLTK,目的是从一些新闻文章中提取实体,但我不断收到错误,ValueError:块结构必须包含标记的标记或树. 谁能帮我? import lxml.html import nltk, re, pprint def ie_preprocess(document): """This function takes raw text and chops and then connects the pro

java – 可以推荐哪种语言用于文本挖掘/解析?

我在网页上做一些文本挖掘.目前我正在使用Java,但也许有更合适的语言来做我想要的. 我想做的一些事情的例子: 根据字母,数字,字母数字,符号等部分(字母,数字,符号等)确定单词的字符类型(有更多类型). 根据统计数据发现停用词. 根据统计数据和一些逻辑,发现一些语法类(动词,名词,介词