n-gram

首页 > TAG信息列表 > n-gram

python-检测外来词

我正在编写一个脚本来检测语言A中来自语言B的单词.这两种语言非常相似,并且可能具有相同单词的实例. 如果您对到目前为止的内容感兴趣,可以在这里找到代码：https://github.com/arashsa/language-detection.git 我将在这里解释我的方法：我用语言B创建了一个双元组列表,使用语言A创建了

python-从二元语法列表中删除uni-gram

我设法从文本文档创建2个列表.首先是我的二元列表： keywords = ['nike shoes','nike clothing', 'nike black', 'nike white'] 以及停用词列表： stops = ['clothing','black','white'] 我想从“关键字”列表中删除“停止”.使用上面的示例,我追求的输出应如下所示：

可以在很短的时间内用Java搜索很大的ARPA文件

我有一个将近1 GB的ARPA文件.我必须在不到1分钟的时间内进行搜索.我已经搜索了很多,但是还没有找到合适的答案.我认为我不必阅读整个文件.我只需要跳到文件中的特定行并阅读整个行即可. ARPA文件的各行的长度不同.我不得不提到ARPA文件具有特定的格式. 文件格式 \data\ ngram 1=

Python NLTK：Bigrams trigrams fourgrams

我有这个例子,我想知道如何得到这个结果.我有文字,我对它进行了标记,然后我收集了二元组和三元组以及四元组 import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you? i am fine and you" token=nltk.word_tokenize(text) bigrams=ngra

在python中快速/优化N-gram实现

哪个ngram实现在python中最快？我试图描述nltk与vs scott的拉链(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/)： from nltk.util import ngrams as nltkngram import this, time def zipngram(text,n=2): return zip(*[text.split()[i:] for

python – 如何迭代DNA代码串中的每个[：2]重叠字符？

假设我有一串DNA’GAAGGAGCGGCGCCCAAGCTGAGATAGCGGCTAGAGGCGGGTAACCGGCA’ 考虑前5个字母：GAAGG 我想用一些与它们发生的可能性相对应的数字替换每个重叠的二元组’GA’,’AA’,’AG’,’GG’,将它们相加.像’GA’= 1,’AA’= 2,’AG’= .7,’GG’= .5.所以对于GAAGG,我的sumAnswer

MySQL中的n-gram计数

我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库中提取10,000个文本文件 – 这将产生

在Java 8中将标记流映射到n-gram流

我认为这是一个关于Java 8流的一个相当基本的问题,但我很难想到正确的搜索术语.所以我在这里问.我刚刚进入Java 8,所以请耐心等待. 我想知道如何将令牌流映射到n-gram流(表示为大小为n的令牌数组).假设n = 3,那么我想转换下面的流 {1, 2, 3, 4, 5, 6, 7} 至 {[1, 2, 3], [2, 3,

java – Android&模糊匹配,n-gram和Levenshtein距离

我正在构建一个Android应用程序,它采用字符串输入并使用Google API返回排名的书籍列表. 我正在寻找一种方法来比较用户输入的开放式字符串,以及列表中的第一项,以查看他们输入的内容是否“可能”是一本书.我有大量关于书籍,标题,作者,描述等的信息,所以我可以搜索任何部分. 一个例