数据库
首页 > 数据库> > MySQL中的n-gram计数

MySQL中的n-gram计数

作者:互联网

我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库中提取10,000个文本文件 – 这将产生性能问题.

我是MySQL的新手,所以我不确定它是否有任何内置功能进行n-gram分析,或者是否有好的插件可以做到这一点.请注意,在我的分析中,我需要达到至少4克(最好是5克),所以我见过的简单的2克插件在这里不起作用.我还需要能够在进行n-gram计数之前从文本文档中删除停用词.

来自社区的任何想法?

谢谢,

罗恩

解决方法:

我的建议是使用像lucene / solr这样的专用全文搜索索引程序,它对这类东西有更丰富和可扩展的支持.它需要你学习一点才能设置它,但听起来好像你想在一个难以在MySQL中自定义的水平上乱七八糟.

标签:mysql,nlp,full-text-search,n-gram
来源: https://codeday.me/bug/20190709/1418304.html