编程语言
首页 > 编程语言> > python – 存储倒排索引

python – 存储倒排索引

作者:互联网

我正在开发一个关于Info Retrieval的项目.
我使用Hadoop / Python制作了完全倒置索引.
Hadoop将索引输出为(word,documentlist)对,这些对写在文件上.
为了快速访问,我使用上面的文件创建了一个字典(哈希表).
我的问题是,如何在磁盘上存储这样一个也具有快速访问时间的索引.
目前我正在使用python pickle模块存储字典并从中加载
但它会立刻将整个索引带入内存(或者它是什么?).
请建议一种有效的方法来存储和搜索索引.

我的字典结构如下(使用嵌套字典)

{word:{doc1:[locations],doc2:[locations],….}}

这样我就可以得到包含单词的文档了
字典[word] .keys()…等等.

解决方法:

shelve

At present I am storing the dictionary using python pickle module and loading from it but it brings the whole of index into memory at once (or does it?).

是的它确实带来了一切.

那是问题吗?如果这不是一个实际问题,那么坚持下去.

如果这是一个问题,你有什么问题?太慢了?太快?太多彩了?使用的内存太多了?你有什么问题?

标签:python,information-retrieval,inverted-index
来源: https://codeday.me/bug/20190621/1257444.html