python – 存储倒排索引
作者:互联网
我正在开发一个关于Info Retrieval的项目.
我使用Hadoop / Python制作了完全倒置索引.
Hadoop将索引输出为(word,documentlist)对,这些对写在文件上.
为了快速访问,我使用上面的文件创建了一个字典(哈希表).
我的问题是,如何在磁盘上存储这样一个也具有快速访问时间的索引.
目前我正在使用python pickle模块存储字典并从中加载
但它会立刻将整个索引带入内存(或者它是什么?).
请建议一种有效的方法来存储和搜索索引.
我的字典结构如下(使用嵌套字典)
{word:{doc1:[locations],doc2:[locations],….}}
这样我就可以得到包含单词的文档了
字典[word] .keys()…等等.
解决方法:
At present I am storing the dictionary using python pickle module and loading from it but it brings the whole of index into memory at once (or does it?).
是的它确实带来了一切.
那是问题吗?如果这不是一个实际问题,那么坚持下去.
如果这是一个问题,你有什么问题?太慢了?太快?太多彩了?使用的内存太多了?你有什么问题?
标签:python,information-retrieval,inverted-index 来源: https://codeday.me/bug/20190621/1257444.html