首页 > TAG信息列表 > inverted-index

为什么搜索引擎不使用mysql?

搜索引擎(或类似的Web服务)使用平面文件和nosql数据库.倒置索引的结构比多对多关系简单,但使用后者处理它应该更有效.几十亿个网页和数百万个关键字应该有两个表格.我已经测试了一张5000万行的表格; mysql的速度可以与BerkeleyDB的速度相媲美. 我认为处理大型mysql数据库的问题出现

C#通用集合中的反向索引

(对不起,如果标题是一个完整的红鲱鱼顺便说一句) 背景: 我正在使用Twitter Streaming API和ASP.NET SignalR实时开发世界上所有推文的地图.我正在使用Tweetinvi C#Twitter库使用SignalR将推文异步推送到浏览器.一切都按预期工作 – 请参阅http://dev.wherelionsroam.co.uk以了解它.

python – 存储倒排索引

我正在开发一个关于Info Retrieval的项目. 我使用Hadoop / Python制作了完全倒置索引.Hadoop将索引输出为(word,documentlist)对,这些对写在文件上.为了快速访问,我使用上面的文件创建了一个字典(哈希表).我的问题是,如何在磁盘上存储这样一个也具有快速访问时间的索引.目前我正在