编程语言
首页 > 编程语言> > 算法之大数据

算法之大数据

作者:互联网

算法之大数据

参考链接

思想

  • 哈希函数可以把数据按照种类均匀分流
  • 布隆过滤器用于集合的建立与查询,并可以节省大量空间
  • 一致性hash解决数据服务器的负载管理问题
  • 利用并查集结构做岛问题的并行计算、
  • 位图解决某一范围上数字的出现情况,并可以节省大量空间
  • 利用分段统计思想、并进一步节省空间
  • 利用堆、外排序来做多个处理单元的结果合并

实践

出现次数最多的数字

未出现的数字

出现两次的数字

重复的URL

排序

Topk问题

总结

解决方法 场景
hash分流+hash词频统计+堆(排行榜) 排序、Topk
hash分流+hash词频统计(出现次数) 出现最多、重复
hash分流 所有
计数排序(排序) 出现最多、topk
位图(存在情况) 未出现、重复
布隆过滤器(判断存在) 重复

标签:文件,之大,算法,词频,内存,数组,hash,数据,亿个
来源: https://www.cnblogs.com/faetbwac/p/16508252.html