硬核科普:大数据如何快速找到你的同行者【大数据系列06集】
作者:互联网
【完整文案】
Hi,大家好,这里是晓阳的数据小站。新冠肺炎尽管给2020蒙上了一层阴影,但危机背后总有新的机遇到来。除了普及了口罩文化,还有一点值得注意的是,大数据被重视了起来。
如果问2020与2003有何区别,最大的区别在于社会一体化的程度大大加强了,同样的春运,带来的是不同的局面。在复杂局面下,用大数据来清理现状,寻找可能的传染源B,对于疫情防控的意义重大。
那么这里不禁要问了,全国14亿人,出行方式多种多样,我们怎样知道哪些人被感染的概率很大呢?
以火车出行为例,我们在12306购买车票,那么铁道部就有了我们的个人信息,包括姓名、电话号码、身份证号、性别、出行方式、车次、车厢、座位、上车站、下车站、换乘站等很多信息。我们把这些信息整理出来,就形成了一条一条的数据。
接下来就是本期的重点:MapReduce方法。MapReduce是大数据计算的核心方法,采用的是分而治之思想。简单说,如果数据太多,我们一下子算不过来,那就把数据分开,一块一块的算,最后把结果汇总起来就可以了。MapReduce有两个阶段,第一个是Map方法,把数据中相关的信息拿出来;第二个是Reduce方法,把不相关信息中的相关项拿出来,放在一起。
通过这种方法,如果我们想知道自己是否与患者有过同乘火车经历,就需要通过以下七个步骤来进行计算:
第一步,获取近期的全国出行数据,统一放到计算平台上;
第二步,进行第一次MapReduce计算,通过Map方法,拿出日期、身份证号、车次、车厢、座位等信息;
第三步,通过Reduce方法,将同一日期、同一车次下的身份证号都放在一起,例如1月23日G100车次所有身份证号称之为数据集A、1月25日G200车次所有身份证号称之为数据集B……;
第四步,将确诊病例的身份证号进行第一次标记;
第五步,进行第二次MapReduce计算,通过Map方法将标记身份证号所在的数据集拿出来,进行第二次标记;
第六步,通过Reduce方法,拿出标记数据集中的其余身份证号,进行第三次标记;
第七步,将第三次标记的身份证号对应的姓名和电话号码拿出来,挨个打电话,通知自行隔离。
这里大家就有一个直观的认知了,如果我们只有姓名,那么还是联系不到这个人,因此12306紧急做了更新,每个购票人都得有手机号才能买票……前一段时间的微博热搜都是紧急寻找某个车次的乘车人,并不是不知道这个人叫什么,只是联系不上而已。
那么普通人如何进行自我检查呢?国内已经有相关平台可以做查询了,接下来要做的,就是点开链接、输入车次、查看结果。当然,因为潜伏期有14天,加上现在的人数太多,导致数据更新不及时,如果近期出了门,接下来的1个月时间,自己查一下都是极好的。
但是,技术只是辅助,要想彻底避免感染的可能性,还是要少出门。就像《头号玩家》里说到的那样:“即使现实再令我恐惧,再令我痛苦,也只有在现实中,我才能真正吃顿好饭。”
标签:06,标记,方法,身份证号,MapReduce,车次,硬核,数据,同行者 来源: https://blog.51cto.com/u_15291990/2978854