标签:事实胜于雄辩 疫情 手把手 组件 印度 数据源 教你做 数据 ETL
5月5日当天,印度新增新冠确诊病例41万,又刷新了单日确诊的新记录。自4月份以来,印度的疫情持续蔓延,从4月初的单日确诊2万多人,到现在已经突破了单日40万人,印度医疗系统已经濒临崩溃,医院病床、医护人员、呼吸机、氧气和药品已经严重匮乏,供不应求。就连火葬场也是不堪重负,很多公园、停车场、广场都被改造成露天焚烧场,遍地的尸体等着焚烧。一时间,印度已俨然成为了众人眼中的人间炼狱。
相信有不少人对印度的疫情也是非常关心的,为此我对印度疫情的数据进行了整理和分析,希望从数据分析的角度来观察印度的疫情,并把分析的过程分享给大家。下面开始教大家如何去对疫情数据进行分析。
一、数据源
做数据分析第一步,必不可少的当然是要有一份数据源。关于疫情的的数据源大家可以在github.com这个网站上找到,这个网站上有很多开源的数据源,都可以免费下载。在以下这个界面里可以找到关于新冠疫情的数据源,我们找到全球每日新冠确诊的这一份数据源下载即可:
数据源下载后,是一份CSV文件,由于都是英文,我们看起来会有点不方便,但是也不会太难,第一列是省份,第二列是国家名,第三、第四列是经纬度,后面剩下的就是日期。由于这份数据源是包括全球各个国家的数据,而且表格样式不是标准的数据源样式,所以我们要对数据源进行进一步的加工:
二、数据清洗
做数据清洗我们常用的工具有EXCEL、ETL或者编程软件,这里我推荐大家用ETL工具,因为ETL比较傻瓜式,而且功能十分强大,对于没有编程基础的同学非常适合。我这里选用的是智分析的ETL工具,是为数不多的ETL处理神器:
第一步:在ETL界面里找到EXCEL文件的组件,把组件拖拽到界面中:
在右边的上传文件界面里上传你的本地EXCEL文件,上传成功后选择“执行到此处”:
执行完程序后,对输出后的数据进行预览:
第二步:由于本地数据源包含了两个SHEET,我们可以利用“读取EXCEL SHEET”这个组件进行筛选:
第三步:数据源包含了世界上所有国家的数据,我们要先对国家的名字进行过滤,对行数据选择印度即可。我们把“行选择”这个组件拖拽进去,并与上面的组件进行相连:
执行后效果如下,印度这一行的数据被成功提取出来了:
第四步:数据源中省份以及经纬度这两列数据我们是不需要的,我们可以通过“列选择”这个组件把这几列给过滤掉:
执行后效果如下,把省份以及经纬度的列字段给过滤掉了:
第五步:由于日期分布在列字段里,我们需要对列字段进行逆透视的操作,把“列转行”的组件拖拽进去:
执行后效果如下:
第六步:因为确诊值这列的值是实时累计的数据,并非是新增的值,所以这里我们要新增一个派生列,取每一天的环比值:
派生列里输入函数语句,便可以得到以下的结果,新增了一列“环比昨天”的字段,也就是每天新增的值:
完成了数据清洗的工作后,把最终输出的结果保存在智分析的数据库中即可。
三、数据可视化
如要要对清洗后的数据源完成可视化的操作,需要用到仪表盘的功能,但是不能够直接在仪表盘里读取数据源,还需要进行数据集的加工。点击数据准备里的自助数据集,读取您的数据源文件,可对数据的字段属性进行修改或者调整,如无需调整直接保存为数据集文件即可:
打开分析展现里的自助仪表盘,读取刚刚保存好的数据集文件,把数据集中的字段拖拽到行、列里,再对配图进行设置,便可以制作出一个还不错的图形。例如下面,我把日期的字段拉拽到列区,行区是环比昨天(新增)的数据,搭配的图形是趋势图,通过鼠标的拉拽,便可以快速在仪表盘里得到分析结果:
以上便是疫情数据的一个简单的分析过程,当然分析维度还有很多,因篇幅有限这里就不多做介绍,有兴趣的同学可以根据以上的步骤去对疫情数据进行提取、清洗和可视化的操作,相信对你的数据工具的学习会有很大的提升。
标签:事实胜于雄辩,疫情,手把手,组件,印度,数据源,教你做,数据,ETL
来源: https://blog.csdn.net/hxc441781198/article/details/116483640
本站声明:
1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。