数据获取
作者:互联网
数据获取手段
1.数据仓库
将所有业务数据经汇总处理,构成数据仓库(DW)
第一种是全部事实记录,第二种是部分维度与数据的整理(数据集市DM)
(1)数据库与仓库的区别
数据库面向业务存储(需要保证高并发、快速读取、数据精简等。为用户提供最优质的体验)。仓库面向主题存储(【根据一个个主题作为记录】主题:较高层次上对分析对象数据的一个完整并且一致的描述);
数据库针对应用(OLTP)、仓库针对分析(OLAP);
数据库组织规范,仓库可能冗余,相对变化大,数据量大
(2)监测与抓取
监测:使用监测设备或者算法直接获取数据。如传感器网络等
获取:直接解析网页、接口、文件的信息
抓取网站或者数据的工具
urllib、urllib2、requests、scrapy直接抓取
PhantomJS、Xpath(lxml)解析后抓取
beautifulSoup渲染数据(这样之后就可以解析抓取)
(3)填写、日志、埋点
填写:用户填写信息
埋点:APP或网页埋点(特点流程的信息记录点。跟踪app或网页被使用情况,以便优化。通常记录访客、页面查看、跳出率等等页面统计和操作行为)。直接记录用户与网络产品的交互过程,几乎可以复现。
操作日志:更加精简。分为前端日志和后端日志
计算:通过已有数据计算生成衍生数据
(4)数据学习网站
数据竞赛网站(kaggle、天池)
数据集网站(ImageNet/open images)
各领域统计数据(统计局、政府机构、公司财报等)
标签:记录,数据库,抓取,获取,日志,数据,埋点 来源: https://www.cnblogs.com/ning-cli/p/16035985.html