其他分享
首页 > 其他分享> > 数据获取

数据获取

作者:互联网

数据获取手段

1.数据仓库

将所有业务数据经汇总处理,构成数据仓库(DW)

  第一种是全部事实记录,第二种是部分维度与数据的整理(数据集市DM)

(1)数据库与仓库的区别

  数据库面向业务存储(需要保证高并发、快速读取、数据精简等。为用户提供最优质的体验)。仓库面向主题存储(【根据一个个主题作为记录】主题:较高层次上对分析对象数据的一个完整并且一致的描述);

  数据库针对应用(OLTP)、仓库针对分析(OLAP);

  数据库组织规范,仓库可能冗余,相对变化大,数据量大

 

(2)监测与抓取

监测:使用监测设备或者算法直接获取数据。如传感器网络等

获取:直接解析网页、接口、文件的信息

 

抓取网站或者数据的工具

urllib、urllib2、requests、scrapy直接抓取

PhantomJS、Xpath(lxml)解析后抓取

beautifulSoup渲染数据(这样之后就可以解析抓取)

 

(3)填写、日志、埋点

填写:用户填写信息

埋点:APP或网页埋点(特点流程的信息记录点。跟踪app或网页被使用情况,以便优化。通常记录访客、页面查看、跳出率等等页面统计和操作行为)。直接记录用户与网络产品的交互过程,几乎可以复现。

操作日志:更加精简。分为前端日志和后端日志

计算:通过已有数据计算生成衍生数据

 

(4)数据学习网站

数据竞赛网站(kaggle、天池)

数据集网站(ImageNet/open images)

各领域统计数据(统计局、政府机构、公司财报等)

标签:记录,数据库,抓取,获取,日志,数据,埋点
来源: https://www.cnblogs.com/ning-cli/p/16035985.html