其他分享
首页 > 其他分享> > 简单爬虫设计(六)——原始网页数据存储方案选择

简单爬虫设计(六)——原始网页数据存储方案选择

作者:互联网

文章目录

为什么要存原始数据

在实现一个生产环境可用的网络爬虫时,有一个问题几乎是无法绕过的,那就是网页原始数据的存储。

在比较简单的使用场景下,是不需要考虑如何保存原始网页的。例如,用户只想要某个网站的数据,而且只要达到某个数据量就可以了。如果在处理某个特殊页面时发生了异常,直接跳过这个页面也是可以接受的。

但是,一旦用户有数据质量的要求,就需要更加严肃而且完整的技术方案。在这些技术方案中,原始数据的存储和交换,都是必选项。也许有人认为,原始网页保存在网站那里就好了,需要的时候再去采集就好了。这个时候,就需要和用户沟通需求,如果用户认可,那就可以这么做。但根据个人的项目经验,把数据搜集全,是很刚性的需求,不太容易商量。

以易用性作为卖点的爬虫框架,会让使用者产生一些对于数据搜集技术的误解,因为他们屏蔽了太多技术细节。使用者只看到了基本流程:1、下载网页;2、抽取所需的数据;3、然后把这些抽取数据保存下来。却忽略了数据质量的需求。

为了实现较高的数据质量,就必须投入额外的成本,有时候这个成本会很高,但同时也就意味着高质量数据服务更值钱

保存原始数据是提高数据质量的前提

简单说两个理由:

一、保存原始数据可以在网站改版的时候,保证数据不丢失,只要修改抽取规则,对原始网页重新处理即可。
二、原始数据是网页信息抽取模块的输入,原始数据可以让研发迭代信息抽取算法,优化用户使用体验。

原始数据存储方案

既然原始数据如此重要,我们需要怎么存储呢?

有这样一些技术方案,大致可以分为文件系统和数据库两大类,具体如下:

一、单机文件系统。

二、用分布式文件系统。

三、把网页保存到关系数据库。

四、把网页保存到NoSQL,比如HBase、ES等。

五、用对象存储。

上面的存储方案,需要根据项目的具体情况进行选择。如果项目中已经使用了某些存储系统,就尽量复用。

在使用文件系统存储原始数据时,最好保存WARC格式的文件,而不是HTML文件。

题外话

在真实项目中,很难用一种存储技术支撑用户的多种使用场景。一般搜索会选择Solr或者Elasticsearch;图片和视频数据会选择分布式文件系统或者对象存储;原始网页一般会选择HBase或者MongoDB;原始数据归档会选择大文件。

小结

原始网页数据的存储是很重要的,需要根据用户需求和项目情况,选择合适的技术方案。

标签:存储,网页,用户,数据,爬虫,保存,原始数据
来源: https://blog.csdn.net/m0_48742971/article/details/122516230