简单爬虫设计(六)——原始网页数据存储方案选择
作者:互联网
文章目录
为什么要存原始数据
在实现一个生产环境可用的网络爬虫时,有一个问题几乎是无法绕过的,那就是网页原始数据的存储。
在比较简单的使用场景下,是不需要考虑如何保存原始网页的。例如,用户只想要某个网站的数据,而且只要达到某个数据量就可以了。如果在处理某个特殊页面时发生了异常,直接跳过这个页面也是可以接受的。
但是,一旦用户有数据质量的要求,就需要更加严肃而且完整的技术方案。在这些技术方案中,原始数据的存储和交换,都是必选项。也许有人认为,原始网页保存在网站那里就好了,需要的时候再去采集就好了。这个时候,就需要和用户沟通需求,如果用户认可,那就可以这么做。但根据个人的项目经验,把数据搜集全,是很刚性的需求,不太容易商量。
以易用性作为卖点的爬虫框架,会让使用者产生一些对于数据搜集技术的误解,因为他们屏蔽了太多技术细节。使用者只看到了基本流程:1、下载网页;2、抽取所需的数据;3、然后把这些抽取数据保存下来。却忽略了数据质量的需求。
为了实现较高的数据质量,就必须投入额外的成本,有时候这个成本会很高,但同时也就意味着高质量数据服务更值钱。
保存原始数据是提高数据质量的前提
简单说两个理由:
一、保存原始数据可以在网站改版的时候,保证数据不丢失,只要修改抽取规则,对原始网页重新处理即可。
二、原始数据是网页信息抽取模块的输入,原始数据可以让研发迭代信息抽取算法,优化用户使用体验。
原始数据存储方案
既然原始数据如此重要,我们需要怎么存储呢?
有这样一些技术方案,大致可以分为文件系统和数据库两大类,具体如下:
一、单机文件系统。
- 优点:简单。
- 缺点:无法支撑大规模应用,数据可靠性无法保障。
二、用分布式文件系统。
- 优点:解决了文件存储容量和扩展问题。
- 缺点:要选择分布式文件系统,有额外的成本。
三、把网页保存到关系数据库。
- 优点:可以存关联的信息,也方便访问。
- 缺点:大规模存储和归档都不好做,需要投入维护或者购买成本。
四、把网页保存到NoSQL,比如HBase、ES等。
- 优点:可以存关联的信息,也方便扩展。
- 缺点:要购买或维护NoSQL集群。
五、用对象存储。
- 优点:接口简单易用。
- 缺点:要购买或维护对象存储集群。
上面的存储方案,需要根据项目的具体情况进行选择。如果项目中已经使用了某些存储系统,就尽量复用。
在使用文件系统存储原始数据时,最好保存WARC格式的文件,而不是HTML文件。
题外话
在真实项目中,很难用一种存储技术支撑用户的多种使用场景。一般搜索会选择Solr或者Elasticsearch;图片和视频数据会选择分布式文件系统或者对象存储;原始网页一般会选择HBase或者MongoDB;原始数据归档会选择大文件。
小结
原始网页数据的存储是很重要的,需要根据用户需求和项目情况,选择合适的技术方案。
标签:存储,网页,用户,数据,爬虫,保存,原始数据 来源: https://blog.csdn.net/m0_48742971/article/details/122516230