首页 > 其他分享> > 简单爬虫设计（六）——原始网页数据存储方案选择

简单爬虫设计（六）——原始网页数据存储方案选择

2022-01-17 21:00:16 作者：互联网

文章目录

为什么要存原始数据
保存原始数据是提高数据质量的前提
原始数据存储方案
题外话
小结

为什么要存原始数据

在实现一个生产环境可用的网络爬虫时，有一个问题几乎是无法绕过的，那就是网页原始数据的存储。

在比较简单的使用场景下，是不需要考虑如何保存原始网页的。例如，用户只想要某个网站的数据，而且只要达到某个数据量就可以了。如果在处理某个特殊页面时发生了异常，直接跳过这个页面也是可以接受的。

但是，一旦用户有数据质量的要求，就需要更加严肃而且完整的技术方案。在这些技术方案中，原始数据的存储和交换，都是必选项。也许有人认为，原始网页保存在网站那里就好了，需要的时候再去采集就好了。这个时候，就需要和用户沟通需求，如果用户认可，那就可以这么做。但根据个人的项目经验，把数据搜集全，是很刚性的需求，不太容易商量。

以易用性作为卖点的爬虫框架，会让使用者产生一些对于数据搜集技术的误解，因为他们屏蔽了太多技术细节。使用者只看到了基本流程：1、下载网页；2、抽取所需的数据；3、然后把这些抽取数据保存下来。却忽略了数据质量的需求。

为了实现较高的数据质量，就必须投入额外的成本，有时候这个成本会很高，但同时也就意味着高质量数据服务更值钱。

保存原始数据是提高数据质量的前提

简单说两个理由：

一、保存原始数据可以在网站改版的时候，保证数据不丢失，只要修改抽取规则，对原始网页重新处理即可。
二、原始数据是网页信息抽取模块的输入，原始数据可以让研发迭代信息抽取算法，优化用户使用体验。

原始数据存储方案

既然原始数据如此重要，我们需要怎么存储呢？

有这样一些技术方案，大致可以分为文件系统和数据库两大类，具体如下：

一、单机文件系统。

优点：简单。
缺点：无法支撑大规模应用，数据可靠性无法保障。

二、用分布式文件系统。

优点：解决了文件存储容量和扩展问题。
缺点：要选择分布式文件系统，有额外的成本。

三、把网页保存到关系数据库。

优点：可以存关联的信息，也方便访问。
缺点：大规模存储和归档都不好做，需要投入维护或者购买成本。

四、把网页保存到NoSQL，比如HBase、ES等。

优点：可以存关联的信息，也方便扩展。
缺点：要购买或维护NoSQL集群。

五、用对象存储。

优点：接口简单易用。
缺点：要购买或维护对象存储集群。

上面的存储方案，需要根据项目的具体情况进行选择。如果项目中已经使用了某些存储系统，就尽量复用。

在使用文件系统存储原始数据时，最好保存WARC格式的文件，而不是HTML文件。

题外话

在真实项目中，很难用一种存储技术支撑用户的多种使用场景。一般搜索会选择Solr或者Elasticsearch；图片和视频数据会选择分布式文件系统或者对象存储；原始网页一般会选择HBase或者MongoDB；原始数据归档会选择大文件。

小结

原始网页数据的存储是很重要的，需要根据用户需求和项目情况，选择合适的技术方案。

标签：存储,网页,用户,数据,爬虫,保存,原始数据
来源： https://blog.csdn.net/m0_48742971/article/details/122516230