不用学python,这个爬虫软件帮你完成80%的数据采集工作
作者:互联网
摘要:写在前面: 本文转载自公众号“营销沉思录”中《不用学python,这个软件帮你完成80%的数据采集工作》,作者分享了工作中使用八爪鱼的经验和技巧,以自己的切身经历帮助正在学习八爪鱼采集的朋友们,下面就开始进入正题吧。
首先想要说的是,等你掌握了爬虫软件之后你就会发现自己简直就是打开了新世界的大门!比如像我每周一都要写周报,所有的数据都需要从不同的来源手动搜集整理过来,外加上数据量巨大,每周的前三天我都是在加班加到吐血中度过!
之前有人推荐使用火车头采集器,摸索过了半天发现需要学习什么是正则表达式以及各类基本上的html的知识。我硬着头皮在w3cschool(http://www.w3school.com.cn/)这个网站学了几天html的知识,后面加上工作繁忙没有办法深入学习,后面在百度上找到了八爪鱼,于是便下载来体验下。
作为一个没有任何编程基础的人来说,八爪鱼是相对集搜客、火车头采集器和神箭手采集器来说体验是更加友好的。不过这个爬虫软件更新过很多个版本,每个版本的界面都有所微调以及功能上的优化,外加上官网上的图文教程和视频教程更新得比版本更加慢。
例如:现在的版本已经到了V7.3.2,但是现有的图文教程还是V6.4.3和V7.0。
面对这些学习困难,即便是翻过了八爪鱼官网上原有的图文教程视频教程以及其他的网络教学视频如搜外网的视频(https://www.seowhy.com/course/75),都不能很快的上手。因为按照现在所提供的内容,并不符合一个初学者的思维模式。
新手模式是在你告诉我一些基本概念之后,你先带我走一遍!
八爪鱼V7.2.3版本对于新手来说是有一定的难度的。因此我们应该先从八爪鱼V6.4.5这个版本学起,因为这个版本内置了新手引导模式!
下载软件并安装
因为官网上只有最新的版本,所以V6.4.5需要在百度上找下载源。
注册并登录软件
可以在官网上注册也可以从客户端直接注册皆可。登录V6.4.5后即可在界面上看到新手引导的内容(如红框所示)。
开始新手学习
单页面采集是最为简单的采集方式,单页面是指从只从一个页面上把所需的数据一次性采集下来,但是在一般的需求中其实这个需求用的并不是很多,除非是多个URL需要采集,则可以通过这个方式来配置规则。
开始采集
根据绿框内容的引导点击相应的按钮即可。
创建任务
在创建任务栏有4种模式可选,用户可以根据自己的需求来进行选择。
创建规则名称
点击下一步
输入所需采集的页面网址
点击下一步
点击下一步即可进入选择采集数据字段。
选择采集字段及内容
在这里即打开了刚刚输入的网址,首先选择网页的标题,后选择其正文内容。至此单页面的规则就已经写好了。
点击下一步
点击下一步,进入规则的运行测试阶段。
启动单机采集
八爪鱼有多种采集模式,单机采集和云采集。对于免费版和专业版来说,只能单机采集。不过已经能够满足大多数用户的初级需求,如果到了企业级的就需要买旗舰版了。
采集完成及导出数据
导出时可选择excel、csv、html以及本地数据库这四种模式。
两个版本对比说明
通过新手引导的教程我们就能掌握最最基本的数据采集操作,对于新手来说先掌握好向导模式,利用向导模式来采集单页面的单个数据,单个网页上列表及列表超链接跳转后的页面内容,都能够通过向导模式来实现,这样才能逐步了解这个采集器的工作原理。
后面则可以开始使用自定义模式。自定义可以实现多页面内容的深入采集以及页面内的循环采集。例如我就是用了八爪鱼采集梅花网上的文章数据,不过现在八爪鱼V7.2.3的版本无法实现导出html时以文章标题作为html的命名。
在V6.4.5中如果不想自己写规则,想要利用平台自带的规则还需要上官网进行下载。在V7.2.3中一些常见的规则直接内置,可以通过点击“简易模式”就能直接体验。(如下图)
另外V7.2.3的自定义采集其实分为三个部分的:
点击“自定义采集”的“立即使用”进入的自己写规则的模式。
这个实际上就是V6.4.5的高级模式,可以随心所欲的配置规则。
如果点击“自定义模式”的”立即使用“边上的下拉按钮,就可以分别看到向导模式和智能模式。
向导模式和V6.4.5的向导模式操作是一样的。
另外一个智能模式就比较黑科技了。对你只需要丢一个网址在里面就能给你一个列表,不过这个比较适合从单页面上采集表格内容。
我们以罗辑思维在喜马拉雅FM上的这个页面(http://www.ximalaya.com/1412917/album/239463/)为例子:
首先我们在浏览器上打开这个网页网址即可见到上图。
下拉该网页即可看到我们想要采集这些音频的列表。
将网址粘贴到智能采集的地址栏中,点击放大镜的按钮。页面就会先打开网页后开始建模,页面即如上图。
建模后软件给出了2个结果。我们可以分别点开来查看,是否满足自己的需求。因为我们想要采集各音频的数据情况,所以选择结果1.
因此我们在结果一的界面最下方选择开始采集---本地采集。
如上图,软件就按照结果一的需求开始正式的内容采集了。完成会自动提示你是否需要导出数据或者稍后到导出。
另外数据资料也可以通过“任务--智能采集--该采集任务名称---查看数据--本地采集数据”进行二次查看。
写在最后:
其实八爪鱼算是各类采集器中体验较好并且上手容易的一款工具了。为什么我们需要学习这样的一款工具,因为不管你是一个营销狗或者是运营喵,在竞争越来越激烈的环境下,利用数据采集工具,我们可以更好的了解用户信息和对手信息。例如,很多人通过利用八爪鱼去采集淘宝评论进而优化服务,也有很多通过八爪鱼去查询各竞争对手的动态,保证知己知彼百战不殆,同时可以再学习下excel或者MySQL之类的数据库,后面对于增强整体的数据处理能力都会有极大的提升。
标签:V6.4,python,八爪,爬虫,80%,采集,点击,模式,页面 来源: https://blog.csdn.net/BAZHUAYUdata/article/details/100742370