不写代码可以写爬虫程序吗?老师说可以,无编码学爬虫之一。
作者:互联网
今天是持续写作的第 16 / 100 天。
如果你有想要交流的想法、技术,欢迎在评论区留言。
很多人把技术都放在了一个比较高的位置,但是技术真的只是达成目标的一种手段,完全不懂编程,不想写代码,能不能实现爬虫程序呢?答案当然是可以。
本系列文章将带你进入无编码写爬虫的大门,人人都可完成爬虫程序,人人都能采集到自己需要的数据。
Web Scraper 简介与安装
官方网址给出的定义: Making web data extraction easy and accessible for everyone
该插件属于浏览器插件,官方网址为 : https://www.webscraper.io/,官网中的下载地址如图所示。
该插件基于谷歌浏览器与火狐浏览器,但是访问谷歌插件商店需要科学上网,不好弄,建议在搜索引擎直接检索下载,如果检索不到,可以使用我帮你找的下面这个地址。
# 数据来源网络,你可以自行查找,资源非常多。
https://pan.baidu.com/s/1CfAWf0wMO6WqicoUgdYgkg 提取码: nn2e
在打开的页面中,下载文件夹和 crx 文件都可以,安装不存在差异。
浏览器插件安装
谷歌浏览器插件安装直接在浏览器地址栏输入 chrome://extensions/
,打开的页面中开启开发者模式。拖拽 crx 文件到浏览器插件页面即可。
拖拽的方式很容易出现的错误就是 程序包无效
,下图所示错误。
解决办法非常简单,修改 crx 文件后缀名为 zip,解压之后,通过文件夹进行安装。注意点击 加载已解压的扩展程序
,选择解压之后的文件夹即可。
安装完毕,将插件展示到浏览器扩展位置。按照以下两个步骤操作即可,最终在浏览器出现一个蜘蛛网图标表示成功。
如果还不是很清楚安装的过程,可以参照 CSDN 开发助手首页,Web Scraper 的安装过程与开发者助手是一致的。
插件官网:https://plugin.csdn.net/
除了检测插件图标以外,还需要在开发者工具中检查一下功能是否存在。开发者工具在最后增加了一项 Web Scraper
,出现该项就可以啦。
找个网站练练手
Web Scraper 特别像是一款软件,刚接触发现哪个按钮都不会点,使用一下发现,功能非常简单,只需要用鼠标就可以完成所有的操作了,基本上不用写代码(偶尔还是要敲几下键盘的)。
学习软件操作类的技能,最好的办法就是用中学,用着用着就会了,千万不要扣里面的细节知识点。
第一个要爬取的,暂定为 【人人都是产品经理】 这个网站。
打开 Web Scraper 之后,其实很容易就知道下一步该如何操作了,因为这三个按钮中只有第三个可以点击。
点击 Create new sitemap
表示创建一个网站导览,Sitemap name
理解成爬虫的名称就行,下面的 Start URL
起始页面地址,可以为多个 URL,本文案例不涉及,后面文章包含该内容。后面我们可以将 sitemap
就当成一个爬虫程序,这样就比较容易理解了。
输入 sitemap name
与 start url
之后,就可以创建一个待爬取的网站了。输入的内容如下:
- sitemap name : woshipm
- start url : http://www.woshipm.com/
创建完毕之后默认进入如下界面,注意两个位置,第一个红色框选区域,_root
表示根节点,记住是名词就行了,表示你刚才设置页面的网页结构。下面的按钮是一个选择器,稍后讲解。
此时注意到 sitemaps
已经可以点击,点击之后会罗列出所有的 sitemap
,其实就是你可以写多个爬虫程序,这个地方是个清单。
当点击某个爬虫程序进入内部之后,会发现菜单中还有一个细节变化。
进入到某个具体的爬虫程序之后,上面的下拉列表可以进行操作了,不过暂时忽略。
点击 add new selector
之后,跳转的页面为下图所示,重要的地方有两个,第一个是 Type
,该值的选择影响界面输入内容,还有一个需要注意,parent selectors
父选择器,注意里面的值现在是 _root
。
接下来的操作就非常有意思了,我们点选 Select
按钮。
静态图不是很少查看,使用动态图进行展示,点击该按钮之后,可以进入打开的网页进行选择,例如我点击的位置是文件的标题,点击一个之后,底色变红,在点击第二个,这样之后,Web Scraper 会自动将符合你点选规律的所有内容都选中,也就是下图展示的都为红色。你可以核对一下是否有问题,如无问题,点击窗口中间位置的 Done selecting
即可结束选择。
结束选择之后点击的按钮和最终的效果如图。
在 id 中书写一个名称之后,保存该选择器即可。
此时跳转的页面如下图所示:
点击右侧的 Data preview
之后,出现的界面发现只有一条数据,和我们预期希望获得的多条数据不一致,点击 Edit
进入 selector
继续修改。
勾选下图所示按钮之后,继续操作。
保存选择器,返回上一界面,在点击 Data preview
出现多条数据表示本次操作完成。
下面就要启动爬虫了,按照下图所示进行操作。
点击 Scrape
进入界面需要设置一下请求数量与每个页面的请求延迟,一般保持默认即可。
弹出一个小型浏览器界面,之后会跳转到如下界面。
点击页面中的刷新按钮,数据拿到完成任务。
最后一步选择导出数据到本地。
注意最终的本地文件中的列名称如下,前面两个是系统自动生成的忽略即可,最后的一列是我们希望的数据,并且列名为刚才定义的 id
值。
到此,第一个案例已经完成。一行代码没有写就完成了一个爬虫程序。
写在后面
肯定第一次学习的时候有朋友会说,好麻烦啊,还不如简单写程序,用 requests
爬取简单呢。其实不然,随着后续课程的展开,你会发现这玩意很好使,在某些网站,尤其是有反爬手段的网站,这个使用起来简单、粗暴、有效。
标签:编码,插件,浏览器,爬虫,点击,按钮,不写,页面
来源: https://blog.csdn.net/hihell/article/details/110734057想学 Python 爬虫,可以订阅橡皮擦专栏哦~