首页 > 其他分享> > 轻轻学爬虫—scrapy框架巧用3

轻轻学爬虫—scrapy框架巧用3

2021-06-17 22:03:15 作者：互联网

# 轻轻学爬虫—scrapy框架巧用3 本节继续来学习scrapy框架，本博主会以不同方法，实战的方式来讲解爬虫。省去了全篇一律的方法。上节课我们学习了如何常见一个scrapy及一个spider。本节我们就在spider中实现一个简单的小爬虫。由于大部分的知识没有讲到，大家可以复制我的代码演示，后续我会把缺少的知识点，补上不要着急、 ![scrapy目录.png](http://www.icode9.com/i/li/?n=2&i=images/20210617/1623937761971463.png?,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=) 我们这次代码都在这个文件里写，直接上代码。 ## 爬虫案例 ```python import scrapy import bs4 class DangdangSpider(scrapy.Spider): #爬虫名字启动时候要用 name = 'dangdang' #可以写可以不写 allowed_domains = ['http://www.dangdang.com/'] #实际项目中url中可能会放对象而不是单纯的url start_urls = [{'url':'http://search.dangdang.com/?key=python&act=input','method':'GET'}] def start_requests(self): """ 重写请求 :return: """ #临时部分，后续会加到中间件 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36' } for req_obj in self.start_urls: mothod = req_obj.get('mothod',None) url = req_obj.get('url',None) if mothod == 'POST': data={} yield scrapy.Request(url, dont_filter=True, headers=headers, method="POST",body=data,callback=self.parse) else: yield scrapy.Request(url, dont_filter=True,headers=headers,method="GET",callback=self.parse) def parse(self, response): bs_res = bs4.BeautifulSoup(response.text, 'html.parser') li_list = bs_res.find_all('ul', class_='bigimg') for li in li_list: li_p_name = li.find_all('p', class_='name') for i in li_p_name: title = i.find('a').text url = i.find('a')['href'] print(title, url) ``` 大家可以复制我的代码，刚开始肯定有不懂的地方，我先大致讲解一下。 ### 类属性 name 爬虫名字启动时候要用我们起的名字是dangdang allowed_domains 爬虫作用范围，可以不写 start_urls 其实url可以放地址url也可以构造请求对象。 ### 方法 start_requests 这个是系统方法，我这里重写了这个方法，考虑到我们请求很多个网站时，通用框架时，请求方式参数都会变，这里做了重写。 parse 解析方法。start_requests请求后我们进行回调，将response解析。 ### 其他知识 bs4库解析html库后续会讲。xpath和正则后续都会涉及。目前代码很丑很简陋这没关系，美化也是我们学习的过程，有了代码后我们如何启动呢。打开终端执行下面命令。 ``` scrapy crawl dangdang ``` 注意：这个命令一定要在下面图片中的目录，不然找不到命令。 ![启动命令.png](http://www.icode9.com/i/li/?n=2&i=images/20210617/1623937774432129.png?,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=) 启动后爬虫会运行一大堆，看不懂的过程，没关系，我们下节课就来学习分析这些看不懂的东西，想要学好scrapy框架，这些是必须要掌握的。 ### 过程和结果 ![效果.png](http://www.icode9.com/i/li/?n=2&i=images/20210617/1623937781817094.png?,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=) 到这里一个小爬虫就写完了，这是我们写的第一个爬虫值得高兴。多理解一下上面粗糙的代码，等学过一定时间后你回头看看粗糙的说明你成长了。码字不易，欢迎大家在评论区留言，收藏。或者加入[群聊](https://jq.qq.com/?_wv=1027&k=vH00muGu)一起进步学习。

标签：url,爬虫,li,start,scrapy,com,巧用
来源： https://blog.51cto.com/u_15241290/2919620