编程语言
首页 > 编程语言> > 2020最新最全Python面试题整理(三)

2020最新最全Python面试题整理(三)

作者:互联网

1 常见的HTTP方法有哪些?

2 说一说redis-scrapy中redis的作用?


它是将scrapy框架中Scheduler替换为redis数据库,实现队列管理共享。
优点:

  1. 可以充分利用多台机器的带宽;
  2. 可以充分利用多台机器的IP地址。

3 遇到的反爬虫策略以及解决方法?

  1. 通过headers反爬虫:自定义headers,添加网页中的headers数据。
  2. 基于用户行为的反爬虫(封IP):可以使用多个代理IP爬取或者将爬取的频率降低。
  3. 动态网页反爬虫(JS或者Ajax请求数据):动态网页可以使用 selenium + phantomjs 抓取。
  4. 对部分数据加密处理(数据乱码):找到加密方法进行逆向推理。

4 如果让你来防范网站爬虫,你应该怎么来提高爬取的难度 ?

  1. 判断headers的User-Agent;
  2. 检测同一个IP的访问频率;
  3. 数据通过Ajax获取;
  4. 爬取行为是对页面的源文件爬取,如果要爬取静态网页的html代码,可以使用jquery去模仿写html。

5 scrapy分为几个组成部分?分别有什么作用?


分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。

标签:面试题,网页,请求,Python,爬虫,爬取,headers,2020,Spiders
来源: https://www.cnblogs.com/comewithmi/p/13780321.html