编程语言
首页 > 编程语言> > Python爬虫学习笔记9.23

Python爬虫学习笔记9.23

作者:互联网

由于内容定位是个人学习笔记,所以并不适合作为系统的学习材料!!!


关于爬虫

我们可以把网站比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序

HTTP的无状态

HTTP 的无状态是指 HTTP 协议对事务处理是没有记忆能力的。当我们向服务器发送请求后,服务器解析此请求,然后返回对应的响应,服务器负责完成这个过程,而且这个过程是完全独立的,服务器不会记录前后状态的变化,也就是缺少状态记录。这意味着如果后续需要处理前面的信息,则必须重传,这导致需要额外传递一些前面的重复请求,才能获取后续响应。

会话与Cookie

会话在服务端,也就是网站的服务器,用来保存用户的会话信息;Cookies 在客户端,也可以理解为浏览器端,有了 Cookies,浏览器在下次访问网页时会自动附带上它发送给服务器,服务器通过识别 Cookies 并鉴定出是哪个用户(会话),然后再判断用户是否处于登录状态,然后返回对应的响应。

当客户端第一次请求服务器时,服务器会返回一个请求头中带有 Set-Cookie 字段的响应给客户端,用来标记是哪一个用户,客户端浏览器会把 Cookies 保存起来。当浏览器下一次再请求该网站时,浏览器会把此 Cookies 放到请求头一起提交给服务器,Cookies 携带了会话 ID 信息,服务器检查该 Cookies 即可找到对应的会话是什么,然后再判断会话来以此来辨认用户状态。

另外,会话底层是由Cookie实现的。

Cookie字段

代理的作用

代理分类

根据代理的协议,代理可以分为如下类别。

根据代理的匿名程度,代理可以分为如下类别。

内容参考(摘抄)自Python3 网络爬虫开发实战

标签:9.23,HTTP,Python,爬虫,代理服务器,代理,访问,Cookie,服务器
来源: https://www.cnblogs.com/sxrekord/p/python_crawler_learning_notes_9_23.html