爬虫前导知识
作者:互联网
#1.端口
每一个应用程序都有他们独立的标识 这个标识我们称之为端口
Eg QQ发消息是QQ接收而不是微信呢
#2.通讯协议
TCP/IP 国际组织定义的通用的通信协议
HTTP 超文本传输协议 通讯协议 80 html 超文本标记语言 超文本(网页源代码html)
#3.网络模型
https = http + ssl 是以安全为目标的http通道 443
- http的安全版本 ssl是用于web的安全传输协议
- http和ssl是在应用层的
#4HTTP的请求和响应
1)General的全部
Request URL 请求的地址
Request Method 请求的方式(get post 一般我们看到的是啥请求方式就用啥请求方式 但有时也要具体情况具体分析)
Status Code 状态码
静态加载的页面 数据都在网页源码中
动态加载的页面 Requests URL(目标url)是需要去network中分析数据包才能找到的 response看响应的结果
2)Request Header
headers请求头 = {
请求方式 目标url (不加)
Host: www.baidu.com 域名 (可加可不加)
Connection: keep-alive 长连接 (不加)
User-Agent: 用户代理(操作系统、浏览器和浏览器版本号) 一般是反反爬的第一步 (加)
Accept-Encoding: gzip, deflate (不加 加了数据可能会出现问题)
Cookie:xxx 记录了服务器与用户的信息 (加不加看情况) 一般有时间限制
Referer:xxx 页面跳转 记录了当前页面是由哪个页面(url)过来的 (加不加看情况)
}
3)Response Header
Query String Parameters
有url中的所有参数
#5爬虫的介绍
爬虫:代替人模拟浏览器去访问和获取互联网上信息的一个小程序
爬虫的分类;
通用网络爬虫 eg baidu google
聚焦网络爬虫 到互联网上有选择有目的的去抓取特定的目标和相关主题内容
其他的:增量式、深层网络爬虫(不需要了解)
为什么要爬虫呢?- 为其他程序提供数据源
- 数据分析
- AI人工智能
企业获取数据的方式?
- 公司自己有的数据
- 第三方数据平台
- 免费的大数据平台
- 付费的大数据平台
- 爬虫爬取的数据 爬虫开发者
标签:http,请求,url,知识,爬虫,ssl,前导,页面 来源: https://blog.csdn.net/weixin_51294723/article/details/119299415