首页 > 其他分享> > 极客HTTP协议学习笔记破冰篇(1-7)

极客HTTP协议学习笔记破冰篇(1-7)

2021-07-20 18:33:49 作者：互联网

极客HTTP协议学习笔记破冰篇（1-7）

前言

因在之前的学习中从未系统的学习过HTTP相关的理论，对于很多HTTP相关的概念都特别的模糊，网上查资料也总是一知半解，时间长了捡了这又忘了那，所以在此记录一下学习笔记和学习方法，结合一点点背书的技巧来协助理解和记忆，避免学完就忘。

各篇章笔记链接

极客HTTP协议学习笔记破冰篇(1-7)
极客HTTP协议学习笔记基础篇(8-14)
极客HTTP协议学习笔记进阶篇(15-22)
极客HTTP协议学习笔记安全篇(23-29)-更新中
 极客HTTP协议学习笔记飞翔篇(30-33)-未开始
 极客HTTP协议学习笔记探索篇(34-38)-未开始
 极客HTTP协议学习笔记总结篇(39-40)-未开始

一、学习笔记

1、HTTP的前世今生

1989年，蒂姆·伯纳斯 - 李发表论文，提出在互联网上构建超链接文档系统的构想，并确立三大核心技术：URI，HTTP，HTML，蒂姆把这个系统成为万维网（World Wide Web）,HTTP诞生
90年代初使用的第一版HTTP被定义为0.9版，这时的HTTP是纯文本格式且只可以读不可以写，只能发送GET请求，服务器响应后自动关闭连接
1996年 HTTP/1.0版本正式发布，这时的HTTP/1.0不是一份标准，没有实际的约束力，增加了HEAD，POST等新方法，响应码，协议版本号，HTTP Header,传输数据也随着多媒体技术的发展而不再限制于文本，形式上接近于现在普及的HTTP/1.1
1999年HTTP/1.1发布RFC文档，它是一个正式的标准，具有实际的约束力，相较于HTTP/1.0,它做了小幅的优化，增加了PUT，DELETE等新方法，缓存管理和控制，明确了连接管理，允许持久连接，允许响应数据分块，强制要求Host头,2014年修订过一次，但无实际改动
随着互联网的不断发展，HTTP/1.1连接慢的问题显现，Google开发自家浏览器Chrome，然后推出新的SPDY协议，最终在2015年发布了HTTP/2,相较于HTTP/1.1，HTTP/2不再是纯文本，可以发起多个请求，使用算法压缩头部，允许服务器主动向客户端推送数据，要求加密通信,这一阶段HTTP的性能得到改善，但现在还未普及
HTTP/2 处于草案期间，Google又发明了一个新的协议，QUIC，于2018年，HTTP over QUIC 更名为HTTP/3

2、HTTP是什么

协议 HTTP是一个应用在计算机世界中的协议。它用计算机可以理解的语言确立了一种计算机之间交流通信的规范，以及相关的各种控制和错误处理方式
传输 HTTP是在计算机世界里专门用来传输数据的约定和规范（所谓传输，是双向的）
超文本 超越普通文本的文本，它可以是文字、图片、音频、视频等混合体，含有超链接，可以从一个文本跳到另一个文本
总结：
HTTP是计算机世界，用于在两点之间传输文字，图片，音频，视频等超文本数据的约定和规范。

HTTP不是一个孤立的协议，通常跑在TCP/IP协议栈之上，依靠IP协议来实现寻址和路由，TCP来实现可靠传输，DNS协议实现域名查找，SSL/TLS 协议实现安全通信等，这些协议共同构造了协议网，而HTTP则处于中心地位。

3、与HTTP相关的各种概念（上）

互联网 互联网像是由数不清的大小岛屿组成的“千岛之国”
浏览器(Web Browser) 查看互联网上资源的应用程序。在HTTP协议里，浏览器的角色被称为“User Agent”，即用户代理，意思是作为访问者的“代理”来发起HTTP请求。也称为客户端。
Web服务器(Web Server) HTTP协议的应答方,有两个层面的含义：硬件和软件。硬件含义指物理形式或“云”形式的机器。软件含义指提供Web服务的应用程序，通常运行在硬件含义的服务器上，利用硬件性能相应客户端HTTP请求，或者把请求转发给Tomcat等业务应用返回动态信息。
CDN(Content Delivery NetWork) 内容分发网络，它应用HTTP协议里的缓存和代理技术，代替源站响应客户端的请求。除了基本的网络加速外还提供负载均衡，全防护，边缘计算，跨运营商网络等功能，可以成倍放大源服务器的服务能力
爬虫(Crawler) 是一种可以自动访问Web资源的应用程序，爬虫的基本技术：HTTP，HTML
Web Service 是一种W3C定义的应用服务开发规范，使用client-server主从架构，通过使用WSDL定义服务接口，使用HTTP协议传输XML或SOAP消息，是一个基于Web(HTTP)的服务架构技术
WAF 网络应用防火墙，是应用层面的防火墙，可以阻止SQL注入，跨站脚本攻击，可以完全集成进Apache或Nginx.

4、与HTTP相关的各种概念（下）

TCP/IP 一系列网络通信协议的统称，除了TCP,IP协议，还有UDP，ARP，ICMP等，共同构成一个复杂但有层次的协议栈。
IP(Internet Protocol) 主要目的是解决寻址和路由的问题，以及如何在两点之间传输数据包。
TCP(Transmission Control Protocol) 传输控制协议，它位于IP协议之上，基于IP协议提供可靠的，字节流形式的通信，是HTTP协议得以实现的基础。 可靠是指数据不丢失，字节流是指保证数据完整性。HTTP 可以更准确称为“ HTTP over TCP/IP”
DNS(Domain Name System) 域名系统，域名又称为主机名，使用".“分隔成多个单词，从左到右级别逐渐升高，最右边的称为顶级域名
域名解析 把域名解析为真实IP的过程
URI(Uniform Resource Identifier) 统一资源标识符，用于唯一标识互联网上的资源。由协议名，主机名，资源路径组成
URL(Uniform Resource Locator) 统一资源定位符，URI的一个子集，俗称“网址”
HTTPS 全称"HTTP over SSL/TLS”,也就是运行在SSL/TLS协议上的HTTP
SSL/TLS 一个负责加密通信的安全协议（在传输层加密）
SSL(Secure Socket Layer) 安全套接层协议，使用了许多密码学最先进的研究成果，综合了对称加密，非对称加密，摘要算法，数字签名等技术，能够在不安全的环境中为通信的双方创建一个秘密的，安全的传输通道。
TLS(Transport Layer Security) 安全传输层协议，SSL发展到3.0时被标准化，标准化的SSL就成为TLS。
代理是HTTP协议中请求方和应答方中间的一个环节，可以转发客户端的请求也可以转发服务端的请求，分为匿名代理，透明代理，正向代理，反向代理，代理的作用：负载均衡、安全防护、内容缓存，数据处理

5、常说的“四层”，“七层”网络分层怎么理解

分层：把复杂的网络通信划分成多个层次，每一层负责不通的职责，层内只专心做自己的事情。
TCP/IP 网络分层模型：

链路层(MAC层)：负责在以太网，WiFi这样的底层网络上发送原始数据包，工作在网卡层次。
网际层(网络互联层)：IP协议所在层，用IP地址取代MAC地址，把局域网，广域网连接成一个巨大的虚拟网络，在网络里找设备需要把IP地址“翻译成”MAC地址
传输层：这层协议职责是保证数据再IP地址两点之间“可靠”的传输，是TCP和UDP所在的层次（TCP是有状态的协议，需要先建立连接才能发送数，保证数据不重复不丢失，UDP是无状态的，不用事先建立连接，不保证数据一定发送到对方，TPC是连续的“字节流”，先后有序，UDP是分散的小数据包，顺序发，乱序收）
应用层：有应用各种应用的协议，如Telnet,SSH,FTP,SMTP,HTTP

MAC层传输单位是帧，IP传输单位是包，TCP传输单位是段，HTTP传输单位是消息或报文，统称数据包
OSI网络分层模型(Open System Interconnection Reference Model):开放式系统互联通信参考模型

第一层：物理层，网络的物理形式
第二层：数据链路层，基本相当于TCP/IP的链路层
第三层：网络层，相当于TCP/IP的网际层
第四层：传输层，相当于TCP/IP的传输层
第五层：会话层，维持网络中的连接状态，保持会话与同步
第六层：表示层，把数据转换为合适可理解的语法和语义
第七层：应用层，面向具体的应用传输数据

四层负载均衡：基于TCP/IP，例如基于IP地址，端口号等对后端服务器的负载均衡
七层负载均衡：基于应用层，例如HTTP协议，基于HTTP里头的URI，应用名，资源类型，再应用适当的策略转发给后端服务器。

TCP/IP协议栈的工作方式
HTTP传输的过程就是通过协议栈逐层向下，每一层都添加本层的专有数据，层层打包再发送出去；接收数据则是，从下往上穿过协议层，层层拆包，每层去掉专有头，上层就会拿到自己的数据。HTTP下层的协议对于HTTP来说是不可见的。

6、域名里的门道

DNS的核心系统是一个三层树状、分布式服务，基本对应域名的结构：

根域名服务器：管理顶级域名
顶级域名服务器：管理各自域下的权威域名服务器
权威域名服务器：管理自己域名下主机的IP地址

操作系统做域名解析，首先在缓存里找，其次再hosts文件里找，找不到再去访问DNS，如果是在浏览器中访问网址，域名解析会在去操作系统缓存查找之前，先去浏览器缓存中查找

域名可以解决的问题：
1、“重定向”，因为域名代替了ip地址，所以如果需要更换特定域名的ip机器，可以修改DNS记录，让域名指向其他机器
2、可以做基于域名的负载均衡，域名解析可以返回多个ip地址，一个域名可以对应多台主机

可能产生的问题
1、域名屏蔽：直接不解析导致拿不到ip地址
2、域名劫持，解析成错误的ip地址

7、搭建HTTP实验环境

用到的软件：
Wireshark: 网络抓包工具
Chorme: 浏览器
Telnet:经典的虚拟终端，基于TCP协议登录主机
OpenResty：基于Nginx的一个强化包

二、灵魂拷问，你记住知识点了吗？

1、HTTP的前世今生

1、请描述一下HTTP发展的几个主要节点（什么时间？谁干了什么事？/发生了什么事？）
答：1989年HTTP诞生;90年代初的版本定为HTTP/0.9版;1996年推出HTTP/1.0，但这个只是参考不是标准；1999年HTTP/1.1发布，这一版是现在广泛应用的一版，是一个正式的标准；2014年Google基于SPDY协议推出HTTP/2.0，性能提升但未普及；2018年Google基于的QUIC协议进入标准制定阶段
2、怎么理解HTTP
答：超文本传输协议，是互联网上基于传输超文本互相沟通的一个协议。

2、HTTP是什么

1、简单讲解一下HTTP的概念
2、简单解释一下HTML
答：HTML是超文本标记语言，它是超文本的载体，可以使用各种标签来描述文字，图片，音频，视频，超链接等资源，可以迁入CSS，JS等技术来实现复杂的效果。

3、与HTTP相关的各种概念（上）

1、简要的解释一下以下概念：
互联网、浏览器、Web服务器、CDN、爬虫、Web Service、WAF

4、与HTTP相关的各种概念（下）

1、简要的解释一下以下概念：
TCP/IP、IP、TCP、DNS、域名解析、URI、URL、HTTPS、SSL/TLS
SSL、TLS
2、代理是什么？代理分哪几种？代理的基本作用

5、常说的“四层”，“七层”网络分层怎么理解

6、域名里的门道

7、搭建HTTP实验环境

8、浏览器键入网址再回车，发生了什么

1、简要叙述一下这次最简单的浏览器 HTTP 请求过程
答：首先浏览器用键入的网址做域名解析，解析出真实IP和端口（解析流程参照第六讲）；
然后浏览器用TCP三次握手建立连接；浏览器向服务器发送拼接好的报文；服务器接收到报文后，同样拼好报文给到客户端；浏览器解析报文，渲染页面（因Http/1.1默认是长连接，所以如果继续发送请求未超时的前提下不会重新建立连接，如果使用Chrome来测试，会发现请求http://127.0.0.1时，会有两个端口去建立TCP连接，因为Chrome是最多允许对同一个域名Host建立6个TCP连接的，不同浏览器有差异，在wireshark捕获的14个请求里，可以发现其实是有两次三次握手的过程的，但观察连接的端口可以发现其实只用到了一个，一个是访问网址栏里的url，一个是访问网站的默认图标，并发建立两个TCP连接，其中一个连接上之后，后一个会基于已经建连的TCP进行传输，也就是后面说的17讲里面讲到的长连接）
2、你能试着解释一下在浏览器里点击页面链接后发生了哪些事情吗？
答：如果域名相同，且连接没有超时，则不会重新建立连接，直接发送请求，如果超时，则需要重新经过 DNS解析拿到真实IP和端口，TCP三次握手建立连接，浏览器发送请求，服务器接收请求进行相应，浏览器接收服务器响应渲染页面。
3、这一节课里讲的都是正常的请求处理流程，如果是一个不存在的域名，那么浏览器的工作流程会是怎么样的呢？
答：首先还是进行DNS域名解析，依次从浏览器缓存，操作系统缓存，操作系统hosts文件，本地DNS，根DNS，顶级DNS，权威DNS，CDN，如果还没有查到，浏览器会显示“找不到XXXXX的服务器 IP 地址”，而终止请求。

11、正确的网址

1、简单解释一下什么是URI
答：
2、URI的基本组成部分

12、正确使用相应状态码

1、给出状态码的范围，状态码分成哪五大类
2、简单解释一下以下状态码
101,200,204,206,301,302,304,400,403,404,500,501,502,503

13、HTTP有哪些特点

14、HTTP的优缺点

20、HTTP的缓存控制

比较Cache和Cookie的异同
即使有“Last-modified”和“ETag”，强制刷新（Ctrl+F5）也能够从服务器获取最新数据（返回 200 而不是 304），请你在实验环境里试一下，观察请求头和响应头，解释原因
1、cookie主要用于保存会话状态，会作为字段发送给服务端，用于身份认证。而cache是整个资源，也就是整个报文，不作为字段，但是要使用缓存需要设置相应字段。
2、强制刷新后：Cache-Control：no-cache，且没有If-None-Match和If-Modified-Since字段，这样就不能命中缓存了，所以会返回200；而普通刷新有这些字段，Cache-Control为max-age=0，存在If-None-Match或If-Modified-Since字段，根据情况使用强缓存协商缓存。

三、仍留有的疑问

标签：协议,极客,HTTP,IP,TCP,域名,破冰,浏览器
来源： https://blog.csdn.net/CSDNLYFc/article/details/118692100