《HTTP权威指南》读书笔记
第一章 HTTP概述
第一章介绍内容:
- Web客户端与服务器是如何通信的
- 资源来自何方
- Web事务是怎样工作的
- HTTP通信所使用的报文格式
- 底层TCP网络传输
- 不同的HTTP协议
- 因特网上安装的大量HTTP架构组件中的一部分。
1.1 HTTP--因特网的多媒体信使
HTTP可以从遍布全世界的Web服务器上将这些信息块迅速,便捷,可靠地搬迁到人们桌面上的Web浏览器上。
1.2 Web客户端和服务器
Web内容都是存储在Web服务器上的。Web服务器所使用的是HTTP协议,因此经常会被称为HTTP服务器。这些HTTP服务器存储了因特网中的数据,如果HTTP客户端发出请求的话,他们会提供数据。
1.3 资源
Web服务器是Web资源的宿主。
资源不一定非得是静态文件,资源可以是根据需要生成内容的软件程序。
总之,所有类型的内容来源都是资源。
1.3.1 媒体类型
因特网上有数千种不同的数据类型,HTTP给每种痛过Web传输的对象打上了名为MIME
(Multipurpose Internet Mail Extension,多用途因特网邮件扩展)类型的数据格式标签。最初来自电子邮件系统。
当Web浏览器从服务器中取回一个对象时,会去查看相关的MIME类型,看看它是否知道应该如何处理这个对象。
MIME类型是一种文本标记,表示一种主要的对象类型和一个特定的子类型,中间由一条斜杆来分割。
- HTML格式的文本文档由
text/html
类型来标记 - 普通的ASCII文本文档由
text/plain
类型来标记 - JPEG格式的图片为
image/jpeg
类型。 - GIF格式的图片为
image/gif
类型
1.3.2 URI
每个Web服务器资源都有一个名字,这样客户端就可以说明它们刚兴趣的资源是什么了。服务器资源名称称为统一资源标识符(Uniform Resource Identifier, URI)
。URI就像因特网上的邮政地址一样,在世界范围内唯一标示并定位信息资源。
URI有两种形式,分别称为URL和URN
1.3.3 URL
统一资源定位符(URL)
是资源标识符最常见的形式。描述了一台特定服务器上某资源的特定位置。
它们可以明确说明如何从一个精确、固定的位置获取资源。
大部分URL都遵循一种标准格式,这种格式包含三个部分。
- URL的第一部分被称为
方案(scheme)
,说明了访问资源所使用的协议类型。这部分通常就是HTTP协议(http://)。 - 第二部分给出了服务器的因特网地址。
- 其余部分指定了Web服务器上的某个资源。
现在,几乎所有的URI都是URL。
1.3.4 URN
URI的第二种形式就是统一资源名(URN)
。URN是作为特定内容的唯一名称使用的,与目前的资源所在地无关。使用与位置无关的URN,就可以将资源四处搬移。通过URN,还可以用用一个名字通过多种网络访问协议访问资源。
仍然处于试验阶段,还未大范围使用。
1.4 事务
一个HTTP事务由一条(从客户端发往服务器的)请求命令和一个(从服务器发回客户端的)响应结果组成。
这种通信是通过名为HTTP报文(HTTP message)的格式化数据块进行的。
1.4.1 方法
HTTP支持几种不同的请求命令,这些命令被称为HTTP方法
。每条HTTP请求报文都包含一个方法。这个方法会告诉浏览器要执行什么动作(获取一个Web页面,运行一个网关程序,删除一个文件等)。
一些常用的HTTP方法:
1.4.2 状态码
每条HTTP响应报文返回时都会携带一个状态码。状态码是一个三位数字的代码,告知客户端请求是否成功,活着是否需要采取其它动作。
1.4.3 Web页面中可以包含多个对象
通常一个“Web页面”并不是单个资源,而是一组资源的集合。
1.5 报文
HTTP报文是由一行一行的简单字符串组成的。 都是纯文本,不是二进制代码,所以人们可以很方便地对其进行读写。
请求报文(request message):从Web客户端发往Web服务器。 响应报文(response message):从服务器发往客户端。
报文包括三个部分:
- 起始行: 报文的第一行就是起始行,在请求报文中用来说明要做些什么,在响应报文中说明出现了什么情况。
- 首部字段: 起始行后面有零个或多个首部字段。每个字段都包含一个名字和一个值,为了便于解析,两者之间冒号来分隔。首部以一个空行结束。
- 主体: 空行之后就是可选的报文主体了,其中包含了所有类型的数据。 起始行和首部都是文本形式且都是结构化的,而主体则不是,主体中包含任意的二进制数据(图片,视频,音频,软件程序等)。当然也包括文本。
1.6 连接
报文通过传输控制协议(Transmission Control Protocol, TCP)连接从一个地方搬移到另一个地方去。
1.6.1 TCP/IP
HTTP是个应用层协议。无需操心网络通信的具体细节,它把联网的细节都交给了通用、可靠的因特网传输协议TCP/IP。
TCP提供了:
- 无差错的数据传输
- 按序传输(数据总是会按照发送的顺序到达)
- 未分段的数据流(可以在任意时刻以任意尺寸将数据发送出去)
TCP/IP是全世界的计算机和网络设备常用的层次化分组交换网络协议集。TCP/IP隐藏了各种网络和硬件的特点及弱点,使各种类型的计算机和网络都能够进行可靠地通信。
只要建立了TCP连接,客户端和服务器之间的报文交换就不会丢失、不会被破坏、也不会在接收时出现错序了。
HTTP协议位于TCP的上层。HTTP使用TCP来传输其报文数据。
1.6.2 连接、IP地址及端口号
在TCP中,你需要知道服务器IP地址,以及与服务器上运行的特定软件相关的TCP端口号。
通过URL获取HTTP服务器的IP地址和端口号。
1.8 Web的结构组件
- 代理
- 缓存
- 网关
- 隧道
- Agent代理
1.8.1 代理
Web安全,应用集成以及性能优化的重要组成模块。
代理位于客户端和服务器之间,接收所有客户端的HTTP请求,并将这些请求转发给服务器(可能会对请求进行修改之后转发)。对用户来说,这些应用程序就是一个代理,代表用户访问服务器。
1.8.2 缓存
Web缓存(Web cache)或代理缓存(proxy cache)是一种特殊的HTTP代理服务器,可以将经过代理传送的常用文档复制保存起来。下一个请求同一文档的客户端就可以享受缓存的私有副本所提供的服务了。
客户端从附近的缓存下载文档会比远程Web服务器下载快得多。HTTP定义了很多功能,使得缓存更加高效,并规范了文档的新鲜度和缓存内容的隐私性。
1.8.3 网关
Gateway 一种特殊的服务器,作为其它服务器的中间实体使用。通常用于将HTTP流量转换成其它的协议。 网关接收请求时就好像自己是资源的源端服务器一样。 客户端可能并不知道自己正在与一个网关进行通信。
如:一个HTTP/FTP网关会通过HTTP请求接收对FTP URI的请求,但通过FTP协议来获取文档,得到的文档会被封装成一条HTTP报文,发送给客户单。
1.8.4 隧道
隧道(tunnel)是建立起来之后,就会在两条连接之间对原始数据进行盲转发HTTP应用程序。 通常用来在一条或多条HTTP连接上发非HTTP数据,转发时不会窥探数据。
HTTP隧道的一种常见用途是通过HTTP连接承载加密的安全套接字层(SSL,Secure Sockets Layer)流量,这样SSL流量就可以穿过只允许Web流量通过的防火墙了。
1.8.5 Agent 代理
用户Agent代理:代表用户发起HTTP请求的客户端程序。
所有发布Web请求的应用程序都是HTTP Agent代理。 比如Web浏览器。
第二章 URL与资源
内容:
- URL语法
- 很多客户端支持URL快捷方式,包括相对URL和自动扩展URL
- URL编码和字符规则
- 支持各种因特网信息系统的常见URL方案
- URL的未来,包括URN--这种框架可以在对象从一处搬移到另一处时,保持稳定的访问名称。
2.1 浏览因特网资源
URL分以下三个部分:
- URL方案(scheme)。告知Web客户端怎样访问资源。如HTTP协议
- 服务器位置。如
www.baidu.com
- 资源路径(/search/index.html)。说明的是服务器上哪个特定的资源。
2.2 URL的语法
大多数URL方案的URL语法都建立在这9个部分构成的通用格式上:
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
几乎没有哪个URL中包含了所有这些组件。最重要的3个部分是方案(scheme)
、主机(host)
、路径(path)
。
2.2.1 方案--使用什么协议
方案实际上规定如何防蚊指定资源的主要标识符,它会告诉负责解析URL的应用程序该使用什么协议。
必须以一个字母符号开头,由第一个“:”
符号将其与URL的其余部分分隔开来。
2.2.2 主机与端口
主机组件标示了因特网上能够访问资源的宿主机器。 端口标示了服务器正在监听的网络端口
2.2.3 用户名和密码
ftp://host/path
ftp://name@host/path
ftp://name:password@host/path
2.2.4 路径
2.2.5 参数
ftp://host/path;type=d
参数名为 type,值为 d。
2.2.6 查询字符串
问好右边的内容是新出现的。这部分被称为查询(query)组件。
2.2.7 片段
支持使用片段(flag)组件来标示一个资源内部的片段。比如,URL可以指向HTML文档中一个特定的图片或小节。
#
号后面接内容。
对于HTTP服务器通常只处理整个对象,而不是对象的片段,客户端不能将片段传给服务器。浏览器从服务器获得了整个资源之后,会根据片段来显示你感兴趣的那部分资源。
2.3 URL快捷方式
相对URL
URL有两种方式:绝对的
和相对的
。
如果使用相对URL,就可以在搬移一组文档的同事,仍然可以保持链接的有效性,因为相对URL都是相对于新基础进行解释的。
自动扩展URL
浏览器自动扩展,用户不需要输入完整的URL。
- 主机名扩展
- 历史扩展
2.4 各种令人头疼的字符
URL是可移植的(portable)。它要统一地命名因特网上的所有资源,这也就意味着要通过各种不同的协议来传送这些资源。
安全传输意味着URL的传输不能丢失信息。
除了希望URL可以被所有因特网协议惊喜传送之外,设计者们还希望URL也可供人们阅读。
URL还得是完整的,因此,需要有一种转义机制,能将不安全的字符编码为安全字符,再进行传输。
URL字符集
默认的计算机系统字符集都倾向于以英文为中心。
通过转义序列,可以用US-AsCII
字符集的有限子集对任意字符值或数据进行编码,这样就实现了可移植性和完整性。
编码机制
为了避开安全字符集表示法带来的限制,人们设计了一种编码机制,用来在URL中表示不安全的字符。
通过一种转义
表示法来表示不安全的字符。这种转移表示法包含一个百分号(%),后面跟着两个表示字符ASCII码的十六进制数。
字符限制
有些字符不在定义的US-ASCII
可打印字符集中,还有些字符会与因特网网关和协议产生混淆,因此不赞成使用。
2.5 方案的世界
2.6 未来展望
URL有局限性,如果资源的路径搬移了,那么原先的URL便会失效。
URN 基本思想是在搜索资源的过程中引入另一个中间层,通过一个中间资源定位符服务器对资源的实际URL进行登记跟踪。客户端可以定位符请求一个永久的URL。定位符可以以一个资源作为相应。将客户端重定向到当前实际的URL上去。
第三章 HTTP报文
如果说HTTP是因特网的信使,那么HTTP报文就是它用来搬东西的包裹。
主要内容:
- 报文是如何流动的
- HTTP报文的三个组成部分(起始行,首部和实体的主体部分)
- 请求和响应报文之间的区别
- 请求报文支持的各种功能
- 和响应报文一起返回的各种状态码
- 各种各样的HTTP首部都是用来做什么的。
3.1 报文流
HTTP报文是在HTTP应用程序之间发送的数据块。这些数据块以一些文本形式的*元信息
*开头。这些信息描述了报文的内容和含义,后面跟着可选的数据部分。这些报文在客户端、服务器和代理之间流动。
报文流入源端服务器
HTTP使用术语流入(inbound)和流出(outbound)来描述事务处理 (transaction)的方向。 报文流入源端服务器,工作完成后,会流回用户的Agent代理中。
报文向下游流动
HTTP报文会像河水一样流动。不管是请求报文还是响应报文,所有报文都会像下游(downstream)流动。所有报文的发送者都在接收者的上游(upstream)。
3.2 报文的组成部分
HTTP报文是简单的格式化数据块。
每条报文都包含一条来自客户端的请求,或者一条来自服务器的响应。
包含三个部分:起始行,首部,主体
起始行和首部就是由分隔的ASCII文本。每行都以一个由两个字符组成的行终止序列作为结束,其中包含一个回车符和一个换行符。这个行终止序列可以写做CRLF。
实体的主体或报文的主体是一个可选的数据块。与起始行和首部不同的是,主体中可以包含文本或二进制数据,也可以为空。
Content-type说明了主体是什么 Content-Length说明了主体有多大
报文的语法
分为请求报文和响应报文。
- 方法(method) 客户端希望服务器对资源执行的动作。是一个单独的词,如GET,POST,HEAD或POST等。
- 请求URL(request-URL) 命名了说请求资源,活着URL路径组件的完整URL。
- 版本(version)
报文所使用的HTTP版本。格式类似于:HTTP/<major>.</minor>
。其中版本号(major)和次要版本号(minor)都是整数。 - 状态码(status-code)
三位数字描述了请求过程中所发生的情况。 - 原因短语(reason-phrase) 数字状态码的可读版本,包含终止序列之前的所有文本。
- 首部(header)
可以有零个或多个首部,每个首部都包含一个名字,后面跟着一个冒号(:),然后是一个可选的空格,接着是一个值,最后是一给CRLF。首部是由一个空行(CRLF)结束的。 - 实体的主体部分(entity-body)
由人意数据组成的数据块。
3.2.2 起始行
所有HTTP报文都以一个起始行做为开始, 请求报文说明了要做些什么 相应报文的起始行说明发生了什么。
请求行:请求报文的起始行,称为请求行,包含了一个方法和一个请求URL,这个方法描述了服务器应该执行的操作。
响应行:承载了状态信息和操作产生的所有结果数据,将其返回给客户端。
方法:告诉服务器做什么事
状态码:告诉客户端发生了什么
原因短语:给状态码提供了文本解释
版本号
3.2.3 首部
本质上来说,它们是一些名/值对的列表。
1.首部分类
- 通用首部:既可以出现在请求报文中,也可以出现在响应报文中
- 请求首部:
- 响应首部
- 实体首部:描述主体的长度和内容,或资源的自身
- 扩展首部
2.首部延续行
将长的首部行分为多行,可以提高可读性
3.2.4 实体的主体部分
3.3 方法
安全方法:GET方法和HEAD方法被认为是安全的,意味着使用GET或HEAD的方法HTTP请求不会产生什么动作。
HEAD:在不获取实际资源的情况下,对资源的首部进行检查。
- 了解资源的情况
- 通过状态码,看看对象是否存在
- 查看首部,判断资源是否被修改
TRACE:在目的地服务器发起一个“环回”诊断。弹回一条TRACE响应,并在响应主体中携带收到的原始请求报文。这样客户端就可以查看所有中间件HTTP应用程序组成的请求/响应链上,原始报文是否被修改。
OPTIONS:请求web服务器告知其支持的各种功能。
扩展方法:常用:lock,mkcol,copy,move等。