龙空技术网

爬虫学习笔记 -- 常见名词解释

之乎者也吧呀 60

前言:

此刻我们对“爬虫怎么读”大致比较着重,兄弟们都想要了解一些“爬虫怎么读”的相关文章。那么小编同时在网摘上网罗了一些有关“爬虫怎么读””的相关内容,希望各位老铁们能喜欢,同学们快快来了解一下吧!

0x01 HTTP和HTTPS

HTTP:超文本传输协议,就是我们常见到的网页

HTTPS:超文本传输协议plus

HTTP请求:客户端发送请求到服务器

客户端====(Request)=》服务器

HTTP相应:服务器将信息返回到客户端

客户端《====(Response)=服务器

0x02 请求体

0x03 请求方法和请求头

1、GET:传输数据可见,有长度限制,都在URL里面

2、POST:传输数据不可见,无长度限制

3、Accept:浏览器可接受的MIME类型。

4、Accept-Encoding:浏览器能够进行解码的数据编码方式,比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。

5、Accept-Language:浏览器所希望的语言种类,当服务器能够提供一种以上的语言版本时要用到。

6、Connection:表示是否需要持久连接。如果Servlet看到这里的值为“Keep-Alive”,或者看到请求使用的是HTTP 1.1(HTTP 1.1默认进行持久连接),它就可以利用持久连接的优点,当页面包含多个元素时(例如Applet,图片),显著地减少下载所需要的时间。要实现这一点,Servlet需要在应答中发送一个Content-Length头,最简单的实现方法是:先把内容写入ByteArrayOutputStream,然后在正式写出内容之前计算它的大小。

7、Content-Length:表示请求消息正文的长度。

8、Cookie:这是最重要的请求头信息之一

9、Host:初始URL中的主机和端口。

10、Referer:包含一个URL,用户从该URL代表的页面出发访问当前请求的页面。

11、User-Agent:浏览器类型,如果Servlet返回的内容与浏览器类型有关则该值非常有用。

0x04 响应头

1、Cache-Control:缓存相关信息

2、Content-Type:text/html;charset=UTF-8 告诉客户端,资源文件的类型,还有字符编码,客户端通过utf-8对资源进行解码,然后对资源进行html解析。通常我们会看到有些网站是乱码的,往往就是服务器端没有返回正确的编码。

3、Content-Encoding:gzip 告诉客户端,服务端发送的资源是采用gzip编码的,客户端看到这个信息后,应该采用gzip对资源进行解码。

4、Date: Tue, 03 Apr 2020 03:52:28 GMT 这个是服务端发送资源时的服务器时间,GMT是格林尼治所在地的标准时间。http协议中发送的时间都是GMT的,这主要是解决在互联网上,不同时区在相互请求资源的时候,时间混乱问题。

5、Server:Tengine/1.4.6 这个是服务器和相对应的版本,只是告诉客户端服务器信息。

6、Transfer-Encoding:chunked 这个响应头告诉客户端,服务器发送的资源的方式是分块发送的。一般分块发送的资源都是服务器动态生成的,在发送时还不知道发送资源的大小,所以采用分块发送,每一块都是独立的,独立的块都能标示自己的长度,最后一块是0长度的,当客户端读到这个0长度的块时,就可以确定资源已经传输完了。

7、Expires:Sun, 1 Jan 1994 01:00:00 GMT 这个响应头也是跟缓存有关的,告诉客户端在这个时间前,可以直接访问缓存副本,很显然这个值会存在问题,因为客户端和服务器的时间不一定会都是相同的,如果时间不同就会导致问题。所以这个响应头是没有Cache-Control:max-age=*这个响应头准确的,因为max-age=date中的date是个相对时间,不仅更好理解,也更准确。

8、Last-Modified: Dec, 26 Dec 2019 17:30:00 GMT 所请求的对象的最后修改日期(按照 RFC 7231 中定义的“超文本传输协议日期”格式来表示)

9、Connection:keep-alive 这个字段作为回应客户端的Connection:keep-alive,告诉客户端服务器的tcp连接也是一个长连接,客户端可以继续使用这个tcp连接发送http请求。

10、Refresh: 5; url= 用于重定向,或者当一个新的资源被创建时。默认会在5秒后刷新重定向。

11、响应状态码

1xx 消息,一般是告诉客户端,请求已经收到了,正在处理,别急...

2xx 处理成功,一般表示:请求收悉、我明白你要的、请求已受理、已经处理完成等信息.

3xx 重定向到其它地方。它让客户端再发起一个请求以完成整个处理。

4xx 处理发生错误,责任在客户端,如客户端的请求一个不存在的资源,客户端未被授权,禁止访问等。

5xx 处理发生错误,责任在服务端,如服务端抛出异常,路由出错,HTTP版本不支持等。

0x05 Session和Cookie

1、Session:服务器存储的客户端凭证

2、Cookie:本地存储的客户端凭证

0x06 代理

如果网站屏蔽ip,可以通过代理绕过该限制

0x07 多线程和多进程

一个进程可以有多条线程,提高爬虫的速度

0x08 声明

仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

欢迎关注编程者吧

标签: #爬虫怎么读