龙空技术网

从此再也不怕爬虫“乱码”问题!

CSDN 2216

前言:

此刻兄弟们对“网页出现乱码怎么办”都比较重视,你们都需要了解一些“网页出现乱码怎么办”的相关内容。那么小编同时在网上收集了一些有关“网页出现乱码怎么办””的相关文章,希望看官们能喜欢,小伙伴们一起来学习一下吧!

作者 | 丁彦军

责编 | 仲培艺

近日,有位粉丝向我请教,在爬取某网站时,网页的源代码出现了中文乱码问题,本文就将与大家一起总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式是一致的,故在此统一说明。

乱码问题的出现

就以爬取 51job 网站举例,讲讲为何会出现“乱码”问题,如何解决它以及其背后的机制。

代码示例:

import requestsurl = ""res = requests.get(url)print(res.text)

显示结果:

打印 res.text 时,发现了什么?中文乱码!!!不过发现,网页的字符集类型采用的是 GBK 编码格式。

我们知道 Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 r.text 之时,Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码,并且能够使用 r.encoding 属性来改变它。

接下来,我们一起通过 Resquests 的一些用法,来看看 Requests 会基于 HTTP 头部对响应的编码方式。

print(res.encoding) #查看网页返回的字符集类型print(res.apparent_encoding) #自动判断字符集类型

输出结果为:

可以发现 Requests 推测的文本编码(也就是网页返回即爬取下来后的编码转换)与源网页编码不一致,由此可知其正是导致乱码原因。

乱码背后的奥秘

当源网页编码和爬取下来后的编码转换不一致时,如源网页为 GBK 编码的字节流,而我们抓取下后程序直接使用 UTF-8 进行编码并输出到存储文件中,这必然会引起乱码,即当源网页编码和抓取下来后程序直接使用处理编码一致时,则不会出现乱码,此时再进行统一的字符编码也就不会出现乱码了。最终爬取的所有网页无论何种编码格式,都转化为 UTF-8 格式进行存储。

注意:区分源网编码 A-GBK、程序直接使用的编码 B-ISO-8859-1、统一转换字符的编码 C-UTF-8。

在此,我们拓展讲讲 Unicode、ISO-8859-1、GBK2312、GBK、UTF-8 等之间的区别联系,大概如下:

最早的编码是 ISO8859-1,和 ASCII 编码相似。但为了方便表示各种各样的语言,逐渐出现了很多标准编码。ISO8859-1 属于单字节编码,最多能表示的字符范围是 0-255,应用于英文系列。很明显,ISO8859-1 编码表示的字符范围很窄,无法表示中文字符。

1981 年中国人民通过对 ASCII 编码的中文扩充改造,产生了 GB2312 编码,可以表示 6000 多个常用汉字。但汉字实在是太多了,包括繁体和各种字符,于是产生了 GBK 编码,它包括了 GB2312 中的编码,同时扩充了很多。中国又是个多民族国家,各个民族几乎都有自己独立的语言系统,为了表示那些字符,继续把 GBK 编码扩充为 GB18030 编码。每个国家都像中国一样,把自己的语言编码,于是出现了各种各样的编码,如果你不安装相应的编码,就无法解释相应编码想表达的内容。终于,有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 Unicode,这种编码非常大,大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 Unicode 这种编码系统,无论是全球哪种文字,只需要保存文件的时候,保存成 Unicode 编码就可以被其他电脑正常解释。Unicode 在网络传输中,出现了两个标准 UTF-8 和 UTF-16,分别每次传输 8 个位和 16 个位。于是就会有人产生疑问,UTF-8 既然能保存那么多文字、符号,为什么国内还有这么多使用 GBK 等编码的人?因为 UTF-8 等编码体积比较大,占电脑空间比较多,如果面向的使用人群绝大部分都是中国人,用 GBK 等编码也可以。

也可以这样来理解:字符串是由字符构成,字符在计算机硬件中通过二进制形式存储,这种二进制形式就是编码。如果直接使用 “字符串↔️字符↔️二进制表示(编码)” ,会增加不同类型编码之间转换的复杂性。所以引入了一个抽象层,“字符串↔️字符↔️与存储无关的表示↔️二进制表示(编码)” ,这样,可以用一种与存储无关的形式表示字符,不同的编码之间转换时可以先转换到这个抽象层,然后再转换为其他编码形式。在这里,Unicode 就是 “与存储无关的表示”,UTF-8 就是 “二进制表示”。

乱码的解决方法

根据原因来找解决方法,就非常简单了。

方法一:直接指定 res.encoding

import requestsurl = ""res = requests.get(url)res.encoding = "gbk"html = res.textprint(html)

方法二:通过 res.apparent_encoding 属性指定

import requestsurl = ""res = requests.get(url)res.encoding = res.apparent_encodinghtml = res.textprint(html)

方法三:通过编码、解码的方式

import requestsurl = ""res = requests.get(url)html = res.text.encode('iso-8859-1').decode('gbk')print(html)

输出结果:

基本思路三步走:确定源网页的编码 A---GBK、程序通过编码 B---ISO-8859-1 对源网页数据还原、统一转换字符的编码 C-UTF-8。至于为啥出现统一转码这一步呢? 网络爬虫系统数据来源很多,不可能使用数据时,再转化为其原始的数据,这样做是很废事的。所以一般的爬虫系统都要对抓取下来的结果进行统一编码,从而在使用时做到一致对外,方便使用。

比如如果我们想讲网页数据保存下来,则会将起转为 UTF-8,代码如下:

with open("a.txt",'w',encoding='utf-8') as f: f.write(html)

总结

关于网络爬虫乱码问题,这里不仅给出了一个解决方案,还深入到其中的原理,由此问题引申出很多有意思的问题,如 UTF-8、GBK、GB2312 的编码方式怎样的?为什么这样转化就可以解决问题?

最后,多动脑,多思考,多总结,致每一位码农!

本文为作者投稿,版权归其所有。

标签: #网页出现乱码怎么办 #网页出现乱码怎么办解决