龙空技术网

Python用request库读取网页源码(含py文件内容)

IT小春子 341

前言:

此刻你们对“python源码文件”大约比较注重,同学们都想要分析一些“python源码文件”的相关文章。那么小编同时在网上网罗了一些对于“python源码文件””的相关文章,希望兄弟们能喜欢,我们快快来学习一下吧!

本代码操作前提安装了Python38版本以及request库,并且将下面的代码复制保存为网页测试.py运行即可(为保证代码编写规范,建议用sublime text 3进行操作)。

操作及运行如图:

打开python shell

导入网页测试.py

输入想访问的页面url

输入项访问的页面url后 回车

运行效果,双击黄色文字即可查看源码内容

网页源码内容

代码部分:

import requests #导入request库

import re #导入re库

#下面三行是编码转换的功能

import sys #导入sys库

#reload(sys)

#sys.setdefaultencoding("utf-8")

import importlib #导入importlib库

importlib.reload(sys)

#Python解决NameError: name 'reload' is not defined的问题

#遇到这个问题,对于 Python 2.X:

#1 import sys

#2 reload(sys)

#3 sys.setdefaultencoding("utf-8")

#对于 Python 3.3及其以下版本:

#1 import imp

#2 imp.reload(sys)

#需要注意:

#1. Python 3 与 Python 2 有很大的区别,其中Python 3 系统默认使用的就是utf-8编码。

#2. 所以,对于使用的是Python 3 的情况,就不需要sys.setdefaultencoding("utf-8")这段代码。

#3. 最重要的是,Python 3 的 sys 库里面已经没有 setdefaultencoding() 函数了。

#对于 Python 3.4及其以上版本:

#1 import importlib

#2 importlib.reload(sys)

url= str(input("请输入:")) #提示用户输入信息,并强制类型转换为字符串型

#hea是我们自己构造的一个字典,里面保存了user-agent。

#让目标网站误以为本程序是浏览器,并非爬虫。

#从网站的Requests Header中获取。【审查元素】

hea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

html = requests.get(url,headers = hea)

html.encoding = 'utf-8' #这一行是将编码转为utf-8否则中文会显示乱码。

print(html) #如果返回<Response [200]>是HTTP状态码,表示网络请求成功的意思,返回这个状态表示已经获取到数据了。【200】请求成功【303】重定向【400】请求错误【401】未授权【403】禁止访问【404】文件未找到【500】服务器错误

print(html.text) #显示已经获取到的网页源码

标签: #python源码文件