龙空技术网

不跳步骤新手python爬虫教程(一)

秃头程序员儿 1008

前言:

此刻姐妹们对“python 爬虫 js跳转 反爬”都比较珍视,兄弟们都想要知道一些“python 爬虫 js跳转 反爬”的相关内容。那么小编也在网摘上收集了一些有关“python 爬虫 js跳转 反爬””的相关内容,希望我们能喜欢,同学们快快来学习一下吧!

代码不是看出来的,而是敲出来的,建议关注公众号,收藏教程,跟着步骤练习爬虫,成为真正的Spider Man。

Python同C、Java一样都是计算机程序设计语言,python语言作为高级语言可以写网站(YouTube)、写游戏后台、做机器学习,当然还可以进行爬虫。爬虫是指模拟客户端浏览器(Chrome、Safari等)发送网络请求获取响应,按规则提取数据的程序。而我们秃头程序员的教程将以新手小白的角度从下载IDE(编辑代码软件)和配置python环境讲起。。。

步骤一:安装python

python是跨平台的,可以运行在Windows、Mac和各种Linux/Unix系统上,Python有两个版本,一个是2.x版,一个是3.x版目前最稳定的版本是Python3.0以上。根据你的Windows版本(64位还是32位)从Python的官方网站下载Python 3.8对应的64位安装程序或32位安装程序(点击链接跳转下载),然后,运行下载的exe安装包:

打开python官网速度和下载python3.8速度会较慢,需耐心等待。特别要注意勾上”Add Python 3.8 to PATH”,然后点“Install Now”即可完成安装。

步骤二:运行python

安装成功后,打开命令提示符窗口(键盘win键+R键,输入cmd,点击回车),敲入python后,在显示当前你的计算机已经安装python的版本,并出现>>>符号(Python交互式环境中),表明你的python已经安装成功。

如果提示:'python' is not recognized as an internal or external command, operable program or batch file. 这就说明Windows会根据一个Path的环境变量设定的路径去查找python.exe,如果没找到,就会报错。如果在安装时漏掉了勾选Add Python 3.8 to PATH,那就要手动把python.exe所在的路径添加到Path中。

进入到Python交互模式以后,我们赶紧输入两行代码,开始你的第一个python程序吧。

>>> 500+21521>>> print('hello, bald programmer')hello, bald programmer
步骤三:下载IDE: Pycharm(代码编辑器)

至于python IDE的选择,秃头程序员选择的是pycharm,当然也可以用VS code(Visual Studio Code),甚至有些大神会选择用python自带的IDLE,顺手就好。浏览器我们要选择Google的Chrome浏览器,其功能比较强大,扩展性能好。我们选择右边免费的community社区版本,点击download下载即可。

pycharm下载地址:

步骤四:浏览器的网络请求

在chrome浏览器中打开京东登录首页,“右键”→“检查”点击选项卡“network”,可以看到

RequestURL:

URL = 请求的协议(http/https)+网站域名+资源的路径+url地址参数(对方服务器解析)

URL地址中如果出现百分号,乱码等,可以用相关工具进行解码百度搜索url解码工具,将网页的url复制粘贴进去进行查看。

浏览器请求URL地址:当前URL的响应+js+css+图片–>elements中的内容。而爬虫请求的URL地址:仅包含当前URL的响应。

elements的内容和爬虫获取到的URL地址的响应不同:

1、爬虫以当前对应的URL地址的响应为准提取数据。

2、当前URL地址的响应,在network里Response里可以查看,也可以打开网页原码进行查看。

以上两个的区别,比如我们请求一个JS文件的URL,大家都知道,js文件是用来规范网页显示格式的一种程序,如果我们用浏览器请求,那我们可以看到它正常的显示效果,但当我们用爬虫去请求时,只会拿到一堆字符串,无法执行。

关注公众号【秃头程序员】,不错过不跳步骤的新手python爬虫教程(二)

标签: #python 爬虫 js跳转 反爬