python爬虫基础｜什么是爬虫？如何去掌握去玩

古都李律 06-03 106

前言：

如今朋友们对“python为什么叫爬虫”可能比较关心，我们都需要了解一些“python为什么叫爬虫”的相关内容。那么小编也在网摘上汇集了一些关于“python为什么叫爬虫””的相关内容，希望看官们能喜欢，朋友们快快来了解一下吧！

什么手机爬虫

来看看百度百科是如何定义的

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

什么？没看懂？没关系，我来给你解释一下

打开一个网页，里面有网页内容吧，想象一下，有个工具，可以把网页上的内容获取下来，存到你想要的地方，这个工具就是我们今天的主角：爬虫。

这样是不是更清晰了呢？

既然了解了爬虫是什么，那么爬虫是如何爬取数据的呢？

爬虫是哪里爬取数据的

打开浏览器（强烈建议谷歌浏览器），找到浏览器地址栏，然后在里敲，你会看到网页内容。

欸，图片中间那俩人在干嘛？（单身狗请主动防御，这是误伤，这真的是误伤！）

鼠标在页面上点击右键，然后点击view page source。看到这些文字了吗？这才是网页最赤果果的样子。

其实所有的网页都是HTML代码，只不过浏览器将这些代码解析成了上面的网页，我们的小爬虫抓取的其实就是HTML代码中的文本啦。这不合理啊，难不成那些图片也是文本？

恭喜你，答对了。回到浏览器中有图的那个tab页，鼠标右键，点击Inspect。会弹出一个面板，点击板左上角的箭头，点击虐狗图片，你会看到下面有红圈圈的地方，是图片的网络地址。图片可以通过该地址保存到本地哦。

你猜的没错，我们的小爬虫抓取的正是网页中的数据，你要知道你想要抓取什么数据，你的目标网站是什么，才可以把想法变成现实的哦。你不能说，我想要这个这个，还有这个，然后数据就自动来了。。。(是不是让你想起了你的导师或老板？)

学习爬虫的必备知识

大家要先对以下内容有一定的了解再来学习爬虫哦，磨刀不误砍柴工

· HTML这个能够帮助你了解网页的结构，内容等。

· Python

如果有编程基础的小伙伴儿，学习会好一点，一些素材资料就可以帮助你上手可以找小编领取资料！

没有编程基础的小伙伴，建议学习单词、代码软件以及看一些基础视屏来学习加上练习，双管齐下。

TCP/IP协议，HTTP协议

这些知识能够让你了解在网络请求和网络传输上的基本原理，了解就行，能够帮助今后写爬虫的时候理解爬虫的逻辑。

Python教程里也有简单介绍，可以参考：TCP/IP简介，HTTP协议

想更深入学习的小伙伴儿可以去网上多搜搜相关的书籍哦！

也可以私信我领取一些基础的资料和之前学习的视频来学习哦！

一篇文章带你了解网络爬虫的概念及其工作原理