龙空技术网

零基础小白Python爬虫scrapy教程

用户95877765594 231

前言:

当前同学们对“pythonscrapy入门”都比较注意,咱们都想要了解一些“pythonscrapy入门”的相关知识。那么小编在网摘上汇集了一些对于“pythonscrapy入门””的相关内容,希望各位老铁们能喜欢,同学们快快来了解一下吧!

欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

在cmd 或者 在 Window PowerShell 中输入命令:

pip install scrapy

过程中可能会问你是否安装其他扩展包选 按y 回车就好了

安装完成后在看看是否安装成功

输入以下命令:

创建爬虫项目

scrapy startproject (projectName)

我创建的项目名称为AIQuery

scrapy startproject AIQuery

用IDE打开项目可以看到目录结构如下

1.根目录有个scrapy.cfg是他的配置文件

2.spiders用来存放你的爬虫文件

3.__init__.py我就不做解释了

4.items.py存放集合

5.middlewares.py中间件用来自定义插件(在这里咱们用不到这玩意)

6.pipelines.py用来存储数据

7.settings.py这个还用解释吗?(你可以在scrapy.cfg中看到这个)

在你的spiders目录下创建自己第一个爬虫项目,我我这儿命名为AiquerSpider.py

然后编辑文件

以上是我所需要导入使用的包,你也可以自定义别的包.

接下来咱们创建类:

在写代码之前呢咱们要去做点大事,具体看下面,嘿嘿!

咱们要首先定义集合就是items.py中用来存放的数据

咱们看看网页吧,在具体说需要哪些东西.

上面呢我们需要网站地址\用户名称\视频图片\视频地址

下载视频的话我这儿就不做讲解了我们就获取这几个参数为例子

首先,我们需要爱奇艺网站用户地址做分析

...

用户ID 这一段是找到用户网站首页

/v 这个是该用户下的视频

这样我们就了解到了如何去手动指定用户并且爬取他下面的视频了

废话不多说,先上items的代码

我们的items就写完了

再回到咱们的爬虫上面,具体解释都在里面的注释中了

有同学肯定会问('//div[@class="site-piclist_pic"]//a/@href')这是啥玩意

Xpath:

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。

起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。

如何去启动,scrapy是使用cmd命令行去启动的

咱们用scrapy的cmdline去启动

命名point.py

这个文件放在项目根目录下

如图:

我的前面的步骤写完的话可以用这个去测试一下(把部分代码注释去了),你会发现有好多神秘的蓝色链接,

直接贴代码

在运行这个东西之前是要注册的,回到settings.py里面找到Configure item pipelines,将下面的注释去掉就行了,咱们没有具体需求所以不用改优先级别

# Configure item pipelines# See = { 'AiQuer.pipelines.AiquerPipeline': 300,}

AiQuer.pipelines.AiquerPipeline是为你要注册的类,右侧的’300’为该Pipeline的优先级,范围1~1000,越小越先执行。

标签: #pythonscrapy入门