前言:
当前同学们对“pythonscrapy入门”都比较注意,咱们都想要了解一些“pythonscrapy入门”的相关知识。那么小编在网摘上汇集了一些对于“pythonscrapy入门””的相关内容,希望各位老铁们能喜欢,同学们快快来了解一下吧!欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。
在cmd 或者 在 Window PowerShell 中输入命令:
pip install scrapy
过程中可能会问你是否安装其他扩展包选 按y 回车就好了
安装完成后在看看是否安装成功
输入以下命令:
创建爬虫项目
scrapy startproject (projectName)
我创建的项目名称为AIQuery
scrapy startproject AIQuery
用IDE打开项目可以看到目录结构如下
1.根目录有个scrapy.cfg是他的配置文件
2.spiders用来存放你的爬虫文件
3.__init__.py我就不做解释了
4.items.py存放集合
5.middlewares.py中间件用来自定义插件(在这里咱们用不到这玩意)
6.pipelines.py用来存储数据
7.settings.py这个还用解释吗?(你可以在scrapy.cfg中看到这个)
在你的spiders目录下创建自己第一个爬虫项目,我我这儿命名为AiquerSpider.py
然后编辑文件
以上是我所需要导入使用的包,你也可以自定义别的包.
接下来咱们创建类:
在写代码之前呢咱们要去做点大事,具体看下面,嘿嘿!
咱们要首先定义集合就是items.py中用来存放的数据
咱们看看网页吧,在具体说需要哪些东西.
上面呢我们需要网站地址\用户名称\视频图片\视频地址
下载视频的话我这儿就不做讲解了我们就获取这几个参数为例子
首先,我们需要爱奇艺网站用户地址做分析
...
用户ID 这一段是找到用户网站首页
/v 这个是该用户下的视频
这样我们就了解到了如何去手动指定用户并且爬取他下面的视频了
废话不多说,先上items的代码
我们的items就写完了
再回到咱们的爬虫上面,具体解释都在里面的注释中了
有同学肯定会问('//div[@class="site-piclist_pic"]//a/@href')这是啥玩意
Xpath:
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。
起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。
如何去启动,scrapy是使用cmd命令行去启动的
咱们用scrapy的cmdline去启动
命名point.py
这个文件放在项目根目录下
如图:
我的前面的步骤写完的话可以用这个去测试一下(把部分代码注释去了),你会发现有好多神秘的蓝色链接,
直接贴代码
在运行这个东西之前是要注册的,回到settings.py里面找到Configure item pipelines,将下面的注释去掉就行了,咱们没有具体需求所以不用改优先级别
# Configure item pipelines# See = { 'AiQuer.pipelines.AiquerPipeline': 300,}
AiQuer.pipelines.AiquerPipeline是为你要注册的类,右侧的’300’为该Pipeline的优先级,范围1~1000,越小越先执行。
标签: #pythonscrapy入门