只要三步，腾讯招聘信息抓取到手

黑马程序员 06-09 387

前言：

而今看官们对“java获取useragent”大概比较关切，兄弟们都需要知道一些“java获取useragent”的相关内容。那么小编同时在网上网罗了一些关于“java获取useragent””的相关资讯，希望兄弟们能喜欢，看官们一起来学习一下吧！

想成为一名真正的程序猿，你需要一份从事编程的工作！那么我们今天就来抓取腾讯招聘网站上的招聘信息！

要获取腾讯招聘网站上的招聘信息，需要以下三步：

· 准备工作：安装scrapy框架模块、安装lxml模块；

· 利用谷歌浏览器抓包：确定url，发送请求所需参数，确定返回数据所在位置；

· 利用scrapy爬虫框架完成代码。

准备工作

目标：安装scrapy、lxml模块。

· 在命令行终端输入 pip install scrapy 后，等待下载安装完成

scrapy是一个爬虫框架，可以帮助我们用很少的代码完成快速的抓取。

· 在命令行终端输入 pip install lxml 后，等待下载安装完成

lxml可以用来对html页面的数据进行提取。

利用谷歌浏览器抓包

· 确定列表页和详情页的url

· 注意最后一页

· 确定工作职责和工作要求

根据抓包确定代码逻辑

对起始url发送请求获取响应，指定该响应用专门解析列表页的函数来提取处理；

在列表页解析函数中，对列表页的响应内容进行提取。首先提取下一页的url，并构造请求对象，指定使用列表页解析函数来解析响应。其次提取详情页的url，并构造请求对象，指定使用详情页解析函数来解析响应；

在详情页解析函数中，提取相应的数据：标题、工作职责、工作要求。

完成代码

· 创建scrapy项目和爬虫

在终端输入 scrapy startproject Tencent创建项目。

Tencent是项目的名字，创建完成后，可以在相应的路径下看到如下文件夹及文件结构：

进入项目路径下，终端输入scrapy genspider tencent tencent.com创建爬虫：

1 cd Tencent2 scrapy genspider tencent tencent.com

tencent.com是爬虫抓取的url的域名范围，后续可以在代码中进行修改。创建爬虫成功后在spiders文件夹下可以看到名为tencent的py文件：

打开tencent.py文件可以看到scrapy框架已经帮我写好了一部分代码：

完成tencent.py中的代码：

设置settings.py文件

在项目文件夹Tencent下修改settings.py配置文件：

1 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'23 ROBOTSTXT_OBEY = False

PS:USER_AGENT是用户代理,ROBOTSTXT_OBEY改为False表示忽略robot协议。

· 在项目路径下终端执行scrapy crawl tencent就可以将招聘信息保存到文件中

总结

现在我们就可以通过以下步骤完成代码抓取腾讯招聘信息：

1.利用谷歌浏览器进行抓包，确定列表页的url和详情页的url，确定数据所在位置；

2.scrapy的命令：

· 创建scrapy爬虫项目 scrapy startproject 项目名；

· 在项目路径下创建scrapy爬虫scrapy genspider 爬虫名爬虫爬取范围的域名；

· 在项目路径下运行爬虫 scrapy crawl 爬虫名；

3.完成爬虫模块代码的编写；

4.完成配置文件的修改，运行爬虫。

喜欢就关注下吧。

本文地址：http://www.longkongtuishu.com/ca4d3BmsCBFYCC1Y.html

标签： #java获取useragent