龙空技术网

只要三步,腾讯招聘信息抓取到手

黑马程序员 387

前言:

而今看官们对“java获取useragent”大概比较关切,兄弟们都需要知道一些“java获取useragent”的相关内容。那么小编同时在网上网罗了一些关于“java获取useragent””的相关资讯,希望兄弟们能喜欢,看官们一起来学习一下吧!

想成为一名真正的程序猿,你需要一份从事编程的工作!那么我们今天就来抓取腾讯招聘网站上的招聘信息!

要获取腾讯招聘网站上的招聘信息,需要以下三步:

· 准备工作:安装scrapy框架模块、安装lxml模块;

· 利用谷歌浏览器抓包:确定url,发送请求所需参数,确定返回数据所在位置;

· 利用scrapy爬虫框架完成代码。

准备工作

目标:安装scrapy、lxml模块。

· 在命令行终端输入 pip install scrapy 后,等待下载安装完成

scrapy是一个爬虫框架,可以帮助我们用很少的代码完成快速的抓取。

· 在命令行终端输入 pip install lxml 后,等待下载安装完成

lxml可以用来对html页面的数据进行提取。

利用谷歌浏览器抓包

· 确定列表页和详情页的url

· 注意最后一页

· 确定工作职责和工作要求

根据抓包确定代码逻辑

对起始url发送请求获取响应,指定该响应用专门解析列表页的函数来提取处理;

在列表页解析函数中,对列表页的响应内容进行提取。首先提取下一页的url,并构造请求对象,指定使用列表页解析函数来解析响应。其次提取详情页的url,并构造请求对象,指定使用详情页解析函数来解析响应;

在详情页解析函数中,提取相应的数据:标题、工作职责、工作要求。

完成代码

· 创建scrapy项目和爬虫

在终端输入 scrapy startproject Tencent创建项目。

Tencent是项目的名字,创建完成后,可以在相应的路径下看到如下文件夹及文件结构:

进入项目路径下,终端输入scrapy genspider tencent tencent.com创建爬虫:

1 cd Tencent2 scrapy genspider tencent tencent.com

tencent.com是爬虫抓取的url的域名范围,后续可以在代码中进行修改。创建爬虫成功后在spiders文件夹下可以看到名为tencent的py文件:

打开tencent.py文件可以看到scrapy框架已经帮我写好了一部分代码:

完成tencent.py中的代码:

设置settings.py文件

在项目文件夹Tencent下修改settings.py配置文件:

1 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'23 ROBOTSTXT_OBEY = False

PS:USER_AGENT是用户代理,ROBOTSTXT_OBEY改为False表示忽略robot协议。

· 在项目路径下终端执行scrapy crawl tencent就可以将招聘信息保存到文件中

总结

现在我们就可以通过以下步骤完成代码抓取腾讯招聘信息:

1.利用谷歌浏览器进行抓包,确定列表页的url和详情页的url,确定数据所在位置;

2.scrapy的命令:

· 创建scrapy爬虫项目 scrapy startproject 项目名;

· 在项目路径下创建scrapy爬虫scrapy genspider 爬虫名 爬虫爬取范围的域名;

· 在项目路径下运行爬虫 scrapy crawl 爬虫名;

3.完成爬虫模块代码的编写;

4.完成配置文件的修改,运行爬虫。


喜欢就关注下吧。

标签: #java获取useragent