前言:
今天大家对“python爬取分页数据”可能比较注重,兄弟们都需要剖析一些“python爬取分页数据”的相关知识。那么小编同时在网摘上收集了一些对于“python爬取分页数据””的相关知识,希望你们能喜欢,大家快快来了解一下吧!爬取对象:
有融网理财项目列表页【履约中】状态下的前10页数据,地址:
编程思路:
1. 寻找分页地址的变动规律 2. 解析网页,获取内容,放入自定义函数中 3. 调用函数,输出分页内容
详细解说:
1. 首先插入用到的库:BeautifulSoup、requests
from bs4 import BeautifulSoup
import requests
2. 观察地址的变化规律,可以看到,每切换一页时,后面“createTimeDesc-1.html”中的数字1会随着页面的变动而变动,此时我们将地址存放进列表中,后面用format()和for循环来实现多个地址的存储。
urls = ['-{}.html'.format(str(i))foriinrange(1,11)]
print(urls)
此时可以先print下,看地址是否正确,这里range(1,11)是前10个页面的地址。
3. 接下来定义解析函数,参数data的初始值为空。函数内用到的内容和上一篇文章中讲到的相同。先请求urls,然后用BeautifulSoup解析,筛选我们想要的项目标题titles的位置,实现输出。
4. 最后,我们来调用函数。
for titles in urls:
get_titles(titles)
完整代码:
标签: #python爬取分页数据