前言:
此时各位老铁们对“python爬取豆瓣小说”大致比较看重,咱们都需要分析一些“python爬取豆瓣小说”的相关资讯。那么小编也在网摘上收集了一些关于“python爬取豆瓣小说””的相关内容,希望朋友们能喜欢,姐妹们快快来学习一下吧!接下来咱们就来爬取豆瓣上评分最高的
250部电影
这次我们就要来使用上次说的
BeautifulSoup + Reuqests
进行爬取啦
这次
我们将爬取到的内容存放到 excel 吧
那么
接下来就是
学习 python 的正确姿势
我们还是老样子
先摸清对方的底
知己知彼
百战不殆
首先打开我们的目标链接
可以看到这样一个网页
每一页显示了 25 条数据
当我们点击下一页的时候
链接请求参数变了
;filter=
我们一眼就看的出
这里就是从第 25 条数据开始加载的
所以
我们可以使用这个 start=25 来做变量
实现翻页获取信息
接下来我们来看下我们要的主要信息
电影名称电影图片电影排名电影评分电影作者电影简介
等会我们可以使用 BeautifulSoup 超简单获取
一顿分析之后
我们就开始撸代码啦
主要思路
请求豆瓣的链接获取网页源代码
然后使用 BeatifulSoup 拿到我们要的内容
最后就把数据存储到 excel 文件中
def main(page): url = ';+ str(page*25)+'&filter=' html = request_douban(url) soup = BeautifulSoup(html, 'lxml') save_to_excel(soup)
请求豆瓣电影
def request_douban(url): try: response = requests.get(url) if response.status_code == 200: return response.text except requests.RequestException: return None
获取到的主要源代码
...<ol class="grid_view"> <li> <div class="item"> <div class="pic"> <em class="">1</em> <a href=";> <img width="100" alt="肖申克的救赎" src="; class=""> </a> </div> <div class="info"> <div class="hd"> <a href="; class=""> <span class="title">肖申克的救赎</span> <span class="title"> / The Shawshank Redemption</span> <span class="other"> / 月黑高飞(港) / 刺激1995(台)</span> </a> <span class="playable">[可播放]</span> </div> <div class="bd"> <p class=""> 导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...<br> 1994 / 美国 / 犯罪 剧情 </p> <div class="star"> <span class="rating5-t"></span> <span class="rating_num" property="v:average">9.6</span> <span property="v:best" content="10.0"></span> <span>1286755人评价</span> </div> <p class="quote"> <span class="inq">希望让人自由。</span> </p> </div> </div> </div> </li>...
BeatifulSoup 解析
list = soup.find(class_='grid_view').find_all('li') for item in list: item_name = item.find(class_='title').string item_img = item.find('a').find('img').get('src') item_index = item.find(class_='').string item_score = item.find(class_='rating_num').string item_author = item.find('p').text item_intr = item.find(class_='inq').string # print('爬取电影:' + item_index + ' | ' + item_name +' | ' + item_img +' | ' + item_score +' | ' + item_author +' | ' + item_intr ) print('爬取电影:' + item_index + ' | ' + item_name +' | ' + item_score +' | ' + item_intr )
打印一下
爬取电影:1 | 肖申克的救赎 | 9.6 | 希望让人自由。爬取电影:2 | 霸王别姬 | 9.6 | 风华绝代。爬取电影:3 | 这个杀手不太冷 | 9.4 | 怪蜀黍和小萝莉不得不说的故事。爬取电影:4 | 阿甘正传 | 9.4 | 一部美国近现代史。爬取电影:5 | 美丽人生 | 9.5 | 最美的谎言。爬取电影:6 | 泰坦尼克号 | 9.3 | 失去的才是永恒的。爬取电影:7 | 千与千寻 | 9.3 | 最好的宫崎骏,最好的久石让。爬取电影:8 | 辛德勒的名单 | 9.5 | 拯救一个人,就是拯救整个世界。爬取电影:9 | 盗梦空间 | 9.3 | 诺兰给了我们一场无法盗取的梦。爬取电影:10 | 机器人总动员 | 9.3 | 小瓦力,大人生。爬取电影:11 | 忠犬八公的故事 | 9.3 | 永远都不能忘记你所爱的人。...爬取电影:21 | 无间道 | 9.1 | 香港电影史上永不过时的杰作。爬取电影:22 | 当幸福来敲门 | 9.0 | 平民励志片。爬取电影:23 | 疯狂动物城 | 9.2 | 迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。爬取电影:24 | 触不可及 | 9.2 | 满满温情的高雅喜剧。爬取电影:25 | 怦然心动 | 9.0 | 真正的幸福是来自内心深处。
拿到数据啦
循环获取 10 页的所有数据
来个循环吧
for i in range(0, 10): main(i)
获取到数据当然是要存储了
导入 excel 的库
import xlwt
创建一个 excel 的 sheet
每一列就是我们要的关键内容
book=xlwt.Workbook(encoding='utf-8',style_compression=0)sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)sheet.write(0,0,'名称')sheet.write(0,1,'图片')sheet.write(0,2,'排名')sheet.write(0,3,'评分')sheet.write(0,4,'作者')sheet.write(0,5,'简介')
将爬取到的所有数据写入 excel
sheet.write(n, 0, item_name) sheet.write(n, 1, item_img) sheet.write(n, 2, item_index) sheet.write(n, 3, item_score) sheet.write(n, 4, item_author) sheet.write(n, 5, item_intr)
最后来个保存
book.save(u'豆瓣最受欢迎的250部电影.xlsx')
运行一下吧
生成了一个 excel 文件
老规矩
本篇涉及到的源代码放在后台了
关注后私信发送「豆瓣」获取。
重要的事情说三遍!!!
关注后私信发送「豆瓣」获取。
关注后私信发送「豆瓣」获取。
关注后私信发送「豆瓣」获取。
标签: #python爬取豆瓣小说