前言:
目前咱们对“python爬取新闻网站标题和内容”大约比较关怀,同学们都需要了解一些“python爬取新闻网站标题和内容”的相关内容。那么小编同时在网络上网罗了一些有关“python爬取新闻网站标题和内容””的相关内容,希望我们能喜欢,咱们一起来学习一下吧!要遍历并爬取某个网址目录下的网页,并检查标题是否包含固定关键词,你可以使用Python中的网络爬虫框架,如Scrapy或BeautifulSoup。
以下是使用BeautifulSoup的示例代码,其中使用了requests库来获取网页内容,并使用os库来遍历目录下的所有文件:
import os
import requests
from bs4 import BeautifulSoup
url_prefix = '; # 要爬取的目录前缀
keyword = '关键词' # 标题中必须包含的关键词
# 遍历目录下的所有文件
for filename in os.listdir(url_prefix):
if filename.endswith('.html'): # 只处理HTML文件
url = os.path.join(url_prefix, filename)
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 查找标题
title = soup.find('title').string
if keyword not in title:
print(f'{url}: 标题不包含关键词')
else:
print(f'{url}: 标题包含关键词')
该代码首先导入了必要的库,然后设置了要爬取的目录前缀和标题中必须包含的关键词。接下来,使用os库遍历目录下的所有文件,并使用requests库获取每个文件的网页内容,并使用BeautifulSoup解析网页内容。最后,使用find方法查找标题元素,并检查其中是否包含关键词。如果标题不包含关键词,将打印相应的消息。