龙空技术网

python《青春有你2》练习生照片爬取

猿茂盛 230

前言:

当前姐妹们对“python2爬取图片”大约比较关怀,同学们都想要剖析一些“python2爬取图片”的相关内容。那么小编在网上收集了一些对于“python2爬取图片””的相关知识,希望大家能喜欢,各位老铁们快快来了解一下吧!

集数据,尤其是有标签、高质量的数据是一件昂贵的工作。

爬虫的过程,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。

Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库

任务描述

本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。

数据获取:青春有你第二季

题目原有代码#导入第三方库

import jsonimport reimport requestsimport datetimefrom bs4 import BeautifulSoupimport os#获取当天的日期,并进行格式化,用于后面文件命名,格式:20200420today = datetime.date.today().strftime('%Y%m%d')    def crawl_wiki_data():    """    爬取百度百科中《青春有你2》中参赛选手信息,返回html    """    headers = {         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'    }    url='青春有你第二季'                             try:#预防报错采用异常处理确保软件稳定性        response = requests.get(url,headers=headers)#爬取页码        print(response.status_code)#输出页码访问情况(如果正确一般是200)        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串        soup = BeautifulSoup(response.text,'lxml')                #返回的是class为table-view log-set-param的<table>所有标签        tables = soup.find_all('table',{'class':'table-view log-set-param'})        crawl_table_title = "参赛学员"        for table in  tables:                       #对当前节点前面的标签和字符串进行查找            #定位到我们所需要的内容上            table_titles = table.find_previous('div').find_all('h3')            for title in table_titles:                if(crawl_table_title in title):                    return table           except Exception as e:        print(e)#输出报错原因(种类)def parse_wiki_data(table_html):    '''    从百度百科返回的html中解析得到选手信息,以当前日期作为文件名,存JSON文件,保存到work目录下    '''    bs = BeautifulSoup(str(table_html),'lxml')#用bs4进行解析    all_trs = bs.find_all('tr')#获取所有的'tr'标签    error_list = ['\'','\"']    stars = []    for tr in all_trs[1:]:#循环除了第一个‘tr’标签以外的内容         all_tds = tr.find_all('td')         star = {}         #获取并保存数据         #姓名         star["name"]=all_tds[0].text         #个人百度百科链接         star["link"]= '; + all_tds[0].find('a').get('href')         #籍贯         star["zone"]=all_tds[1].text         #星座         star["constellation"]=all_tds[2].text         #身高         star["height"]=all_tds[3].text         #体重         star["weight"]= all_tds[4].text         #花语,去除掉花语中的单引号或双引号         flower_word = all_tds[5].text         for c in flower_word:             if  c in error_list:                 flower_word=flower_word.replace(c,'')         star["flower_word"]=flower_word                   #公司         if not all_tds[6].find('a') is  None:             star["company"]= all_tds[6].find('a').text         else:             star["company"]= all_tds[6].text           stars.append(star)    json_data = json.loads(str(stars).replace("\'","\""))    #此处的work修改为电脑实际位置如:./  #(本目录下)       with open('work/' + today + '.json', 'w', encoding='UTF-8') as f:        json.dump(json_data, f, ensure_ascii=False)def crawl_pic_urls():    '''    爬取每个选手的百度百科图片,并保存    '''     #修改此处位置    with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:         json_array = json.loads(file.read())    headers = {         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'      }    for star in json_array:        name = star['name']        link = star['link']        #!!!请在以下完成对每个选手图片的爬取,将所有图片url存储在一个列表pic_urls中!!!        '''        需要输入的内容!!!        '''        #!!!根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中!!!        down_pic(name,pic_urls)def down_pic(name,pic_urls):    '''    根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中,    '''    #修改实际位置    path = 'work/'+'pics/'+name+'/'    if not os.path.exists(path):#如果文件不存在则创建      os.makedirs(path)    for i, pic_url in enumerate(pic_urls):循环列表并输出列表内的编码        try:#异常处理            pic = requests.get(pic_url, timeout=15)            string = str(i + 1) + '.jpg'            with open(path+string, 'wb') as f:#打开文件保存并关闭                f.write(pic.content)                print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))        except Exception as e:            print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))            print(e)            continue      def show_pic_path(path):    '''    遍历所爬取的每张图片,并打印所有图片的绝对路径    '''    pic_num = 0    for (dirpath,dirnames,filenames) in os.walk(path):        for filename in filenames:           pic_num += 1           print("第%d张照片:%s" % (pic_num,os.path.join(dirpath,filename)))               print("共爬取《青春有你2》选手的%d照片" % pic_num)if __name__ == '__main__':#主函数     #爬取百度百科中《青春有你2》中参赛选手信息,返回html     html = crawl_wiki_data()     #解析html,得到选手信息,保存为json文件     parse_wiki_data(html)     #从每个选手的百度百科页面上爬取图片,并保存     crawl_pic_urls()     #打印所爬取的选手图片路径     #修改到实际位置     show_pic_path('/home/aistudio/work/pics/')     print("所有信息爬取完成!")
内容解析

上面的代码把《青春有你2》的百度百科页面进行了解析,提取每个练习生的百科地址然后是我们填写的内容下面是下载图片,保存图片然后是输出目录下面的文件名字

总体思路

先行爬取页面然后根据页面找到图库地址在这里插入图片描述

这个地址需要拼接,拼接好以后,就可以使用了。

拼接好以后request到页面

找到有关地址进行分析,然后把地址获取下来放到列表即可。

#小编源码,有许多输出测试pic_urls = []#新建列表每次循环初始化r = requests.get(link, headers= headers)#获取每个页面的信息#print(r.text)soup = BeautifulSoup(r.text, 'lxml')#解析页面# print(soup)migs = soup.find_all('div', class_='summary-pic')#print(migs)migs = migs[0].a.get('href')#获取链接的部分内容if 'http' not in migs:#避免其他内容干扰报错    # print(migs)    url = f'{migs}'#拼接链接    # print(url)    photo_r = requests.get(url, headers= headers)#获取链接页面    # print(photo_r.text)    photo_soup = BeautifulSoup(photo_r.text, 'lxml')#解析页面    photo_urls = photo_soup.find_all('a', class_='pic-item')#解析页面    for photo_url in photo_urls:        print(photo_url)        try:            photo_url = photo_url.img.get('src')#获取图片地址            pic_urls.append(photo_url)#放入列表        except:            continue
结果查看

基本上符合标准注意内容

在里面因为是远端文件所有的地址需要修改改到实际是电脑的位置,小编已经给了标注大家注意!!!今天的内容就到这里了,明天再见,不不不明天小编就肝秃了。

后续会有持续更新,记得给小编点个赞呦。小编还有公众号:芝麻代理。里面会有我每天最新文章的更新。还整理了一些python学习资料。回复:资料分享。免费领取。

标签: #python2爬取图片