听说过python协程没？听说过 asyncio 库没？都在这里了

独一无二的Python君 08-13 175

前言：

如今兄弟们对“python协程爬虫”大体比较着重，大家都需要学习一些“python协程爬虫”的相关资讯。那么小编在网上汇集了一些有关“python协程爬虫””的相关知识，希望小伙伴们能喜欢，看官们快快来学习一下吧！

python 中协程概念是从 3.4 版本增加的，但 3.4 版本采用是生成器实现，为了将协程和生成器的使用场景进行区分，使语义更加明确，在 python 3.5 中增加了 async 和 await 关键字，用于定义原生协程。

asyncio 异步 I/O 库

python 中的 asyncio 库提供了管理事件、协程、任务和线程的方法，以及编写并发代码的原语，即 async 和 await。

该模块的主要内容：

事件循环：event_loop，管理所有的事件，是一个无限循环方法，在循环过程中追踪事件发生的顺序将它们放在队列中，空闲时则调用相应的事件处理者来处理这些事件；协程：coroutine，子程序的泛化概念，协程可以在执行期间暂停，等待外部的处理（I/O 操作）完成之后，再从暂停的地方继续运行，函数定义式使用 async 关键字，这样这个函数就不会立即执行，而是返回一个协程对象；Future 和 Task：Future 对象表示尚未完成的计算，Task 是 Future 的子类，包含了任务的各个状态，作用是在运行某个任务的同时可以并发的运行多个任务。异步函数的定义

异步函数本质上依旧是函数，只是在执行过程中会将执行权交给其它协程，与普通函数定义的区别是在 def 关键字前增加 async。

# 异步函数import asyncio# 异步函数async def func(x):    print("异步函数")    return x ** 2ret = func(2)print(ret)复制代码

运行代码输入如下内容：

sys:1: RuntimeWarning: coroutine 'func' was never awaited<coroutine object func at 0x0000000002C8C248>复制代码

函数返回一个协程对象，如果想要函数得到执行，需要将其放到事件循环 event_loop 中。

事件循环 event_loop

event_loop 是 asyncio 模块的核心，它将异步函数注册到事件循环上。过程实现方式为：由 loop 在适当的时候调用协程，这里使用的方式名为 asyncio.get_event_loop()，然后由 run_until_complete(协程对象) 将协程注册到事件循环中，并启动事件循环。

import asyncio# 异步函数async def func(x):    print("异步函数")    return x ** 2# 协程对象，该对象不能直接运行coroutine1 = func(2)# 事件循环对象loop = asyncio.get_event_loop()# 将协程对象加入到事件循环中，并执行ret = loop.run_until_complete(coroutine1)print(ret)复制代码

首先在 python 3.7 之前的版本中使用异步函数是安装上述流程：

先通过 asyncio.get_event_loop() 获取事件循环 loop 对象；然后通过不同的策略调用 loop.run_until_complete() 或者 loop.run_forever() 执行异步函数。

在 python 3.7 之后的版本，直接使用 asyncio.run() 即可，该函数总是会创建一个新的事件循环并在结束时进行关闭。

最新的官方文档都采用的是 run 方法。官方案例

import asyncioasync def main():    print('hello')    await asyncio.sleep(1)    print('world')asyncio.run(main())复制代码

接下来在查看一个完整的案例，并且结合 await 关键字。

import asyncioimport time# 异步函数1async def task1(x):    print("任务1")    await asyncio.sleep(2)    print("恢复任务1")    return x# 异步函数2async def task2(x):    print("任务2")    await asyncio.sleep(1)    print("恢复任务2")    return xasync def main():    start_time = time.perf_counter()    ret_1 = await task1(1)    ret_2 = await task2(2)    print("任务1 返回的值是", ret_1)    print("任务2 返回的值是", ret_2)    print("运行时间", time.perf_counter() - start_time)if __name__ == '__main__':	# 创建一个事件循环    loop = asyncio.get_event_loop()    # 将协程对象加入到事件循环中，并执行    loop.run_until_complete(main())复制代码

代码输出如下所示：

任务1恢复任务1任务2恢复任务2任务1 返回的值是 1任务2 返回的值是 2运行时间 2.99929154复制代码

上述代码创建了 3 个协程，其中 task1 和 task2 都放在了协程函数 main 中，I/O 操作通过 asyncio.sleep(1) 进行模拟，整个函数运行时间为 2.9999 秒，接近 3 秒，依旧是串行进行，如果希望修改为并发执行，将代码按照下述进行修改。

import asyncioimport time# 异步函数1async def task1(x):    print("任务1")    await asyncio.sleep(2)    print("恢复任务1")    return x# 异步函数2async def task2(x):    print("任务2")    await asyncio.sleep(1)    print("恢复任务2")    return xasync def main():    start_time = time.perf_counter()    ret_1,ret_2 = await asyncio.gather(task1(1),task2(2))    print("任务1 返回的值是", ret_1)    print("任务2 返回的值是", ret_2)    print("运行时间", time.perf_counter() - start_time)if __name__ == '__main__':    loop = asyncio.get_event_loop()    loop.run_until_complete(main())复制代码

上述代码最大的变化是将 task1 和 task2 放到了 asyncio.gather() 中运行，此时代码输出时间明显变短。

任务1任务2恢复任务2 # 任务2 由于等待时间短，先返回。恢复任务1任务1 返回的值是 1任务2 返回的值是 2运行时间 2.0005669480000003复制代码

asyncio.gather() 可以更换为 asyncio.wait() ，修改代码如下所示：

import asyncioimport time# 异步函数1async def task1(x):    print("任务1")    await asyncio.sleep(2)    print("恢复任务1")    return x# 异步函数2async def task2(x):    print("任务2")    await asyncio.sleep(1)    print("恢复任务2")    return xasync def main():    start_time = time.perf_counter()    done, pending = await asyncio.wait([task1(1), task2(2)])    print(done)    print(pending)    print("运行时间", time.perf_counter() - start_time)if __name__ == '__main__':    loop = asyncio.get_event_loop()    loop.run_until_complete(main())复制代码

asyncio.wait() 返回一个元组，其中包含一个已经完成的任务集合，一个未完成任务的集合。

gather 和 wait 的区别

gather：需要所有任务都执行结束，如果任意一个协程函数崩溃了，都会抛异常，不会返回结果；wait：可以定义函数返回的时机，可以设置为 FIRST_COMPLETED （第一个结束的）, FIRST_EXCEPTION（第一个出现异常的）, ALL_COMPLETED（全部执行完，默认的）。

done,pending = await asyncio.wait([task1(1),task2(2)],return_when=asyncio.tasks.FIRST_EXCEPTION)复制代码

创建 task

由于协程对象不能直接运行，在注册到事件循环时，是 run_until_complete 方法将其包装成一个 task 对象。该对象是对 coroutine 对象的进一步封装，它比 coroutine 对象多了运行状态，例如 pending，running，finished，可以利用这些状态获取协程对象的执行情况。

下面显示的将 coroutine 对象封装成 task 对象，在上述代码基础上进行修改。

import asyncioimport time# 异步函数1async def task1(x):    print("任务1")    await asyncio.sleep(2)    print("恢复任务1")    return x# 异步函数2async def task2(x):    print("任务2")    await asyncio.sleep(1)    print("恢复任务2")    return xasync def main():    start_time = time.perf_counter()    # 封装 task 对象    coroutine1 = task1(1)    task_1 = loop.create_task(coroutine1)    coroutine2 = task2(2)    task_2 = loop.create_task(coroutine2)    ret_1, ret_2 = await asyncio.gather(task_1, task_2)    print("任务1 返回的值是", ret_1)    print("任务2 返回的值是", ret_2)    print("运行时间", time.perf_counter() - start_time)if __name__ == '__main__':    loop = asyncio.get_event_loop()    loop.run_until_complete(main())复制代码

由于 task 对象是 future 对象的子类对象，所以上述代码也可以按照下述内容修改：

# task_2 = loop.create_task(coroutine2)task_2 = asyncio.ensure_future(coroutine2)复制代码

下面将 task 对象的各个状态进行打印输出。

import asyncioimport time# 异步函数1async def task1(x):    print("任务1")    await asyncio.sleep(2)    print("恢复任务1")    return x# 异步函数2async def task2(x):    print("任务2")    await asyncio.sleep(1)    print("恢复任务2")    return xasync def main():    start_time = time.perf_counter()    # 封装 task 对象    coroutine1 = task1(1)    task_1 = loop.create_task(coroutine1)    coroutine2 = task2(2)    # task_2 = loop.create_task(coroutine2)    task_2 = asyncio.ensure_future(coroutine2)    # 进入 pending 状态    print(task_1)    print(task_2)    # 获取任务的完成状态    print(task_1.done(), task_2.done())    # 执行任务    await task_1    await task_2    # 再次获取完成状态    print(task_1.done(), task_2.done())    # 获取返回结果    print(task_1.result())    print(task_2.result())    print("运行时间", time.perf_counter() - start_time)if __name__ == '__main__':    loop = asyncio.get_event_loop()    loop.run_until_complete(main())复制代码

await task_1 表示的是执行该协程，执行结束之后，task.done() 返回 True，task.result() 获取返回值。

回调返回值

当协程执行完毕，需要获取其返回值，刚才已经演示了一种办法，使用 task.result() 方法获取，但是该方法仅当协程运行完毕时，才能获取结果，如果协程没有运行完毕，result() 方法会返回 asyncio.InvalidStateError（无效状态错误）。

一般编码都采用第二种方案，通过 add_done_callback() 方法绑定回调。

import asyncioimport requestsasync def request_html():    url = ';    res = requests.get(url)    return res.status_codedef callback(task):    print('回调：', task.result())loop = asyncio.get_event_loop()coroutine = request_html()task = loop.create_task(coroutine)# 绑定回调task.add_done_callback(callback)print(task)print("*"*100)loop.run_until_complete(task)print(task)复制代码

上述代码当 coroutine 执行完毕时，会调用 callback 函数。

如果回调函数需要多个参数，请使用 functools 模块中的偏函数（partial）方法

循环事件关闭

建议每次编码结束之后，都调用循环事件对象 close() 方法，彻底清理 loop 对象。

本节课爬虫项目

本节课要采集的站点由于全部都是 coser 图片，所以地址在代码中查看即可。完整代码如下所示：

import threadingimport asyncioimport timeimport requestsimport lxmlfrom bs4 import BeautifulSoupasync def get(url):    return requests.get(url)async def get_html(url):    print("准备抓取：", url)    res = await get(url)    return res.textasync def save_img(img_url):    # thumbMid_5ae3e05fd3945 将小图替换为大图    img_url = img_url.replace('thumb','thumbMid')    img_url = "; + img_url    print("图片下载中：", img_url)    res = await get(img_url)    if res is not None:        with open(f'./imgs/{time.time()}.jpg', 'wb') as f:            f.write(res.content)            return img_url,"ok"async def main(url_list):    # 创建 5 个任务    tasks = [asyncio.ensure_future(get_html(url_list[_])) for _ in range(len(url_list))]    dones, pending = await asyncio.wait(tasks)    for task in dones:        html = task.result()        soup = BeautifulSoup(html, 'lxml')        divimg_tags = soup.find_all(attrs={'class': 'workimage'})        for div in divimg_tags:            ret = await save_img(div.a.img["data-original"])            print(ret)if __name__ == '__main__':    urls = [f"{page}" for page in range(1, 17)]    totle_page = len(urls) // 5 if len(urls) % 5 == 0 else len(urls) // 5 + 1    # 对 urls 列表进行切片，方便采集    for page in range(0, totle_page):        start_page = 0 if page == 0 else page * 5        end_page = (page + 1) * 5        # 循环事件对象        loop = asyncio.get_event_loop()        loop.run_until_complete(main(urls[start_page:end_page]))复制代码

代码说明上述代码中第一个要注意的是 await 关键字后面只能跟如下内容：

原生的协程对象；一个包含 await 方法的对象返回的一个迭代器。

所以上述代码 get_html 函数中嵌套了一个协程 get。主函数 main 里面为了运算方便，直接对 urls 进行了切片，然后通过循环进行运行。

当然上述代码的最后两行，可以直接修改为：

 # 循环事件对象 # loop = asyncio.get_event_loop() # # loop.run_until_complete(main(urls[start_page:end_page])) asyncio.run(main(urls[start_page:end_page]))复制代码

轻松获取一堆高清图片。

写在后面

协程掌握了，python 爬虫之路就开启了。

本文地址：http://www.longkongtuishu.com/cae4fAGsCAFEHCFw.html

标签： #python协程爬虫