龙空技术网

提高CPU密集型任务执行效率——Python多进程介绍,内附实例代码

软件测试开发技术栈 299

前言:

而今小伙伴们对“python实现多进程”可能比较注意,看官们都想要知道一些“python实现多进程”的相关知识。那么小编也在网络上网罗了一些有关“python实现多进程””的相关文章,希望看官们能喜欢,大家一起来学习一下吧!

multiprocessing模块介绍

Python中多线程无法利用多核优势,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程,Python提供了multiprocessing。

multiprocessing模块用来开启子进程,并在子进程中执行我们定制的任务(比如函数),该模块与多线程模块threading的编程接口类似。

multiprocessing模块的功能众多:支持子进程,通信和共享数据,执行不同形式的同步,提供了process、Queue、Lock等组件。

需要再次强调的一点是:与线程不同,进程没有任何共享状态,进程修改的数据,改动仅限与该进程内。

由该类实例化得到的对象,表示一个子进程中的任务,其中需要使用关键字的方式来指定参数,args指定的为传给target函数的位置参数,是一个元组形式,必须有逗号。

参数说明:

group:参数未使用,值始终为None。target:表示调用对象,即子进程要执行的任务函数。args:表示调用对象的位置参数元组,args=(age,1,)。kwargs:表示调用对象的字典,kwargs={'age':'17' , 'sex':'boy'}。name:为子进程的名称。

常用属性说明:

Process.name:进程的名称。Process.pid:进程的PID。Process.daemon:需在p.start()之前设置,默认值为False,如果设为True,当父进程结束后,子进程会自动被终止。且设定为True时,P不能创建自己的新进程。Process.exitcode:进程在运行时为None、如果为–N,表示被信号N结束。Process.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性,这类连接只有在具有相同的身份验证键时才能成功。

常用方法

Process.start():启动进程,并调用该子进程中的p.run() (进程启动时运行的方法)。Process.terminate():强制终止进程p,不会进行任何清理操作,如果P创建了子进程,该子进程就成了僵尸进程。如果P还存在锁,那么也不会被释放,进而导致死锁。需谨慎使用。Process.is_alive():返回P运行状态,若运行,返回True。Process.join([timeout]):主线程等待P终止(强调:是主线程处于等的状态,而P是处于运行的状态)。timeout是可选的超时时间,需要强调的是,P.join只能join住start开启的进程,而不能join住run开启的进程。multiprocessing 使用函数创建多进程

注意:在windows中process()必须放到 if __name__ == '__main__':

multiprocessing 使用类创建多进程

在下面的例子中,我们继承了 Process 这个类,然后重写了run方法。打印出来了进程名称和任务名称

Deamon 进程守护

每个线程都可以单独设置它的属性,如果设置为True,当父进程结束后,子进程会自动被终止。如下代码,调用的时候增加了设置deamon。

守护进程会在主进程代码执行结束后终止。守护进程内无法再开启子进程,否则抛出异常:AssertionError:daemonic processes are not allowed to have children。

因为主进程没有做任何事情,直接输出一句话结束,所以在这时也直接终止了子进程的运行。最后输出Exiting Main Process。接下来,我们让主进程做点事情,如下

那么如果我们让所有子进程都执行完了然后再结束,该怎么处理,只需要加入join()方法,这样父进程(主进程)就会等待子进程执行完毕,如下:

所有子进程都执行完毕之后,父进程最后打印出了结束的信息。

Lock 锁

进程之间数据隔离,数据不共享,但是共享同一套文件系统,因而可以通过文件来实现进程直接的通信,但必须自己加锁进行处理。

加锁可以保证多个进程修改同一块数据时,同一时间只能有一个任务可以进行修改,即串行的修改,牺牲了运行效率,但保证了数据安全。

虽然可以用文件共享数据实现进程间通信,但问题是:

效率低需要加锁处理

为此multiprocessing模块为我们提供了基于消息的IPC通信机制:队列。

Queue 进程间通信

我们应该尽量避免使用共享数据,尽可能使用消息传递和队列,避免处理复杂的同步和锁问题。

队列是将数据存放与内存中。队列又是基于管道、锁实现的,可以让我们从复杂的锁问题中解脱出来。

Queue模块中的常用方法:

Queue.put():方法用以插入数据到队列中,put方法还有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,该方法会阻塞timeout指定的时间,直到该队列有剩余的空间。如果超时,会抛出Queue.Full异常。如果blocked为False,但该Queue已满,会立即抛出Queue.Full异常。Queue.get():方法可以从队列读取并且删除一个元素。同样,get方法有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,那么在等待时间内没有取到任何元素,会抛出Queue.Empty异常。如果blocked为False,有两种情况存在,如果Queue有一个值可用,则立即返回该值,否则,如果队列为空,则立即抛出Queue.Empty异常。Queue.get_nowait():同Queue.get(False)。Queue.put_nowait():同Queue.put(False)。Queue.empty():调用此方法时Queue为空则返回True。Queue.full():调用此方法时Queue已满则返回True。Queue.qsize():返回队列中目前项目的正确数量。

如上通过添加q.put(None) 作为信号,当所有的包子都生产完成了之后就在队列里最后加上这个None信号,当顾客从队列里拿到这个信号的时候,就表示已经没有包子了,进程退出。但当做个消费者时,要加两个 q.put(None) 因为这里模拟2个消费者,如果只有1个None信号,但消费者拿到第一个None之后,他知道没有了就会退出进程,但是第二个消费者就拿不到了,所以就会一直在哪里等待,导致程序卡死,所以有多少个消费者就需要多少个信号。那么有没有其他方式能够简化这种操作?——JoinableQueue。

JoinableQueue(N个生产者和N个消费者)

JoinableQueue与Queue一样也是multiprocessing模块中的一个类,也可以用于创建进程队列。

JoinableQueue 创建可连接的共享进程队列,队列允许队列的消费者通知生产者,队列数据已被成功处理完成。通知过程是使用共享的信号和条件变量来实现的。

JoinableQueue除了与Queue相同的方法之外,还具有2个特有的方法:

JoinableQueue.task_done():使用者使用此方法发出信号,表示Queue.get()的返回项目已经被处理。如果调用此方法的次数大于从队列中删除项目的数量,将引发ValueError异常。JoinableQueue.join():生产者调用此方法进行阻塞,直到队列中所有的项目均被处理。阻塞将持续到队列中的每个项目均调用Queue.task_done()方法为止。

希望对你有所帮助,若感兴趣欢迎关注、点赞支持。

标签: #python实现多进程