前言:
今天各位老铁们对“python多进程处理文件”大约比较关心,你们都需要知道一些“python多进程处理文件”的相关知识。那么小编同时在网摘上汇集了一些对于“python多进程处理文件””的相关文章,希望咱们能喜欢,同学们快快来了解一下吧!大多数编程语言都会有多线程和多进程的概念,至于线程和进程的概念,大家可以百度一下。
作为一门胶水语言,Python毫不意外,也可以利用多线程和多进程处理并发问题,但是多线程由于GIL的存在,起作用范围大打折扣,仅限于在IO等场景可以发挥点作用。所以,今天要跟大家分享的是Python多进程方案,更好地利用系统多核,从而提升性能。
基础方案一:
利用Process新建一个子进程,在子进程执行任务。我们写一个循环,模拟耗时任务的执行。主进程不会等待子进程执行完,就会继续往下执行。我们可以根据实际业务情况,开启很多这样的进程。
# encoding=utf-8from datetime import datetimeimport timefrom multiprocessing import Pool, Processdef job1(): def run(): print('[Child][{}]'.format(datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f'))) # 模拟一个耗时任务 counter = 0 while counter < 5: run() time.sleep(2) counter += 1 # print('sub process done')if __name__ == '__main__': p = Process(target=job1) p.start() # print('main process done')
执行效果如下
方案二:进程池
进程池可以理解成一个队列,该队列可以容易指定数量的子进程,当队列被任务占满之后,后续新增的任务就得排队,直到旧的进程有任务执行完空余出来,才会去执行新的任务。
# encoding=utf-8from datetime import datetimeimport timeimport randomfrom multiprocessing import Pool, Processdef job2(msg): def run(): print('[Child-{}][{}]'.format(msg, datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f'))) # 模拟一个耗时任务 time.sleep(random.randint(1, 3)) run()if __name__ == '__main__': # 进程池大小 pool_size = 2 # 进程池 pool = Pool(pool_size) # 添加任务, 假设我们要添加6个任务,由于进程池大小为2,每次能只有2个任务并行执行,其他任务排队 [pool.apply_async(job2, args=(i,)) for i in range(6)] pool.close() pool.join() # print('main process done')
执行结果如下:
方案三:ProcessPoolExecutor
ProcessPoolExecutor是concurrent.futures里面的一个多进程解决方案,对多进程进行了一些便利的封装,用起来跟Java的ThreadPoolExecutor感觉很类似。
同样,方案二的示例,我们用ProcessPoolExecutor重新实现一次。
# encoding=utf-8from datetime import datetimeimport timeimport randomfrom concurrent.futures import ProcessPoolExecutor, waitdef job3(msg): def run(): print('[Child-{}][{}]'.format(msg, datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f'))) # 模拟一个耗时任务 time.sleep(random.randint(1, 5)) run()if __name__ == '__main__': # 进程池大小 pool_size = 2 # 进程池 pool = ProcessPoolExecutor(pool_size) # 添加任务, 假设我们要添加6个任务,由于进程池大小为2,每次能只有2个任务并行执行,其他任务排队 tasks = [pool.submit(job3, i) for i in range(6)] ### 等待任务执行完, 也可以设置一个timeout时间 wait(tasks) # print('main process done')
结语
以上简单介绍了多进程,进程池的几种用法。当然示例的几种场景都不涉及到多进程并发变量共享的问题,这个后续会推出其他文章单独讲述。