龙空技术网

Day73:模型训练速度过慢,GPU利用率低

做个自律的禾苗 130

前言:

目前我们对“pytorch为什么gpu跑不满”大约比较关切,咱们都需要知道一些“pytorch为什么gpu跑不满”的相关文章。那么小编同时在网上收集了一些关于“pytorch为什么gpu跑不满””的相关内容,希望你们能喜欢,各位老铁们快快来了解一下吧!

问题描述

在跑实现的时候,GPU内存占用较大,但是GPU利用率为0,这就很不正常,有显存占用说明模型应该是在跑的。后来既然GPU利用不起来,我干脆同时跑多个模型,想充分利用,但是效果还不是很明显,速度依然都很慢。

查了查资料发现可以在Dataloader里加pin_memory=True, num_workers=8,这样能将数据放入显存,并且通过多线程减少数据读入的时间,模型训练速度会快一些。但是我试了试也没有明显的效果,就很奇怪。(主义者这能是TensorFlow里的用法,不知道Pytorch适不适用)

当然也试过增大batch size,但是治标不治本。

问题原因

所以到底为什么导致了这个原因呢?

后来我偶然为了减小最后的tensorboard log文件,我把一些用不到的tensorboard的写入比如直方图给删掉了,发现速度瞬间提上来了,然后再减小训练时的输出间隔,速度也有提升。立刻明白了,是因为训练的主要时间都花在了写日志上,文件IO耗时特别多,尤其是我设置的写入间隔还很小,所以GPU计算一瞬间,然后写很久的记录,计算一瞬间,再写很久的记录,最终导致速度特别慢。

另外这么快的速度也不全是显卡,跟前面提到的pin_memory也有关系,以及使用了PyTorch的半精度来提高速度,精度也没有受到很大影响。

这个问题解决后我也明白为啥之前的AlexNet跑一个epoch还要三四分钟,五六分钟,时间都花在写日志上了。以及之前跑的一个比较大的模型,也有了提速的方法,之前需要50分钟,现在估计五六分钟。可以很方便的做各种对比实验与测试,效率提高的不是一点点。

总结

最后总结一下,有的时候模型训练慢并不是因为显卡不行或者模型太大,而是在跑模型过程中有一些其他的操作导致速度很慢,尤其是文件的IO操作,这会导致GPU得不到连续性使用,整体速度特别慢。

模型提速技巧减少日志IO操作频率使用pin_memory和num_workers使用半精度训练更好的显卡,更轻的模型另外也可以通过增大batch size提高epoch速度,但是收敛速度也会变慢,需要再适当升高学习率

————————————————

原文链接:

标签: #pytorch为什么gpu跑不满