为什么要使用多GPU并行训练，单卡和多卡训练，bs和lr的关系

阅读：评论：0

参考

理解

为什么要使用多GPU并行训练
简单来说，有两种原因：第一种是模型在一块GPU上放不下，两块或多块GPU上就能运行完整的模型（如早期的AlexNet）。第二种是多块GPU并行计算可以达到加速训练的效果。想要成为“炼丹大师“，多GPU并行训练是不可或缺的技能。

常见的多GPU训练方法：
1.模型并行方式：如果模型特别大，GPU显存不够，无法将一个显存放在GPU上，需要把网络的不同模块放在不同GPU上，这样可以训练比较大的网络。（下图左半部分）

2.数据并行方式：将整个模型放在一块GPU里，再复制到每一块GPU上，同时进行正向传播和反向误差传播。相当于加大了batch_size。（下图右半部分）

单卡和多大训练，bs和lr的关系

众所周知，learning rate的设置应和batch_size的设置成正比，即所谓的线性缩放原则（linear scaling rule）。但是为什么会有这样的关系呢？这里就Accurate Large Minibatch SGD: Training ImageNet in 1 Hour这篇论文来深入探讨一下其中的原理，以及深度学习模型在分布式训练中需要注意的事情。

本文发布于:2024-02-01 16:22:01，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170677572237908.html

上一篇：LBDT从多卡到单卡遇到AssertionError: Default process group is not initialized

下一篇：Pytorch(1.2.0+)：多机单卡并行实操（MNIST识别）

标签：要使关系 bs GPU lr

留言与评论（共有 0 条评论）