建一个网站大概多少钱_java dataoutputstream乱码_创建一个网站_网络营销的实现方式包括

时间:2025/7/14 8:54:26来源：https://blog.csdn.net/WBingJ/article/details/144409864 浏览次数:0次

一.batch（批次）

在计算微分时，不是对所有的数据算出来的Loss值做微分，而是将所有的数据分成一个一个的batch。一个batch是一个B，在更新参数时，拿B的资料计算Loss，计算gradient，再更新参数；另一组参数也是类似，拿B的资料计算Loss，计算gradient，再更新参数，以此类推。不会将所有的数据计算loss，而是将资料分成一个一个的batch。

所有的batch计算过一遍就叫做一个epoch。在每一个epoch开始前，会分一次batch。
每一个epoch分的batch都不一样。在把所有的资料分成一个一个的batch时，这个过程就叫做Shuffle。

Small batch v.s. Large Batch

假设现在有20个训练资料，左边是没有用batch的（batch size就是全部的训练资料）、右边的batch size为1。左边的需要把所有的资料看过一次，才能计算loss值，计算gradient，然后更新一次参数。右边的更新一次参数只要一个B的batch资料，在一个epoch里面，就需要更新20次参数。

比较1：Speed for one update：Large Batch的蓄力时间较长，因为需要把所有的资料都看过一遍。Small batch的蓄力时间短，每看到一笔资料就需要更新一次参数。
比较2：Gredient：Large batch比较稳， Small Batch的就比较noisy。

比较3：Time for one epoch：batch size 比较大的训练资料计算loss、gradient、更新参数的时间不一定比batch size 小的时间长

以识别数字为例，在batch size为1-1000时相差不大（GPU可以做平行运算，所以计算1000个资料的时间并不是1个资料的1000倍），但是batch size超过一定界限，计算的时间会随着batch size的增大而增大。

因为有平行运算的能力，当 batch size 小的时候，跑完一个epoch花费的时间比大的batch size的多。例如：batch size为1的时候与batch size为1000的时候时间差不多，但是，batch size为1的时候跑完一个epoch的时间为350+，batch size为1000的时候跑完一个epoch的时间只要20。这个时候 batch size 为1000的时间更短，更有效率。所以考虑平行运算时，batch size比较大的一个epoch花费的时间更少。

综上来说，batch size 大的似乎更好，比较batch size 大小的好坏还需要考虑到稳定还是陡，比较陡的gradient反而可以帮助训练。

例如：左边为MNISTY的影像辨识例子、右边为CIFAR-10的影像辨识例子。横轴为batch size的大小，纵轴为正确率。batch size越大，validation上的结果就越差。在training上也是如此。这是optimization不理想所导致的问题。

比较4：optimization：小的batch size更有利于训练

因为如果是full batch的话，沿着loss function更新参数，遇到local minima、saddle point时就无法用gradient decent的方法更新了。

如果是small batch的话，因为每次用一个batch来计算loss，根据loss来更新参数。每次更新参数用到的loss function都是有差异的，第一次用L1、第二次用L2。假设第一次更新时用L1计算gradient为0，这就卡住了。但是L2的gradient不一定为0，可以继续更新，所以比较陡的反而更有利于训练。

比较5：Generalization：小的batch size对测试资料有帮助：

假8

为什么小的batch size对测试资料有帮助呢？

在Training loss上可能有很多的local minima，loss值趋近于0，如果一个local minima两边斜率很大，则这个local minima为sharp minima；如果一个local minima两边斜率很小，则这个local minima为flat minima。在Testing loss上，flat minima在Training loss和Testing loss上不会差很多；但是sharp minima在Training loss和Testing loss上会差很多。大的batch size会更容易得出sharp minima；小的batch size会更容易得出flat minima。