yolov7自动停止(设置patience)且输出最优模型时的PR图(test best.py)

早停的意义

一、早停法简介(Early Stopping)
当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能(generalization performance,即可以很好地拟合数据)。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合:当网络在训练集上表现越来越好,错误率越来越低的时候,实际上在某一刻,它在测试集的表现已经开始变差。

模型的泛化能力通常使用模型在验证数据集(validation set)上的表现来评估。随着网络的优化,我们期望的理想中的泛化错误如图1所示。即当模型在训练集上的误差降低的时候,其在验证集上的误差表现不会变差。反之,当模型在训练集上表现很好,在验证集上表现很差的时候,我们认为模型出现了过拟合(overfitting)的情况。

解决过拟合问题有两个方向:降低参数空间的维度或者降低每个维度上的有效规模(effective size)。降低参数数量的方法包括greedy constructive learning、剪枝和权重共享等。降低每个参数维度的有效规模的方法主要是正则化,如权重衰变(weight decay)和早停法(early stopping)等。

早停法是一种被广泛使用的方法,在很多案例上都比正则化的方法要好。图1是我们经常看到论文中出现的图,也是使用早停法出现的一个结果。其基本含义是在训练中计算模型在验证集上的表现,当模型在验证集上的表现开始下降的时候,停止训练,这样就能避免继续训练导致过拟合的问题。其主要步骤如下:

  1. 原始的训练数据集划分成训练集和验证集
    1. 只在训练集上进行训练,并每个一个周期计算模型在验证集上的误差,例如,每15次epoch(mini batch训练中的一个周期)
      1. 当模型在验证集上的误差比上一次训练结果差的时候停止训练
        1. 使用上一次迭代结果中的参数作为模型的最终参数

然而,在现实中,模型在验证集上的误差不会像上图那样平滑,而是像下图一样:

也就是说,模型在验证集上的表现可能咱短暂的变差之后有可能继续变好。上图在训练集迭代到400次的时候出现了16个局部最低。其中有4个最低值是它们所在位置出现的时候的最低点。其中全局最优大约出现在第205次迭代中。首次出现最低点是第45次迭代。相比较第45次迭代停止,到第400次迭代停止的时候找出的最低误差比第45次提高了1.1%,但是训练时间大约是前者的7倍。

但是,并不是所有的误差曲线都像上图一样,有可能在出现第一次最低点之后,后面再也没有比当前最低点更低的情况了。所以我们看到,早停法主要是训练时间和泛化错误之间的权衡。尽管如此,也有某些停止标准也可以帮助我们寻找更好的权衡。

二、如何使用早停法

我们需要一个停止的标准来实施早停法,因此,我们希望它可以产生最低的繁华错误,同时也可以有最好的性价比,即给定泛化错误下的最小训练时间

2.1、停止标准简介

停止标准有很多,也很灵活,大约有三种。在给出早停法的具体标准之前,我们先确定一下符号。假设我们使用 **E **作为训练算法的误差函数,那么 Etr(t)

是训练数据上的误差,Ete(t) 是测试集上的误差。实际情况下我们并不能知道泛化误差,因此我们使用验证集误差来估计它。

第一类停止标准(Gl)

我们定义一个新变量叫泛化损失(generalization loss),它描述的是在当前迭代周期t中,泛化误差相比较目前的最低的误差的一个增长率

较高的泛化损失显然是停止训练的一个候选标准,因为它直接表明了过拟合。

第二类停止标准(PQ)

然而,当训练的速度很快的时候,我们可能希望模型继续训练。因为如果训练错误依然下降很快,那么泛化损失有很大概率被修复。我们通常会假设过拟合只会在训练错误降低很慢的时候出现。在这里,我们定义一个k周期,以及基于周期的一个新变量度量进展(measure progress)

它表达的含义是,当前的指定迭代周期内的平均训练错误比该期间最小的训练错误大多少。注意,当训练过程不稳定的时候,这个measure progress结果可能很大,其中训练错误会变大而不是变小。实际中,很多算法都由于选择了不适当的较大的步长而导致这样的抖动。除非全局都不稳定,否则在较长的训练之后,measure progress结果趋向于0(其实这个就是度量训练集错误在某段时间内的平均下降情况)。由此,我们引入了第二个停止标准,即泛化损失和进展的商PQα大于指定值的时候停止,即GL(t)/Pi(t)>0.

第三类停止标准(up)
第三类停止标准则完全依赖于泛化错误的变化,即当泛化错误在连续s个周期内增长的时候停止UP

当验证集错误在连续s个周期内出现增长的时候,我们假设这样的现象表明了过拟合,它与错误增长了多大独立。这个停止标准可以度量局部的变化,因此可以用在剪枝算法中,即在训练阶段,允许误差可以比前面最小值高很多时候保留。

2.2、停止标准选择规则

一般情况下,“较慢”的标准会相对而言在平均水平上表现略好,可以提高泛化能力。然而,这些标准需要较长的训练时间。其实,总体而言,这些标准在系统性的区别很小。主要选择规则包括:

  1. 除非较小的提升也有很大价值,负责选择较快的停止标准
  2. 为了最大可能找到一个好的方案,使用GL标准
  3. 为了最大化平均解决方案的质量,如果网络只是过拟合了一点点,可以使用PQ标准,否则使用UP标准

注意,目前并没有理论上可以证明那种停止标准较好,所以都是实验的数据。后续我们再介绍一下实验结果。

步骤1:在utils文件夹下的torch_utils.py里添加如下class

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class EarlyStopping:
# YOLOv5 simple early stopper
def __init__(self, patience=30):
self.best_fitness = 0.0 # i.e. mAP
self.best_epoch = 0
self.patience = patience or float('inf') # epochs to wait after fitness stops improving to stop
self.possible_stop = False # possible stop may occur next epoch

def __call__(self, epoch, fitness):
if fitness >= self.best_fitness: # >= 0 to allow for early zero-fitness stage of training
self.best_epoch = epoch
self.best_fitness = fitness
delta = epoch - self.best_epoch # epochs without improvement
self.possible_stop = delta >= (self.patience - 1) # possible stop may occur next epoch
stop = delta >= self.patience # stop training if patience exceeded
if stop:
logger.info(f'Stopping training early as no improvement observed in last {self.patience} epochs. '
f'Best results observed at epoch {self.best_epoch}, best model saved as best.pt.\n'
f'To update EarlyStopping(patience={self.patience}) pass a new patience value, '
f'i.e. `python train.py --patience 300` or use `--patience 0` to disable EarlyStopping.')
return stop

步骤2:在train.py前面添加模块

1
from util.torch_utils import EarlyStopping

步骤3:在train.py文件里大概第三百行start training中scaler变量下面添加如下两行

1
2
stopper: EarlyStopping
stopper, stop = EarlyStopping(patience=opt.patience), False

步骤4:在train.py文件里大概450行的位置,#Save model上方加入如下代码(并将原来的#Update best mAP部分删除)

1
2
3
4
5
6
# Update best mAP
fi = fitness(np.array(results).reshape(1, -1)) # weighted combination of [P, R, mAP@.5, mAP@.5-.95]
stop = stopper(epoch=epoch, fitness=fi) # early stop check
if fi > best_fitness:
best_fitness = fi
wandb_logger.end_epoch(best_result=best_fitness == fi)

步骤5:在train.py文件里大概490行的位置,#end epoch上方加入如下代码

1
2
3
4
5
6
7
8
# EarlyStopping
if rank != -1: # if DDP training
broadcast_list = [stop if rank == 0 else None]
dist.broadcast_object_list(broadcast_list, 0) # broadcast 'stop' to all ranks
if rank != 0:
stop = broadcast_list[0]
if stop:
break # must break all DDP ranks

步骤6:在train.py文件里大概580行的位置,加入一行

1
2
parser.add_argument('--patience', type=int, default=100, help='EarlyStopping patience (epochs without improvement)')

步骤7:在train.py文件里大概425行的位置,将原先# Calculate mAP的部分更改为

1
2
3
4
5
6
7
8
9
10
11
12
13
14
if not opt.notest or final_epoch:  # Calculate mAP
wandb_logger.current_epoch = epoch + 1
results, maps, times = test.test(data_dict,
batch_size=batch_size * 2,
imgsz=imgsz_test,
model=ema.ema,
single_cls=opt.single_cls,
dataloader=testloader,
save_dir=save_dir,
verbose=nc < 50 ,
plots=False,
wandb_logger=wandb_logger,
compute_loss=compute_loss,
is_coco=is_coco)

步骤8:在train.py文件里大概500行的位置,将原先# Test best.pt的部分更改为

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# Test best.pt
logger.info('%g epochs completed in %.3f hours.\n' % (epoch - start_epoch + 1, (time.time() - t0) / 3600))
results, _, _ = test.test(opt.data,
batch_size=batch_size * 2,
imgsz=imgsz_test,
conf_thres=0.001,
iou_thres=0.7,
model=attempt_load(best, device).half(),
single_cls=opt.single_cls,
dataloader=testloader,
verbose=nc < 50,
save_dir=save_dir,
save_json=True,
plots=plots,
wandb_logger=wandb_logger,
compute_loss=compute_loss,
is_coco=is_coco)

步骤9:在test.py(注意换文件啦!)里大概293行的地方将iou-thres的默认值更改为0.7

1
parser.add_argument('--iou-thres', type=float, default=0.7, help='IOU threshold for NMS')

在第26行的地方将iou-thres的值更改为0.7

1
iou_thres=0.7,  # for NMS

Q