读NIPS 2021论文 AugMax: Adversarial Composition of Random Augmentations for Robust Training
摘要数据增强是提高鲁棒性的一个简单有效之法。diversity和hardness是数据增强的两大需要考量的分支。AugMix使用多种的增强方法来加强收敛,而对抗训练通过生成困难的对抗样本来spot the weakness。由此启示,作者提出AugMax来统一多样性和困难性,具体是先随机多种增强算子,然后learn an adverdarial mixture of 这些算子。因为这样的数据增强,网络的训练也变得困难,于是作者又提出了一个特殊的正则化方法,Dual-Batch-and-Instance(DuBIN)。实验显示所提出的数据增强和正则化,能提高out-of-distribution的鲁棒性。
介绍提高ood的鲁棒性的目前的方法有 including robust data augmentation [5, 3, 8, 6], Lipschitz continuity [9–11], stability training [12], pre-training [13–16], and robust network structures [17–19], to name a few.
其中数据增强是经验上最有效的,容易实现,计算难度低,即插即用。
数据增强分成两大类,分别关于多样性,和困难性。
1)第一种数据增强,提高多样性。传统的方法有旋转,平移等等,但是这些方法无法增强对抗鲁棒性。AugMix是一种更好的数据增强,它从多种增强方法中随机采样,然后综合采样出来的增强方法。
AugMix论文 AugMix: A simple data processing method to improve robustness and uncertainty. ICLR 2020
2)第二种数据增强,提高困难性。即从worst-case种采样数据,例如使用对抗样本,使用PGD的对抗训练。但是这样会增加计算复杂度,训练时间往往增加十倍以上。
相关工作分三个小节。
1. OOD的鲁棒性
2. 数据增强 随机 和 对抗训练
3. 正则化方法
略
方法 AugMax公式1描述了标准的训练,最小化一个empirical risk,基于数据分布D,f()即是要训练的分类器,x是图像,y是标签。theta是f的参数也就是训练的对象。L为损失函数,例如交叉熵。
公式2描述了作者的方法的高度概括,即通过mixing weights m*和w*,将original x增强成x*。有点类似于AugMix。g即表示数据增强的方法。
公式3进一步显示所提出的数据增强,可以看出这是一个基于对抗的方法,需要针对损失L,给定f和theta,还有label y来学到一个使得损失最大的m*和w*。s.t.这限制的部分有点不明所以,应该是跟前面的工作AugMix一样过来的。
公式4,作者表示为了简化公式3的 公式,使用重参数化的技巧,将w用一个参数为p的softmax函数代替。
公式5最终导出了所提出的minimax优化目标式子。第一部分是original x和增强的x*的损失的平均。第二部分有点意思,是跟AugMix一样的,Lc is a consistency loss regularizing augmented images to have similar model outputs with the original images and lambda is the trade-off parameter.
公式6是Lc的具体。 JS是使用的Jensen-Shannon divergence,x飘是使用AugMix增强的样本。
DuBINAugMax可能要求模型有更高的容量,所以设计了这个正则化层。因为AugMax的增强使得可能出现instance-level heterogeneity,即样本层次的异质,我的理解是哪怕同一个样本的增强版本也有点变化太大了即异质,所以需要一个特殊的模块来解析或者说解耦这个维度的复杂性。
FIgure 3,DuBIN具体来说,是将通道数平均分成两半,一半经过instance 正则化,另一半经过DuBIN即双batch正则化,refer to下面的论文。然后再将这两部分concat起来。就组成了DuBIN。
dual batch normalization (DuBN)论文: Adversarial examples improve image recognition CVPR Xiehang Xie
table 1提供了DuBIN的进一步分析对比。于DuBN的对比。从table 1中可以看出,DuBIN可以使得sigma c和a更小,也就是feature variation更小那么就会收敛得更好。其中sigma c和a分别对应着DuBN中BN由两个BN组成,一个是on clean images,而a on other images。
作者说从table 1可以看出instance normalization的部分缺失能减少instance-level diversity,从而在这里使得DuBIN效果更好。
配图DuBN consists of two separate BNs: one BNc for clean images and the other BNa for adversarially augmented (e.g., AugMax) images.
其它配图。
figure 1很直观,展示了Ours方法综合了diversity和hardness。
figure 2即是显示作者的方法,跟方法部分的那些公式基本一个意思,不过图上没那么多细节。主要的意思,即是所提出的方法跟AugMix很像,我认为主要就是把AugMix改成了对抗的模式,即将m和w改成需要对抗学习的。todo具体的m和w是什么,还得看AugMix吧
实验略。
我扫了一眼,发现其实关于AugMix的提高只是一点点,说一说AugMix这篇论文更加值得一读了。
例如从上面的table 2可以看出其实AugMax-DuBIN只是比AugMix提高了一个百分点。有点像刷准确率哈哈。不过作者的思路还是有点值得学习的地方,但也没太多新意,一是使用对抗的思想来做增强,二是魔改一下已有的DuBN方法。
最后再贴一个图,对抗训练的复杂度真的是令人无语哈哈。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)