WXK+ 分布外鲁邦 AugMax: Adversarial Composition of Random Augmentations for Robust Training

稻香村月饼 • 2022-12-17 • 随笔 • 阅读 45

WXK+ 分布外鲁邦 AugMax: Adversarial Composition of Random Augmentations for Robust Training

读NIPS 2021论文 AugMax: Adversarial Composition of Random Augmentations for Robust Training

摘要

数据增强是提高鲁棒性的一个简单有效之法。diversity和hardness是数据增强的两大需要考量的分支。AugMix使用多种的增强方法来加强收敛，而对抗训练通过生成困难的对抗样本来spot the weakness。由此启示，作者提出AugMax来统一多样性和困难性，具体是先随机多种增强算子，然后learn an adverdarial mixture of 这些算子。因为这样的数据增强，网络的训练也变得困难，于是作者又提出了一个特殊的正则化方法，Dual-Batch-and-Instance（DuBIN）。实验显示所提出的数据增强和正则化，能提高out-of-distribution的鲁棒性。

介绍

提高ood的鲁棒性的目前的方法有 including robust data augmentation [5, 3, 8, 6], Lipschitz continuity [9–11], stability training [12], pre-training [13–16], and robust network structures [17–19], to name a few.

其中数据增强是经验上最有效的，容易实现，计算难度低，即插即用。

数据增强分成两大类，分别关于多样性，和困难性。

1）第一种数据增强，提高多样性。传统的方法有旋转，平移等等，但是这些方法无法增强对抗鲁棒性。AugMix是一种更好的数据增强，它从多种增强方法中随机采样，然后综合采样出来的增强方法。

AugMix论文 AugMix: A simple data processing method to improve robustness and uncertainty. ICLR 2020

2）第二种数据增强，提高困难性。即从worst-case种采样数据，例如使用对抗样本，使用PGD的对抗训练。但是这样会增加计算复杂度，训练时间往往增加十倍以上。

相关工作

分三个小节。

1. OOD的鲁棒性

2. 数据增强随机和对抗训练

3. 正则化方法

略

方法 AugMax

公式1描述了标准的训练，最小化一个empirical risk，基于数据分布D，f（）即是要训练的分类器，x是图像，y是标签。theta是f的参数也就是训练的对象。L为损失函数，例如交叉熵。

公式2描述了作者的方法的高度概括，即通过mixing weights m*和w*，将original x增强成x*。有点类似于AugMix。g即表示数据增强的方法。

公式3进一步显示所提出的数据增强，可以看出这是一个基于对抗的方法，需要针对损失L，给定f和theta，还有label y来学到一个使得损失最大的m*和w*。s.t.这限制的部分有点不明所以，应该是跟前面的工作AugMix一样过来的。

公式4，作者表示为了简化公式3的公式，使用重参数化的技巧，将w用一个参数为p的softmax函数代替。

公式5最终导出了所提出的minimax优化目标式子。第一部分是original x和增强的x*的损失的平均。第二部分有点意思，是跟AugMix一样的，Lc is a consistency loss regularizing augmented images to have similar model outputs with the original images and lambda is the trade-off parameter.

公式6是Lc的具体。 JS是使用的Jensen-Shannon divergence，x飘是使用AugMix增强的样本。

DuBIN

AugMax可能要求模型有更高的容量，所以设计了这个正则化层。因为AugMax的增强使得可能出现instance-level heterogeneity，即样本层次的异质，我的理解是哪怕同一个样本的增强版本也有点变化太大了即异质，所以需要一个特殊的模块来解析或者说解耦这个维度的复杂性。

FIgure 3，DuBIN具体来说，是将通道数平均分成两半，一半经过instance 正则化，另一半经过DuBIN即双batch正则化，refer to下面的论文。然后再将这两部分concat起来。就组成了DuBIN。

dual batch normalization (DuBN)论文： Adversarial examples improve image recognition CVPR Xiehang Xie

table 1提供了DuBIN的进一步分析对比。于DuBN的对比。从table 1中可以看出，DuBIN可以使得sigma c和a更小，也就是feature variation更小那么就会收敛得更好。其中sigma c和a分别对应着DuBN中BN由两个BN组成，一个是on clean images，而a on other images。

作者说从table 1可以看出instance normalization的部分缺失能减少instance-level diversity，从而在这里使得DuBIN效果更好。

DuBN consists of two separate BNs: one BNc for clean images and the other BNa for adversarially augmented (e.g., AugMax) images.

配图

其它配图。

figure 1很直观，展示了Ours方法综合了diversity和hardness。

figure 2即是显示作者的方法，跟方法部分的那些公式基本一个意思，不过图上没那么多细节。主要的意思，即是所提出的方法跟AugMix很像，我认为主要就是把AugMix改成了对抗的模式，即将m和w改成需要对抗学习的。todo具体的m和w是什么，还得看AugMix吧

实验

略。

我扫了一眼，发现其实关于AugMix的提高只是一点点，说一说AugMix这篇论文更加值得一读了。

例如从上面的table 2可以看出其实AugMax-DuBIN只是比AugMix提高了一个百分点。有点像刷准确率哈哈。不过作者的思路还是有点值得学习的地方，但也没太多新意，一是使用对抗的思想来做增强，二是魔改一下已有的DuBN方法。

最后再贴一个图，对抗训练的复杂度真的是令人无语哈哈。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/zaji/5689544.html

增强方法数据对抗公式

打赏

微信扫一扫

支付宝扫一扫

稻香村月饼一级用户组

Python 深度学习 Class 7：高级的深度学习的优化实践

上一篇 2022-12-17

Python study day02

下一篇 2022-12-17

发表评论

登录后才能评论

评论列表（0条）