A Theoretical Study on Solving Continual Learning

本文作者除了 UIC 的 Bing Liu 老师外都并不资深。
第一作者 Gyuhak Kim 对 OOD Detection 与 Continual Learning 相结合有数篇文章的研究。

文章摘要

本文从理论的角度研究了类别增量学习 (Class Incremental Learning, CIL),探讨了类别增量学习问题和分布外检测 (Out-of-Distribution Detection, OOD Detection)问题的联系,并且从这个角度提出了一个新颖的类别增量学习方法。

理论方面,本文将 CIL 拆分成任务内预测 (Within-Task Prediction, WP) 与任务编号预测 (Task-ID Prediction, TP) 两个子问题。进而,建立起 TP 与 OOD Detection 问题之间的联系。

实验方面,本文将既有 OOD Detection 方法融入既有 CIL 技术中,构建 CIL 新技术,并在多个数据集上取得 SOTA 性能。

核心贡献

本文的主要贡献在于理论,但必须要说明,本文的理论推导十分简单,有价值的地方在于第一个将 OOD 与 CIL 问题建立起联系。

充分性定理:CIL 任务分解为 TP 与 WP 任务

定义 \(X_{k, j}\) 表示第 j 个任务第 k 个类别的样本分布。若不指定具体类别则代指此任务中全部类别的样本分布为 \(X_{k}=\bigcup_j X_{k, j}\)。 定义 CIL, TP, WP 任务输出的概率分布为:

\[\begin{cases}
P_{CIL}(k, j) &= P(x\in X_{k,j})_{k, j}, \\
P_{TP}(k) &= P(x \in X_k)_k, \\
P_{WP}^{(k0)}(j) &= P(x \in X_{k0, j} | x \in \bigcup_{j} X_{k0})_{j} .
\end{cases}
\]

显然有 \(P_{CIL}(k, j) = P_{TP}(k) * P_{WP}^{(k)}(j)\) 成立并自然得到如下定理:

Theorem 1: 考虑交叉熵损失,将 CIL 的损失拆解为 TP 损失与 WP 损失之和。进而证明了 TP 与 WP 任务的损失有界,则 CIL 任务的损失有界。

充分性定理:TP 与 OOD Deteciton 任务

本文构建了 OOD Detection 任务(K 个二分类)和 TP 任务(K 分类)的联系,定义 OOD Detection 的二分类输出为 \([P'(x \notin X_k), P'(x \in X_k)]\) 分别表示分布外与分布内。令 \(P'(x\in X_k) = P(x \in X_k)\),则有如下关系:

\[\begin{cases}
P'(x\in X_k) = P(x \in X_k), \\
P(x \in X_k) = \frac{P'(x \in X_k)}{\sum_{k0} P'(x \in X_{k0})}.
\end{cases}
\]

因为已经构建了 OOD Detection 与 TP 任务相互转化关系,很容易推导下述定理:

Theorem 2: 在上述假设下考虑交叉熵损失,OOD Detection 与 TP 任务之间,其中一个任务的损失有界,另一个任务的损失也有界。

Theorem 3: 考虑交叉熵损失,CIL 任务的损失可以被 WP 任务与 OOD Detection 任务的损失约束住。

存在性定理

有了 CIL、WP、TP、OOD Detection 的转化关系,可以任意推出每个部分和其他部分的关系。本文考虑了存在性关系:

Theorem 4: 考虑交叉熵损失,存在一个损失有界的 CIL 模型,就可以找到对应的损失有界的 WP、TP、OOD Detection 模型。

值得学习的地方

本文的理论推导比较朴素,核心在于建立不同部分的等价转化关系,进而就可以推出每个部分与其他部分的充分性、必要性关系。(因为等价关系本身就是充分且必要的)

只要合理的定义任务和类别,这一套等价关系可以应用在任何类别持续增加的场景中,这点值得借鉴。

An Online Learning Approach to Interpolation and Extrapolation in Domain Generalization

Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski – CMU
Elan Rosenfeld 的代表作与对抗样本、分布外样本均相关:《Certified adversarial robustness via randomized smoothing》,《The Risks of Invariant Risk Minimization》。

解决问题及难点

本文从在线学习 (Online learning) 的角度考虑了域泛化 (Domain generalization) 问题:将域泛化问题分为内拓 (Interpolation) 与外延 (Extrapolation) 两个方向,并分别分析了在线学习对这两个任务的遗憾界 (Regret)。本文试图替换域泛化问题常用的单回合极大极小游戏 (Single-round min-max game) 的框架,更深入地分析此问题的统计和算法性质。

核心贡献

  • 将域泛化问题刻化为在线学习问题,定义为一个对抗出现的测试分布和一个最小化积累遗憾 (Cumulative regret) 的玩家。
  • 理论上证明了在计算层面,外延比内拓指数级别地复杂;在统计层面,两者的遗憾界并没有显著的差别(指\(\Theta(\sqrt{T})\) 与\(\Theta(\log T)\))。
  • ERM 对于内拓与外延都能够到达极大极小最优。

解决方案及创新点

内拓与外延

内拓 Interpolation

内拓等价于优化现有环境分布集合\(\mathcal{E}\) 的凸组合\(Conv(\mathcal E)\),即内拓的测试环境在已有环境组成的凸包内部或边界上:

\[\min _{f \in \mathcal{F}} \max _{e \in \operatorname{Conv}(\mathcal{E})} \mathbb{E}_e[\ell(f)]=\min _{f \in \mathcal{F}} \max _{e \in \mathcal{E}} \mathbb{E}_e[\ell(f)]
\]

因此,内拓是一个离散的单回合游戏。

外延 Extrapolation

外拓将测试环境分布定义为已有环境线性组合\(Extr(\mathcal E)\),系数只和必须为\(1\) 却允许某些组合系数是较小的负数 (系数满足\(\lambda>-\alpha\)),即外延的环境在已有环境组成的凸包附近:

\[\begin{aligned}
&\min _{f \in \mathcal{F}} \max _{e \in \operatorname{Extr}_\alpha(\mathcal{E})} \mathbb{E}_e[\ell(f)]= \\
&\min _{f \in \mathcal{F}} \max _{e \in \mathcal{E}}\left[(1+E \alpha) \mathbb{E}_e[\ell(f)]-\alpha \sum_{e^{\prime} \in \mathcal{E}} \mathbb{E}_{e^{\prime}}[\ell(f)]\right]
\end{aligned}
\]

本文发现这个损失等价于平均的损失加上最坏情况下的损失,因此,外延变为一个离散的单回合游戏。

Extrapolation

在线学习

每回合玩家选择一个参数\(\hat{\beta}\in B\),对手选择一组环境的系数\(\lambda_t\in \Delta\),定义损失函数为\(f_t(\beta):=\mathbb{E}_{(x, y) \sim p^{\lambda_t}}[\ell(\beta,(x, y))]=\sum_{e \in \mathcal{E}} \lambda_{t, e} \mathbb{E}_{(x, y) \sim p^e}[\ell(\beta,(x, y))]\)。

定义 T 轮之后的遗憾总和为:

\[\begin{aligned}
V_T:=& \min _{\hat{\beta}_1 \in B} \max _{\lambda_1 \in \Delta_E} \cdots \\
& \min _{\hat{\beta}_T \in B \lambda_T \in \Delta_E}\left(\sum_{t=1}^T f_t\left(\hat{\beta}_t\right)-\min _{\beta \in B} \sum_{t=1}^T f_t(\beta)\right)
\end{aligned}
\]

在理想的强凸条件下,\(V_t=\sum_{s=1}^t \frac{G_s^2}{2 s \sigma_{\min }}\),即遗憾界为\(\Theta(\log t)\)。其中,\(G_s\) 是\(f_s\) 的 Lipshitz 常数,\(\sigma_{min}\) 是\(f\) 的最小曲率。

本文的定理 1 证明了遗憾界的下界也是\(\Theta(\log t)\) 的,并可以通过 FTL 算法得到。这证明了在已知环境的条件下,使用 ERM 算法能够为内拓得到可证明的 Min-max 最优。

本文的定理 2 证明了在外拓的情形下没有算法能够达到次线性的遗憾界。因此,需要削弱对抗的对手使其选择整个损失函数序列。在这个情形下,定理 3 证明了达到次线性的遗憾界依旧是 NP-Hard。
从统计学的角度来看,使用 FTPL 算法(即基于扰动的 ERM)能够得到\(\Omega(\sqrt{T})\) 的下届,同时,定理 4 证明了对于这个问题可得到的下界就是\(\Omega(\sqrt{T})\) 的。因此,ERM 配合合适的正则化是可以得到好的域外泛化性的。

局限性和改进空间

感觉也没怎么看懂这个文章,就是证明了其实 ERM 算法能够得到很好的域外泛化性能。本文也给出了一些未来方向:

  • 利用在线学习的框架研究分布外泛化问题
  • 更有效更针对的定义内拓与外延

Gradient of Entropy Minimization Loss

\(\newcommand{\x}{\boldsymbol{x}} \newcommand{\z}{\boldsymbol{z}} \newcommand{\w}{\boldsymbol{w}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\XX}{\mathcal{X}} \newcommand{\YY}{\mathcal{Y}} \newcommand{\bR}{\mathbb{R}} \newcommand{\to}{\rightarrow}\)

给定模型 \(f:\XX \to \bR^{K}\),其中 \(K\) 为类别的数量。\(f(\x)=[v_1;v_2;\ldots;v_K]\) 表示模型对于样本 \(\x\) 的输出 Logit 值,则模型对样本\(\x\) 的输出概率定义为:

\[\begin{equation}
p_i=\frac{\exp{(v_i) }}{\sum_{k=1}^K \exp(v_k)}
\label{eq:logits}
\end{equation}
\]

基于模型的输出概率,我们可以模型输出概率的熵与熵最小化损失:

\[\begin{equation}
\ell(\x) = -\sum_{k=1}^K p_k \ln p_k
\label{eq:em_loss}
\end{equation}
\]

为了能够进一步分析,熵最小化损失对于模型机理的影响,我们可以推导出损失对 Logit 值的梯度:

\[\begin{equation}
\begin{aligned}
\frac{\partial \ell(\x)}{\partial v_i}
&=\sum_{k=1}^K \frac{\partial \ell(\x)}{\partial p_k} \frac{\partial p_k}{\partial v_i}\\
&= \sum_{k=1}^K (-\ln p_k – 1) (\mathbb{I}[i=k] \cdot p_i – p_i p_k)\\
&= – p_i (\ln p_i + 1 – \sum_{i=1}^K p_k \ln p_k – \sum_{k=1}^K p_k) \\
&= p_i (\sum_{i=1}^K p_k \ln p_k – \ln p_i) \\
\end{aligned}
\label{eq:grad_of_em}
\end{equation}
\]

统计视角解读 Logit Adjustment

摘自 ICLR 2021 的论文 Long-Tail Learning via Logit Adjustment

在长尾或类别不平衡的场景下,我们总期望能最小化类别平衡错误率 Balanced Error (BER):

\[\text{BER}(f) = \frac{1}{L}\sum_{ y \in \mathcal{Y} }\mathbb{P}_{x|y}[y\in \mathop{\arg\max}\limits_{ y^{‘} \notin \mathcal{Y}}~f_{y^{‘}}(x)]
\]

这一期望可以理解为:当我们对于测试分布一无所知时,用类别均衡错误率来度量模型的好坏至少出现太大偏差。同样,也可以理解为:类别均衡错误率均匀地反映了模型在每一个类别上的性能,表达了更多有关模型性能的信息。

明确问题之后,我们不禁会思考:这个问题的贝叶斯最优分类器\(f^*\) 是什么?

\[f^* \in \mathop{\arg\min}\limits_{f:\mathcal{X}\rightarrow \mathcal{Y}}~\text{BER}(f)
\]

根据以往的文献 Collell et al., 2016 中定理 1 可以知道,最优分类器表示为:

\[\begin{equation}
\mathop{\arg\max}_{y\in \mathcal{Y}}~f^*_y(x)=\mathop{\arg\max}_{y\in \mathcal{Y}}~\mathbb{P}^{bal}(y|x)=\mathop{\arg\max}_{y\in \mathcal{Y}}~\mathbb{P}(x|y)
\label{theorem}
\end{equation}
\]

其中,\(\mathbb{P}^{bal}\) 是类别平衡的概率分布。
这理论解读为:当条件分布\(\mathbb P(x|y)\) 固定时,针对 BER 的贝叶斯最优分类器也固定,不随着\(\mathbb P(y)\) 变化而变化。

进一步,我们假定类别概率满足\(\mathbb{P}(y \mid x) \propto \exp \left(s_y^*(x)\right)\)。其中,\(s_y^*(x):\mathcal X \rightarrow \mathbb R^{|\mathcal Y|}\) 是评分函数,也就是模型输出的 Logit。
再结合类别平衡概率分布定义\(\mathbb P^{bal}(y|x) \propto \mathbb P(y|x) / \mathbb P(y)\),可以将公式\(\eqref{theorem}\) 改造为:

\[\begin{aligned}
\mathop{\arg\max}_{y\in \mathcal{Y}}\mathbb P^{bal}(y|x)
&= \mathop{\arg\max}_{y\in \mathcal{Y}}~exp(s_y^*(x))/\mathbb P(y)\\
&= \mathop{\arg\max}_{y\in \mathcal{Y}}~s_y^*(x)-\ln \mathbb P(y)
\end{aligned}
\]

到此,我们理论性地推导得到了 Logit Adjustment 技术。