A Theoretical Study on Solving Continual Learning

本文作者除了 UIC 的 Bing Liu 老师外都并不资深。
第一作者 Gyuhak Kim 对 OOD Detection 与 Continual Learning 相结合有数篇文章的研究。

文章摘要

本文从理论的角度研究了类别增量学习 (Class Incremental Learning, CIL),探讨了类别增量学习问题和分布外检测 (Out-of-Distribution Detection, OOD Detection)问题的联系,并且从这个角度提出了一个新颖的类别增量学习方法。

理论方面,本文将 CIL 拆分成任务内预测 (Within-Task Prediction, WP) 与任务编号预测 (Task-ID Prediction, TP) 两个子问题。进而,建立起 TP 与 OOD Detection 问题之间的联系。

实验方面,本文将既有 OOD Detection 方法融入既有 CIL 技术中,构建 CIL 新技术,并在多个数据集上取得 SOTA 性能。

核心贡献

本文的主要贡献在于理论,但必须要说明,本文的理论推导十分简单,有价值的地方在于第一个将 OOD 与 CIL 问题建立起联系。

充分性定理:CIL 任务分解为 TP 与 WP 任务

定义 \(X_{k, j}\) 表示第 j 个任务第 k 个类别的样本分布。若不指定具体类别则代指此任务中全部类别的样本分布为 \(X_{k}=\bigcup_j X_{k, j}\)。 定义 CIL, TP, WP 任务输出的概率分布为:

\[\begin{cases}
P_{CIL}(k, j) &= P(x\in X_{k,j})_{k, j}, \\
P_{TP}(k) &= P(x \in X_k)_k, \\
P_{WP}^{(k0)}(j) &= P(x \in X_{k0, j} | x \in \bigcup_{j} X_{k0})_{j} .
\end{cases}
\]

显然有 \(P_{CIL}(k, j) = P_{TP}(k) * P_{WP}^{(k)}(j)\) 成立并自然得到如下定理:

Theorem 1: 考虑交叉熵损失,将 CIL 的损失拆解为 TP 损失与 WP 损失之和。进而证明了 TP 与 WP 任务的损失有界,则 CIL 任务的损失有界。

充分性定理:TP 与 OOD Deteciton 任务

本文构建了 OOD Detection 任务(K 个二分类)和 TP 任务(K 分类)的联系,定义 OOD Detection 的二分类输出为 \([P'(x \notin X_k), P'(x \in X_k)]\) 分别表示分布外与分布内。令 \(P'(x\in X_k) = P(x \in X_k)\),则有如下关系:

\[\begin{cases}
P'(x\in X_k) = P(x \in X_k), \\
P(x \in X_k) = \frac{P'(x \in X_k)}{\sum_{k0} P'(x \in X_{k0})}.
\end{cases}
\]

因为已经构建了 OOD Detection 与 TP 任务相互转化关系,很容易推导下述定理:

Theorem 2: 在上述假设下考虑交叉熵损失,OOD Detection 与 TP 任务之间,其中一个任务的损失有界,另一个任务的损失也有界。

Theorem 3: 考虑交叉熵损失,CIL 任务的损失可以被 WP 任务与 OOD Detection 任务的损失约束住。

存在性定理

有了 CIL、WP、TP、OOD Detection 的转化关系,可以任意推出每个部分和其他部分的关系。本文考虑了存在性关系:

Theorem 4: 考虑交叉熵损失,存在一个损失有界的 CIL 模型,就可以找到对应的损失有界的 WP、TP、OOD Detection 模型。

值得学习的地方

本文的理论推导比较朴素,核心在于建立不同部分的等价转化关系,进而就可以推出每个部分与其他部分的充分性、必要性关系。(因为等价关系本身就是充分且必要的)

只要合理的定义任务和类别,这一套等价关系可以应用在任何类别持续增加的场景中,这点值得借鉴。

发表回复

您的电子邮箱地址不会被公开。