统计视角解读 Logit Adjustment

摘自 ICLR 2021 的论文 Long-Tail Learning via Logit Adjustment

在长尾或类别不平衡的场景下,我们总期望能最小化类别平衡错误率 Balanced Error (BER):

\[\text{BER}(f) = \frac{1}{L}\sum_{ y \in \mathcal{Y} }\mathbb{P}_{x|y}[y\in \mathop{\arg\max}\limits_{ y^{‘} \notin \mathcal{Y}}~f_{y^{‘}}(x)]
\]

这一期望可以理解为:当我们对于测试分布一无所知时,用类别均衡错误率来度量模型的好坏至少出现太大偏差。同样,也可以理解为:类别均衡错误率均匀地反映了模型在每一个类别上的性能,表达了更多有关模型性能的信息。

明确问题之后,我们不禁会思考:这个问题的贝叶斯最优分类器\(f^*\) 是什么?

\[f^* \in \mathop{\arg\min}\limits_{f:\mathcal{X}\rightarrow \mathcal{Y}}~\text{BER}(f)
\]

根据以往的文献 Collell et al., 2016 中定理 1 可以知道,最优分类器表示为:

\[\begin{equation}
\mathop{\arg\max}_{y\in \mathcal{Y}}~f^*_y(x)=\mathop{\arg\max}_{y\in \mathcal{Y}}~\mathbb{P}^{bal}(y|x)=\mathop{\arg\max}_{y\in \mathcal{Y}}~\mathbb{P}(x|y)
\label{theorem}
\end{equation}
\]

其中,\(\mathbb{P}^{bal}\) 是类别平衡的概率分布。
这理论解读为:当条件分布\(\mathbb P(x|y)\) 固定时,针对 BER 的贝叶斯最优分类器也固定,不随着\(\mathbb P(y)\) 变化而变化。

进一步,我们假定类别概率满足\(\mathbb{P}(y \mid x) \propto \exp \left(s_y^*(x)\right)\)。其中,\(s_y^*(x):\mathcal X \rightarrow \mathbb R^{|\mathcal Y|}\) 是评分函数,也就是模型输出的 Logit。
再结合类别平衡概率分布定义\(\mathbb P^{bal}(y|x) \propto \mathbb P(y|x) / \mathbb P(y)\),可以将公式\(\eqref{theorem}\) 改造为:

\[\begin{aligned}
\mathop{\arg\max}_{y\in \mathcal{Y}}\mathbb P^{bal}(y|x)
&= \mathop{\arg\max}_{y\in \mathcal{Y}}~exp(s_y^*(x))/\mathbb P(y)\\
&= \mathop{\arg\max}_{y\in \mathcal{Y}}~s_y^*(x)-\ln \mathbb P(y)
\end{aligned}
\]

到此,我们理论性地推导得到了 Logit Adjustment 技术。

发表回复

您的电子邮箱地址不会被公开。