https://arxiv.org/abs/1905.08094
すごい論文。自己蒸留と言っているが、最終層の出力と、中間層の出力を近づけるような制約を入れることで、最終層の結果をより早く出せるようになり、結果として最終層の精度が上がる。(エージェント的により早く予測するものが生き残るという考え方とも共通。)CIFAR100やImagenetのtop-1で1-2%あがっている感じ。かなり大きい上がり幅。
http://ymatsuo2.sakura.ne.jp/surveyscript/survey.htm