Sharpness-Aware Minimizationという手法が提案されています。 詳しい人が説明してくれています(僕もこれで知りました)。 上記事の パラメータ周辺での最大の損失を求めて、それが下がる方向でパラメータを更新する というのが基本的なコンセプトでしょう…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。