参考
自分なりの理解として、重要そうだと感じたのは
- TPEでのPIやEIで考える基準値はそこまでの最良値ではなく分割基準のの方
- で分割してモデル化するという性質からそこで積分を分けて式変形すると綺麗になる
前提
Tree-Structured Parzen Estimator (TPE)はOptunaとかでも使われているブラックボックス最適化の一つ。
関数の最小値を求めたい。ここまでのデータが得られているとする。
最大化したい関数としてProbability of Improvement (PI)あるいはExpected Improvement (EI)が考えられる。を基準値(TPE以外の場合だと、たとえば現在までの最良値)として、PIだと改善する確率を考える。
EIだと改善する量も考慮する。
PIは過去のデータでの有望なところを探す傾向にあり、EIはまだ調べていない領域を探索する傾向にあるらしい。TPEではPIと同等であるため、TPEはローカルに探索する傾向にある。
TPEではある閾値を考えて、値が小さい方(良い方)から割合分のデータが良いものとなるような閾値を基準値とし、データを良いものと悪いものに分割する。
上位下位をそれぞれはKernel Density Estimators (KDE)でモデル化する。
このの範囲で分割するという性質を式変形で活用していくことになる。
EIとPIの関係
TPEにおいてはEIとPIが比例関係になる。よって最大化の観点ではどちらを選んでも同じことになる。
比例になることの証明はc-TPE: Tree-structured Parzen Estimator with Inequality Constraints for Expensive Hyperparameter Optimizationの付録A.3に記載されている。
まず、ベイズの定理とTPEのモデル化から以下のような変形ができる。
同じことをEIにも適用して
となり、これらの比は
なのでについては定数ということになる。正確にはこれが有限の正の定数値を取ることもちゃんと言わないといけないらしいが、そこは元論文参照。
PIの比への帰着
PIを変形していき、比に帰着することを確認する。先程と同様の式変形を再度行って
となる。最後の行の変形は、そもそもの定義からそのまま導かれる。ここで
であり、つまり
となるわけなので、逆数であることに注意して結局
を最大化すれば良いということになる。