前書き 多腕バンディット問題は強化学習のとても基本的な設定だが、そこにはすでに探索と知識利用のトレードオフが存在しており、そのバランスをいかに取るかを見ることができる。MCTSなども各ノードでの行動選択はほぼ多腕バンディット問題そのものなので、…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。