2024-04-14から1日間の記事一覧

Can large language models explore in-context?を読んだメモ

前書き 多腕バンディット問題は強化学習のとても基本的な設定だが、そこにはすでに探索と知識利用のトレードオフが存在しており、そのバランスをいかに取るかを見ることができる。MCTSなども各ノードでの行動選択はほぼ多腕バンディット問題そのものなので、…