以下の続き。 木探索がそもそもどういうものであるかと考えると、状態をノード、行動をエッジとして構築されるグラフ上を遷移しつつ、ノード上の価値を更新していく作業だと思われる。モンテカルロ木探索の選択ステップに「一個親のノードへ戻る」という選択…
で書いた通り、ワーキングメモリモジュールを持つ探索マネージャについて考えている。 ワーキングメモリモジュールとしては LSTM Neural Turing Machine Differentiable Neural Computer Transformer(Compressive Transformer) あたりが可能性ありそうなのか…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。