以下の続き。 前回はMCTSNetの学習方法を工夫することで上手く学習できた。 今回はそれに対する提案手法に近いものとして、LSTMを用いてGPU上のみで探索的な振る舞いを可能にするモデルについて実験を行った。 手法 Simulation Policyに相当するLSTMは状態の…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。