出典 この文字色の部分は当記事筆者の感想 Introduction モデルフリー強化学習手法は学習に実時間にして数週間ほどのプレイが必要 一方人間は数分でAtariゲームを学習可能 人間は行動結果の予測ができるからだと推測→モデルベース強化学習 10万タイムステッ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。