強化学習エージェントが環境の変化に対応できるかどうか、という点に興味があるため、atariゲームを連続的に切り替える設定での学習を試せるようにした。 デフォルトのatari環境では各ゲームによって有効な行動数が異なる。たとえばBreakoutだと4種類(NOOP…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。