要約 生成している学習データの質が悪い可能性がある。質を高めていくために(1)価値を考慮した行動選択 (2)の調整 (3)リプレイバッファサイズの調整 などを考えていきたい。 実験 前回1Mステップの学習を行ったが、まだ収束していないようにも思えたので2Mス…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。