2023-07-23から1日間の記事一覧
今週思ったことなど。 内発報酬 強化学習の内発報酬について、単純に予測不可能な状態を優先すると、ランダムノイズを出すようなテレビの前に居座り続けるということが発生しうる。これはLarge-Scale Study of Curiosity-Driven Learningでnoisy-TV problem…
今週思ったことなど。 内発報酬 強化学習の内発報酬について、単純に予測不可能な状態を優先すると、ランダムノイズを出すようなテレビの前に居座り続けるということが発生しうる。これはLarge-Scale Study of Curiosity-Driven Learningでnoisy-TV problem…