2019-11-01から1ヶ月間の記事一覧

AtCoder Beginner Contest 146

結果 順位 359th / 5026 パフォーマンス 1799 レーティング 1839 → 1835(-4) E問題以外の5完。しかし、うーん、E問題解けないようではひどい。レート下がるのもしょうがない。 前回ドハマりした反省として、今回は順位表を常に眺めながら参加した。ある問題…

DISCO presents ディスカバリーチャンネル コードコンテスト2020 予選

結果 順位 1517th / 3050 パフォーマンス 978 レーティング 1904 → 1839(-65) A,B,Cの3完遅解きで大失敗。パフォーマンス3桁なんていつぶりだ? と思ったけど成績表見てみたら2019/03/23のAGC032でもやらかしているので定期的に発生するものなんだろう。 A -…

MuZeroを読んだ感想

自分用にメモを書くなら「自分の研究テーマとほぼ同じ。差分は表現ベクトルの一致具合を損失に入れるかどうかくらい」で終わり。それくらい本当にもろ被りしている。そこまで突飛なアイデアではないので当然と言えば当然でもあるが。 Miacisのrepresentation…

AtCoder Beginner Contest 145

結果 順位 297th / 5299 パフォーマンス 1889 レーティング 1906 → 1904(-2) まぁこんなもんだろうという成績。しかしとうとうmorio__氏にぶち抜かれてしまったので、時間は流れているなぁという感じ。 A - Circle 素直。 提出 B - Echo 普通に番目と番目を…

An Investigation of Model-Free Planningを読んだメモ

出典 ICML(International Conference on Machine Learning)2019に採択。 図は全て当論文から引用。 概要 ConvLSTMを積み重ねたDeep Repeated ConvLSTM(DRC)というモデルを提案。プランニングが可能なエージェントが持つ性質を提案手法も持つことを実証 導入 …

Model-Based Reinforcement Learning for Atariを読んだメモ

出典 この文字色の部分は当記事筆者の感想 Introduction モデルフリー強化学習手法は学習に実時間にして数週間ほどのプレイが必要 一方人間は数分でAtariゲームを学習可能 人間は行動結果の予測ができるからだと推測→モデルベース強化学習 10万タイムステッ…

Learning Latent Dynamics for Planning from Pixelsを読んだメモ

出典 概要 Deep Planning Network(PlaNet)の提案 画像から環境モデルを学習 決定的および確率的遷移要素の両方を組み合わせる 潜在空間の中でマルチステップ学習を実行 潜在空間でのプランニングを行うことで高い性能 提案手法:Recurrent State Space Model …