2019-01-01から1年間の記事一覧

学習の再現性確認

最近はあまり新しい工夫を実装する時間がなく、とりあえず今の時点での学習に再現性があるかどうかを確認していた。 現状使えるマシンは、2080tiを2枚搭載しているものが1台、1080を2枚搭載しているものが2台となっている。実装上の都合によりマシン間でのデ…

MuZeroと脳内盤

技術的な内容というよりはやや曖昧な、(この言い方は好きではないが)ポエムっぽい文章を書いてみるなど。 今年の選手権でmerom氏には話した気がするのだけど、プログラム内部に盤面を保持してそれを遷移させて評価関数に入力するという方式は、継ぎ盤を用…

三井住友信託銀行プログラミングコンテスト2019

結果 順位 323rd / 3912 パフォーマンス 1901 レーティング 1835 → 1842(+7) 全完早解きセットだったので3WAを出すようではそれほど良い順位にならない。 A - November 30 で判定。出力のYes/Noが1/0だと判定をそのまま出せば良いので楽なんだな。 提出 B - …

AtCoder Beginner Contest 146

結果 順位 359th / 5026 パフォーマンス 1799 レーティング 1839 → 1835(-4) E問題以外の5完。しかし、うーん、E問題解けないようではひどい。レート下がるのもしょうがない。 前回ドハマりした反省として、今回は順位表を常に眺めながら参加した。ある問題…

DISCO presents ディスカバリーチャンネル コードコンテスト2020 予選

結果 順位 1517th / 3050 パフォーマンス 978 レーティング 1904 → 1839(-65) A,B,Cの3完遅解きで大失敗。パフォーマンス3桁なんていつぶりだ? と思ったけど成績表見てみたら2019/03/23のAGC032でもやらかしているので定期的に発生するものなんだろう。 A -…

MuZeroを読んだ感想

自分用にメモを書くなら「自分の研究テーマとほぼ同じ。差分は表現ベクトルの一致具合を損失に入れるかどうかくらい」で終わり。それくらい本当にもろ被りしている。そこまで突飛なアイデアではないので当然と言えば当然でもあるが。 Miacisのrepresentation…

AtCoder Beginner Contest 145

結果 順位 297th / 5299 パフォーマンス 1889 レーティング 1906 → 1904(-2) まぁこんなもんだろうという成績。しかしとうとうmorio__氏にぶち抜かれてしまったので、時間は流れているなぁという感じ。 A - Circle 素直。 提出 B - Echo 普通に番目と番目を…

An Investigation of Model-Free Planningを読んだメモ

出典 ICML(International Conference on Machine Learning)2019に採択。 図は全て当論文から引用。 概要 ConvLSTMを積み重ねたDeep Repeated ConvLSTM(DRC)というモデルを提案。プランニングが可能なエージェントが持つ性質を提案手法も持つことを実証 導入 …

Model-Based Reinforcement Learning for Atariを読んだメモ

出典 この文字色の部分は当記事筆者の感想 Introduction モデルフリー強化学習手法は学習に実時間にして数週間ほどのプレイが必要 一方人間は数分でAtariゲームを学習可能 人間は行動結果の予測ができるからだと推測→モデルベース強化学習 10万タイムステッ…

Learning Latent Dynamics for Planning from Pixelsを読んだメモ

出典 概要 Deep Planning Network(PlaNet)の提案 画像から環境モデルを学習 決定的および確率的遷移要素の両方を組み合わせる 潜在空間の中でマルチステップ学習を実行 潜在空間でのプランニングを行うことで高い性能 提案手法:Recurrent State Space Model …

Imagination-Augmented Agents for Deep Reinforcement Learningを読んだメモ

出典 記事中の図は論文から引用 概要 モデルを利用して直接方策を構築するのではなく、ロールアウト結果を方策を構築する際の追加情報として利用するI2Aという手法を提案 アーキテクチャ Imagination Core 環境モデルは現在の状態と行動から次の状態、報酬を…

Value Prediction Networkを読んだ際のメモ

出典 Thirty-first Conference on Neural Information Processing Systems (NeurIPS 2017) に採択。 ※この記事の図は全て論文中のもの 概要 抽象表現での遷移を予測して内部的にプランニングを行うValue Prediction Networkを提案 短い先読みでもDQNを上回っ…

AtCoder Beginner Contest 144

結果 順位 109th / 5557 パフォーマンス 2266 レーティング 1872 → 1918(+46) 全完できたのでかなりパフォーマンスが良い値になった。余計な誤答がなければ100位以内になったかもしれなかったが、F問題を解けたのも運っぽいのでこんなもんだろう。 A - 9x9 …

AtCoder Beginner Contest 143

結果 5完。E問題で12回の誤答と、ハマりにハマって大変なことになった。 なんかレート更新がされていなくていつもの成績表が貼れない。 A - Curtain 問題文が理解できなかったが、結局こういうことを要求されているんだろうという推測を書いたら通った。 提…

AtCoder Grand Contest 039

結果 順位 642nd / 3114 パフォーマンス 1676 レーティング 1917 → 1895(-22) A - Connection and Disconnection 2WA。まず一回目は「S一つを考えたときに必要な操作回数を数えて倍し、Sの末尾とSの先頭が同じなら回プラス」という方針。しかしこれは aabaaa…

Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?を読んだ際のメモ

出典 読んだ理由 前回、コンピュータ将棋における現状の強化学習の課題として、特定の戦型に弱く、探索が偏っているのではないかという問題意識を持った。居飛車・振飛車のような方針からして大きく異なる戦法を探索できる必要があり、それは階層的強化学習…

第一回日本最強プログラマー学生選手権決勝

結果 A, Bの2完で94位。レートで見たらとても低い方だと思っていたんだけど、コンテスト前の順位表を見ていたら思っていたよりもドベ付近というわけでもなかったっぽい? まぁそれにしても100位以内は運が良かった(A問題がひねったものだったので普通の実力…

AtCoder Beginner Contest 142

結果 順位 145th / 5235 パフォーマンス 2116 レーティング 1893 → 1917(+24) ノーペナ全完ができたので良かった。E問題が簡単めかと思ったけど意外と解いた人が多くなくて順位もそこそこ。次回は上手くいけば最高レート(1925)更新なるかという戦いに。 A - …

対抗形の学習が不十分

結論 現状の学習方法で得たパラメータは対抗形が苦手であり、学習局面として対抗形ほとんど出現していない。 背景 自己対局による強化学習だと学習局面が偏ってしまうのではないかという指摘は多々ある。Miacisについてはどうも対抗形で上手く指せていないよ…

AtCoder Grand Contest 038

結果 順位 514th / 2032 パフォーマンス 1663 レーティング 1916 → 1893(-23) ペナルティが重たくのしかかる。再びmerom氏にレート抜き返されてしまった。 A - 01 Matrix さっぱりわからなくてやばかった。58分かけて8WAの後に通すことができたけどこれは致…

AtCoder Beginner Contest 141

結果 順位 111th / 5166 パフォーマンス 2214 レーティング 1877 → 1916(+39) A - Weather Prediction 頭が悪い実装方法でタイプミスが怖かったが、そのときはCLionが指摘してくれるだろうと信じてやった。 提出 B - Tap Dance こういうの条件間違えそうで怖…

適当にやった実験の結果

以下全てEloレートは全て技巧2(深さ10)と1手0.25秒で500局対戦した結果から推定したもの。 ディリクレノイズなし 行動選択を価値のソフトマックス関数にしたので、ある意味Policyに対する依存性が弱まり、ディリクレノイズを抜いても良いのではないかと思っ…

DeepMDP: Learning Continuous Latent Space Models for Representation Learningを読んだ際のメモ

本当にただのメモだし意味もわからないままに式を写しているだけなので注意。特に数学の専門用語など誤訳も多そう。力のある人は自分で読んで。 出典 ICML2019に採択 概要 状態表現空間の中でのMDPとしてDeepMDPを定式化 報酬予測と次状態表現予測について適…

AtCoder Beginner Contest 140

結果 順位 196th / 5446 パフォーマンス 2058 レーティング 1855 → 1877(+22) E問題まで素早く解けたのに結局F問題を解けなくてそこまで伸びきらなかった。残念。 A - Password A問題のページを開いておくのを忘れていてやや時間がかかってしまった。 提出 B…

AtCoder Beginner Contest 139

結果 順位 653rd / 5899 パフォーマンス 1568 レーティング 1883 → 1855(-28) 5完遅解きではこんなもん。もうmerom氏に抜かれそう。 A - Tenki for使っちゃった。 提出 B - Power Socket A問題じゃん。 提出 C - Lower えー、やるだけと思ったらforを抜ける…

第一回日本最強プログラマー学生選手権-予選-

結果 順位 413th / 3534 パフォーマンス 1867 レーティング 1885 → 1883(-2) まぁだいだいレート通りのパフォーマンスなのでこんなもんだなと。 A - Takahashi Calendar とという条件を見落としていて「は?」ってなったりしながら解いていた。 提出 B - Kle…

LibTorch(PyTorch C++API)の使い方

英語を読める人は素直に公式のドキュメントおよびチュートリアルを読むべき。翻訳ソフトを使ってでもこれらを読んだ方が良いと思う。 以下の作業は少なくともcuda10.0,cudnn7という環境では動くと思われる。(Dockerでnvidia/cuda:10.0-cudnn7-devel-ubuntu18…

価値のソフトマックス分布を教師としたAlphaZero学習(最終結果)

要約 価値のソフトマックス分布を選択および教師に利用することでレートが150程度上がったが、これはMiacis特有の事情である可能性がある。 背景 前回、価値のソフトマックス分布を教師としたAlphaZero学習は少なくとも最初の方では学習が上手く進んでいるこ…

AtCoder Beginner Contest 138

結果 順位 267th / 5238 パフォーマンス 1919 レーティング 1881 → 1885(+4) 前日のAGCでレート-4だったので二日間でプラマイゼロ。このあたりが適正か? A - Red or Not これAtCoderの色システムと対応しているの? 上のほうがどうなっているのかよく知らな…

AtCoder Grand Contest 037

結果 順位 393rd / 2317 パフォーマンス 1841 レーティング 1885 → 1881(-4) 800点のC問題を通せて喜んでいたけどレートは下がるのか。 AtCoderをやっている上でmerom686氏のレートを超えるというのを一つ目標としてきていたのだけど、今回提出せず撤退もで…