AtCoder Beginner Contest 141

結果 順位 111th / 5166 パフォーマンス 2214 レーティング 1877 → 1916(+39) A - Weather Prediction 頭が悪い実装方法でタイプミスが怖かったが、そのときはCLionが指摘してくれるだろうと信じてやった。 提出 B - Tap Dance こういうの条件間違えそうで怖…

適当にやった実験の結果

以下全てEloレートは全て技巧2(深さ10)と1手0.25秒で500局対戦した結果から推定したもの。 ディリクレノイズなし 行動選択を価値のソフトマックス関数にしたので、ある意味Policyに対する依存性が弱まり、ディリクレノイズを抜いても良いのではないかと思っ…

DeepMDP: Learning Continuous Latent Space Models for Representation Learningを読んだ際のメモ

本当にただのメモだし意味もわからないままに式を写しているだけなので注意。特に数学の専門用語など誤訳も多そう。力のある人は自分で読んで。 出典 ICML2019に採択 概要 状態表現空間の中でのMDPとしてDeepMDPを定式化 報酬予測と次状態表現予測について適…

AtCoder Beginner Contest 140

結果 順位 196th / 5446 パフォーマンス 2058 レーティング 1855 → 1877(+22) E問題まで素早く解けたのに結局F問題を解けなくてそこまで伸びきらなかった。残念。 A - Password A問題のページを開いておくのを忘れていてやや時間がかかってしまった。 提出 B…

AtCoder Beginner Contest 139

結果 順位 653rd / 5899 パフォーマンス 1568 レーティング 1883 → 1855(-28) 5完遅解きではこんなもん。もうmerom氏に抜かれそう。 A - Tenki for使っちゃった。 提出 B - Power Socket A問題じゃん。 提出 C - Lower えー、やるだけと思ったらforを抜ける…

第一回日本最強プログラマー学生選手権-予選-

結果 順位 413th / 3534 パフォーマンス 1867 レーティング 1885 → 1883(-2) まぁだいだいレート通りのパフォーマンスなのでこんなもんだなと。 A - Takahashi Calendar とという条件を見落としていて「は?」ってなったりしながら解いていた。 提出 B - Kle…

LibTorch(PyTorch C++API)の使い方

英語を読める人は素直に公式のドキュメントおよびチュートリアルを読むべき。翻訳ソフトを使ってでもこれらを読んだ方が良いと思う。 以下の作業は少なくともcuda10.0,cudnn7という環境では動くと思われる。(Dockerでnvidia/cuda:10.0-cudnn7-devel-ubuntu18…

価値のソフトマックス分布を教師としたAlphaZero学習(最終結果)

要約 価値のソフトマックス分布を選択および教師に利用することでレートが150程度上がったが、これはMiacis特有の事情である可能性がある。 背景 前回、価値のソフトマックス分布を教師としたAlphaZero学習は少なくとも最初の方では学習が上手く進んでいるこ…

AtCoder Beginner Contest 138

結果 順位 267th / 5238 パフォーマンス 1919 レーティング 1881 → 1885(+4) 前日のAGCでレート-4だったので二日間でプラマイゼロ。このあたりが適正か? A - Red or Not これAtCoderの色システムと対応しているの? 上のほうがどうなっているのかよく知らな…

AtCoder Grand Contest 037

結果 順位 393rd / 2317 パフォーマンス 1841 レーティング 1885 → 1881(-4) 800点のC問題を通せて喜んでいたけどレートは下がるのか。 AtCoderをやっている上でmerom686氏のレートを超えるというのを一つ目標としてきていたのだけど、今回提出せず撤退もで…

AtCoder Beginner Contest 137

結果 順位 462nd / 5218 パフォーマンス 1685 レーティング 1906 → 1885(-21) D問題までの4問しか解けなくてひえーって感じだったけど失敗に優しいAtCoderなので。 A - +-x 素直なA問題でやりやすかった。 提出 B - One Clue こういうの境界のあたりでバグら…

AtCoder Beginner Contest 136

結果 順位 315th / 5109 パフォーマンス 1843 レーティング 1913 → 1906(-7) A - Transfer 一度間違えてサンプル3の入力を提出欄にコピペして出してしまったがCEになったのでペナルティは付かなかった。あぶねー。 提出 B - Uneven Numbers 整数をまでループ…

Temporal Difference Variational Auto-Encoderを読んだ際のメモ

出典 International Conference on Learning Representations 2019に採択。 所感 長くなってしまったので最初に所感を。 初めて読んだときはなんだかよくわからず挫折してしまったけど、4.2節あたりの気持ちをちゃんと読んでみると多少わかってきた。詳しい…

AtCoder Beginner Contest 135

結果 ユーザ名 tokumini コンテスト名 AtCoder Beginner Contest 135 順位 327th / 4583 パフォーマンス 1795 レーティング 1925 → 1913 (-12) 難しかった。 A問題 見た目が難しくてびびった。 提出 B問題 脳みそを使わない力のこもった三重ループを投げつけ…

価値のソフトマックス分布を教師としたAlphaZero学習

要約 価値のソフトマックス分布を行動選択および教師分布として利用することで学習が2倍から3倍程度速くなった。 背景 前回、生成している棋譜を分析したところ、評価値を大きく損ねる悪い手が多く選ばれすぎていると感じられた。この原因として探索回数をも…

AtCoder Grand Contest 036

結果 tokuminiさんのAtCoder Grand Contest 036での成績:254位 パフォーマンス:2080相当 レーティング:1906→1925 (+19) :) Highestを更新しました! B問題を自分としては素早く解けたがC問題に歯が立たなくて座っているだけの時間が長かった。 A問題 一つ…

AtCoder Beginner Contest 134

結果 tokuminiさんのAtCoder Beginner Contest 134での成績:320位 パフォーマンス:1845相当 レーティング:1913→1906 (-7) :( D問題で4WA出したのが痛かった。 提出 A問題 半径の円に内接する正十二角形の面積はであることが知られています。 知らなかった…

AtCoder Grand Contest 035

結果 A,Bの2完。順位は悪くなかったしレートも上がったけど嘘解法もありC問題を解けず、反省点は多かった。 A問題 300点という見た目に惑わされて「簡単に解けるはずなのに全然わからない」と焦るのもいい加減やめよう。確かAGCの300点はABCの300点とは違う…

学習中に生成した棋譜の分析

要約 生成している学習データの質が悪い可能性がある。質を高めていくために(1)価値を考慮した行動選択 (2)の調整 (3)リプレイバッファサイズの調整 などを考えていきたい。 実験 前回1Mステップの学習を行ったが、まだ収束していないようにも思えたので2Mス…

ELF OpenGo: An Analysis and Open Reimplementation of AlphaZeroを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択。arXivには2月ごろに投稿されていたので以前もちらっと読んだことはあったが、一応再確認。 概要 AlphaZeroのオープンソースによる再実験を行い、学習や推論における挙動について分析 詳細 実…

AtCoder Beginner Contest 133

結果 E問題までの5完で157位。パフォーマンス2118でレーティングは1854 → 1883 (+29)。F問題が難しい(というか重実装だった)影響でEまで早く解けていればそこそこな順位になった。始まる前から疲れていて不安だったがなんとかなってくれて良かった。 A問題 …

思考時間とレートの関係

要約 Miacisではおおむね思考時間を2倍でレート+100となる。MCTSのスケール性もαβ探索と比べてあまり変わらないのではないか。 背景 AlphaZeroの論文(arXiv版)には1手の思考時間とレートの関係が図で表されている(Figure 2)。以下に将棋の方だけを切り抜いた…

AtCoder Beginner Contest 132

結果 E問題までの5完で365位。変な勘違いばかりして解くのが遅く、全然ダメだった。 A問題 すっきりとしたやり方がわからなくて結局std::mapに各文字の出現回数を詰め込むというオーバーキル気味なことをやった。解説PDFにあるソートして比較が一番スマート…

長時間学習の結果/選手権以降にやったことのまとめ

要約 2週間弱かけて1Mステップの学習を行ったところレート2600程度になった。パラメータとWindows向けバイナリはGitHubで公開している。 背景 第29回世界コンピュータ将棋選手権以降、一通り試したいことはやったのでここで一度長時間の学習を行った。選手権…

AtCoder Beginner Contest 131

結果 E問題までの5完。 内容 値 順位 292nd / 5123 パフォーマンス 1869 レーティング 1861 → 1862 (+1) A問題 特になし。 提出 B問題 脳みそを使いたくなかったので問題文の通りまず総和を計算して各に対して絶対値の差が小さくなるものと探索してそれを出…

Learning Action Representations for Reinforcement Learningを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 前回に続いて行動の表現を学習する手法についてのものがICMLにあった。特に昨日の論文が行動ログから事前学習という形のものだったのに対して、より強化学習の学習ステップに明示…

The Natural Language of Actionsを読んだ際のメモ

出典 International Conference on Machine Learning 2019に採択 読んだ理由 うさぴょん外伝のアピール文書を読んでから行動表現の学習に興味が出ている。自然言語処理における分散表現の考え方に近いなと思いながらICML2019の論文一覧を見ていたところ、か…

AtCoder Beginner Contest 130

結果 D問題までの4完で久しぶりにレートが下がった。 A問題 最近はA問題でもちょいひねりが入ったりしていた気もするが今回はいやに簡単だった。 提出 B問題 特になし。 提出 C問題 半分に切る場合が最大というのはすぐわかったが、それが複数ある場合の条件…

diverta 2019 Programming Contest 2

結果 D問題までの4完。Highestが更新されていく。 A問題 での場合分けを間違えて1WA。サンプルにあるのに合ってないものを提出してしまうとは。自動でサンプルの成否確認して提出するプログラム欲しいと思うこともあるけど、コンテストに出る際の環境が複数…

優先度付き経験再生の実装・実験

要約 優先度付き経験再生はAlphaZero方式の学習でも効果がありそう。 背景 以前の記事でも軽く触れたが、優先度付き経験再生という手法がある。 大雑把に言うとリプレイバッファからのサンプリング確率を一様ランダムではなく優先度で重み付けするものである…