ネットワーク構造予備調査

コンピュータ将棋

前回の記事の通り、データセットの充実により教師あり学習でも十分な性能を出せるようになった。このため、CNNがスタンダードとなっているネットワーク構造についても再考ができるかもしれない。巨大データセットを用いて巨大なモデルを学習させるというの…

2021-12-30

『強い将棋ソフトの創りかた』データで学習

コンピュータ将棋

以下の本を読みました。強い将棋ソフトの創りかた作者:山岡忠夫,加納邦彦マイナビ出版Amazon コンピュータ将棋でも深層学習+モンテカルロ木探索という構成の強力さが明らかになっている最中だと感じていますが、その最先端へ一気にキャッチアップするための…

2021-11-28

画像to画像のネットワークに二桁の足し算を学習させる

手頃な大きさのニューラルネットワークが、画像を入力とし画像を出力する形で二桁の足し算を解くことができるのかどうかを検証した。実験方法データ形式入力画像に「A+B=」という式を画像化したもの、教師画像として「A+B=C」の正しい式を画像化したもの…

2021-11-27

『Which are you?』その２ Transformerの採用

前回前回は『Which are you?』というトイタスクを考え、LSTMを使って方策勾配法を用いることで10回中7回でそれなりな正答率になった。今回は時系列モデルをLSTMからTransformerへと変更した。実装 Transformerで時系列を扱う場合、過去の入力情報が必要に…

2021-11-26

Not All Memories are Created Equal: Learning to Forget by Expiringを読んだメモ

論文

概要 Transformerに与える系列に対して、記憶が有効である期限を事前に計算し、不要な記憶は捨てていくような機構を導入する。提案手法前提として、毎回のタイムステップで、表現ベクトルがやってくる。これをTransformerで処理して、過去の情報を考慮しつ…

2021-11-24

ICML2021のPoster採択論文一覧を眺める

論文

なんかoralは上手く反応しないのでPosterだけ。AbstだけGoogle翻訳にかけて、明らかに誤訳そうなところだけは少し手直しして貼り付けておく。結局これが手間と後で見返したとき便利さのバランスとして適当そう。 MuZero系多くの重要な現実世界の問題には、…

2021-11-13

深層強化学習の実装練習

深層強化学習プログラムの実装練習として『Which are you?』というトイタスクを考えて、エージェントを実装した。 1.『Which are you?』の説明概要以下のような5×5マスの2次元グリッドの世界を考える。 ##### #...# #A.B# #...# ##### A, Bはこの2次元グリ…

2021-09-19

合法なラベル数の計算

コンピュータ将棋

前回、検証データにおいて1回でも出現する出現するラベル数を記録したところ、1411種類だとわかった。ネットワークの出力の都合上、2187クラスとしてクラス分類を行っているが、その中には将棋の指し手としてあり得ないものもある。今の指し手ラベル構築方…

2021-09-17

Policy正解ラベルの偏り調査

コンピュータ将棋

深層学習系の将棋ソフトでは主にPolicyを教師あり学習などで訓練する。しかし、将棋を普通にプレイしている上で出やすい手と出にくい手があると考えられ、正解ラベルにはクラスごとの偏りが大きくあると思われる。今回はその偏りについて調査した。ラベルの…

2021-09-04

Transformerで将棋の学習

コンピュータ将棋

最近Transformer(ViT)モデルで教師あり学習をやっていたところ、損失値についてはCNNと近い程度の低さが出せるようになってきたので記事としてまとめておく。 (※ 教師あり学習での損失値を比較しているだけなので、CNNより強いという主張をしているわけでは…

2021-08-19

重み共有40ブロックモデルの学習

コンピュータ将棋

ここのところeasy-to-hard論文の再現に執着している。重み共有をしたResNetで、「学習時のループ回数よりも検証時のループ回数を大きくしたときに、学習データにはないような難しい問題に対する正答率が上がる」ということを主張している論文である。重み共…

2021-08-13

PonderNet: Learning to Ponderを読んだ際のメモ

論文

出典 Abst 標準的なニューラルネットワークにおいて、計算量は入力のサイズに伴って大きくなるが、学習する問題の複雑さに対応して大きくなるわけではない。この限界を打ち破るために、PonderNetを提案する。このアルゴリズムは問題の複雑さに応じて計算量を…

2021-05-22

Measuring Coding Challenge Competence With APPSを読んだメモ

論文

（GitHubリポジトリ) 概要自然言語の問題文を入力としてコードを出力する、競技プログラミングに似た形式のタスクについて、APPという新しいデータセットを構築した。データセットについてGPTモデルを評価したところ、簡単な問題についてAC率が0%~4%程度で…

2021-04-07

Miacis for Android開発日記

深層強化学習を用いた将棋ソフト『Miacis』を開発しており、PyTorchのライブラリを眺めていたらAndroidで動かせるなーということに気づいたので作ってみました。アプリのリンクソースコードのリンク Androidアプリというか、一般にGUI付きのアプリを開発す…

2021-03-25

教師あり学習 + 強化学習

コンピュータ将棋

要約教師あり学習(300万ステップ)の後に強化学習(10万ステップ)を行うことでR+50.5、さらにもう一度強化学習(10万ステップ)を行うことでR+61.9。floodgateでレート3800ほどになった。学習の全体ランダムパラメータから始めて、以下の3つをこの順に行った…

2021-03-18

ランダムパラメータからの強化学習

コンピュータ将棋

TensorRTなどの高速化も導入したので、ランダムパラメータからの強化学習をやり直した。実験設定いつも通り、細かい差異はあれど基本的にはAlphaZeroと同様の設定。使用パソコン CPU:Intel Core i9-9900K @ 3.6GHz(8core 16thread) メモリ:32GB GPU:RTX 2…

2021-02-18

Post Training Quantization(PTQ)の導入

コンピュータ将棋

要約 PTQ(要するにINT8演算)の導入でR+30程度実装ニューラルネットワークは基本的に浮動小数点演算(FP32)を用いている。今までは半精度浮動小数点演算(FP16)により高速化を行っていたが、Post Training Quantization(PTQ)という、FP32の範囲を絞ってINT8の…