文字化けしていて読めなかった(・ω・)
ダウンロードしたら読めた。定跡を「自己対局→勝敗+評価値を利用して評価」によってうまく作るというのは面白そうな考えですね。ライブラリを複数組み合わせいくのはやはり公開されていることの良さを上手く活かしていると思うので、elmoには強くあって欲しいなぁ~とか勝手に思っているんですが、今年はどうなるでしょう。
あまりよくわかってないけど、末端ノードだけではなく全てのノードで探索というのは面白そう。計算パワーを上手く活かすのも技術が必要なことで、これはまぁすごいことだなぁと思う。
ニューラルネットワークの評価関数を差分計算できるようにしてCPUで1局面ごと評価するらしい。いやしかしそれ以上の詳細がさっぱり理解できないぞ。メモリレイアウトをものすごく気にしているようで、それが大きく効いてくるのか。整数SIMD演算もゴリゴリ使ってとんでもない実装になっていそう。
しかしNN自体の大きさはそれほどでもないほか。入力特徴の時点でKPを使っているので深い、大きい必要はそれほどないのか。
実際どの程度強いんでしょうね。これは楽しみだ。
ついにノートパソコン脱却ということでこれはかなり期待できるのでは。KPPT型の評価関数、depth8で200億局面䛾教師局面を作成(!)、現時点でWCSC27のelmoに勝率75%程度っていうのやはり強い。
技巧の並列化を参考に疎結合並列化をしているとのこと。この辺さっぱり知識がなくてわからない。
Byteboardは指し手生成には使わない?
塚本さん卒業したのか。おめでとうございます(?)
Linuxでの開発、僕もちょっと移行したいかなーとか思っているのでできれば聞いてみたいな。
いつ見ても美味しそうなワッフル。うちで焼いたのっていうの、すごいですね。
「本題に入る前にポエム」という部分が非常に良い考察だと思う。単に飛車を6筋に置く将棋というところにとどまらず、振り飛車党らしい将棋がソフトによって指されたら面白いなぁ。やはり注目のソフトです。
今更ですがC言語での開発なんですか。ひゃーって感じですね。使用ライブラリもBonanzaということで、古参としての風格たっぷりですね。
4駒関係は見送っている模様。やはり難しいんですかね。「学習作業の効率を考慮して」とのことなので単純な強さだけの問題でもなさろうなのかな?
探索部はやねうら王ということで、まぁやはりそうだよなぁ。優秀だよなぁとは思う。
教師データについて量より質を重視しているというイメージ。数理強い人と高速化強い人となんか強そうな人が融合したらそりゃ強いのでは。
再放送の方が結構攻めた内容になっている。elmo絞りのここがダメで「ニューラルネット系の学習だと超強力」っていうのはなんだろう。AlphaZeroのことかな。
ビッグウェーブに乗る! → 乗りませんでしたー というお約束。1回のパラメータ更新に2000万局面ですか。なるほど。
指し手の選択確率を利用してオーダリング。これは結構ありな方針だと思うんですよね。35%の確率で、ってなかなかなんじゃないかとか思ってしまうんですが、そんなになんですかね。
探索深さ10での生成、学習をやっているとのこと。単純に計算量を増やすことでどうにかなるかもしれないという仮説はまぁそういうこともありえるのかなという気はする。探索はどうなんだろう?
リリカルなのは、全然知らないんですよね。
Bitboard不使用でも実際そんなに性能差はないのかな? どこにでもあるような平凡な構成とか謙遜しているけど詰み探索があるのは面白い点だと思う。ただやっぱり棋力に繋げるとすると単なる詰みかどうかだけでなく詰めろ等々を含まないとダメなんだろうなぁとは。
そういえば毎年変化点を作る必要はないのかな。
利きを管理する高速な将棋盤、実現確率を用いた探索辺りがちょっと気になりますね。詰め探索もしっかり入っているということで、隙がなさそう。
AMD勢での争い。なのはminiを改善していくということだけど、やっぱりStockFish探索から改善するのは難しいですよね……。定跡部もなんか作り込んでいるっぽい?Aperyの評価関数を使うということでやっぱり強そう。
tanuki-のアピール文書内でも触れられていたけど、非線形な評価関数を用いている。駒の働きを入玉度合いで判断するの面白い。評価パラメータの学習方法がちょっとよくわからないけどどうなんだろう。
評価バイナリとしてAperyがやっぱり人気ですね。オンラインの強化学習をやっているのかな? 気になるところ。
フルスクラッチ勢。非ビットボードで高NPSを目指しつつ、定跡データとか局面と評価値のセットなどは使用していないというこだわり。利きを保持したり演算途中のデータを保持することで高速化。なるほど。KPPT型だけど学習は不十分。オーダリングでSIMD使うの良さそう。
1985年ごろから開発ってすごいなぁ。「今年は昨年と殆ど変わりません」で前年のアピール文書が続くの笑ってしまった。
Bitboardと利きデータは排反なものなんだろうか。まぁ冗長っちゃ冗長ではあるなぁ。
方策勾配を用いた教師あり学習+強化学習。方策勾配法気になるけどどんな感じなんだろうなー。
プレイアウトをしないモンテカルロ木探索との違いがいまいちよくわかっていない。まぁかなり似たものではあるのかな。アピール文書中でもMCSoftmaxとか言われてるしなぁ。いやしかし普通の評価関数でも有効ならこれは結構すごいことだと思う。
まったりゆうちゃん
古参勢。去年は最終局で僕が負けて予選抜けしたんでしたよね。リベンジする機会が得られるかどうか。フルスクラッチなのはやっぱりすごいことだとは思う。
徹底的にキメラ化に拘るというコンセプトはなかなか良さそう。いろいろな条件で学習させて評価関数作ったりそれを上手く混ぜ合わせたりすると既存のものより強くなるっていうのは結構奇妙な現象にも思えるので何か解明されるといいな。
カツ丼将棋
将棋連盟のページを真似た自己紹介ページ良いですね。簡易的な4駒と多少の手調整ということで結構面白いソフトに仕上がっている感じ。24での自動対局システムなど貢献は大きいです。僕のソフトもお世話になりありがたい限り……。
横型RotatedBitboardか。StockFishを改善できた(?)なら強いなぁ。Aperyをそのまま使うということで評価関数の差が出ないと良いけど、まぁ強化に成功しているチームもそんなになさそうだから結構強いのでは。
人生の悩みを描くアピール文書。
1手ごとに思考エンジンの実行するっていうのは相当珍しいですね。汎用的なプログラムに仕上がっていると良いなぁ。
加算連結とか乗算連結はよくわからない。評価パラメータにノイズを加えるのとかも? ちょっとこれは聞いてみたいな。
Rustでの開発、利きのみを利用した評価関数って辺りが面白い。利きのみの評価ってどこまで情報を復元できるんだろうか。なかなか興味深い。
対局途中で使用する思考エンジンを変更していくのも面白い考え方だなぁ。特にDeepを使った評価関数は序盤は強いけど……という感じになりがちという印象があるのでそこで終盤に強いエンジンに切り替えられたら良さそう。そのエンジンも終盤に特化させたりはできるんだろうか。
手製でチューニングした評価関数。まぁなんだかんだでそれでもそこそこ強くなるとは思う。
第3回から参加しているってとんでもないですね。すごい。使用言語がJavaで、評価パラメータはちょっと少ない感じですか。「前回からの改良 全く変更なし。」が潔い。
dlshogiをRMSPropで強化学習。
手調整の評価関数。8近傍をいろいろやるっていうのあまりやってないんだけどやった方がいいのかなぁ。簡易必至判定とかも面白そう。
将棋ソフトを作るプログラムを作っているということですか。昔のソフトとは大きく作りが違うんだろうなぁとは思う。
線形の評価関数を用いてモンテカルロ木探索。プレイアウトではなくある程度で打ち切りと。これ案外強くなったりしないのかな。探索は不思議なことが多い。
RustからGoへ変更。今年も参加してくれるのは良いですね。あれ、評価関数は手調整になるんですか。
強化学習と遺伝的アルゴリズムの融合? 面白そう。遺伝的アルゴリズムなんか可能性ないのかなーとは結構思っているんだけど。
おーD言語。以前には確かD言語で参加していた人もいたような気がするけど、まぁ今は少なくなっているのかな。いろいろな実験結果が載っていて面白い。置換表めっちゃ効いてるなー。
なんもわからん。天才。
フルスクラッチ勢。Luaという謎の言語での開発。評価値を探索に活かせていないという天才性。すごい。
ん、なんだか面白いそうなことをやっている気がするのだけど理解できない。しかしこういう工夫を重ねていかないとダメだよなぁとは思うのであとでしっかり読もう。
DeepLearning使用。ばっちりAlphaZeroを真似した感じで期待大ですね。
特大もっきゅという名前可愛くていいですよね。CUDAを使って書いているのは何か良い点があるのだろうか。Deepやっているのかな?
Bonanzaをベースとして改造をした感じか。利きを使っているらしく、飛・角・香を別に保持しているのは面白そう。利きを上手く更新できるならやっぱり利きを持ちたいとは思う。
オンライン学習やりたいよなー。俺もなー。
昔話が面白い。
「うまるちゃんになりたい人がいればお貸しすることは可能です」誰か。
DeepLearning使用。なぜかCaffeが人気っぽい?(速いらしいというのはちょっと聞いたことあるかも)。Conv3層で全結合5層。floodgateの3年分を指し手と勝ち負けのみ使用。これでも一致率とかは結構行くのかな。ぜひ聞いてみたい。
自己対局のみからの学習。歴史があって信用できそう。GAとかTDleafとかいろいろ試しているとのころ。PDLeafがまだよくわかってないんだけど、まぁできれば聞いてみよう。
指し手を読む深さを機械学習によって決定しているという部分が
Kindergarten Bitboardsってなんだろう。
フルスクラッチ勢。Javaを使っているチームがそこそこある気がする。
角頭歩戦法ガチ勢。この戦法全くよくわかってないんですけどプロでも指されていたんでネタではないっぽいんですよね。阪田流向飛車もやるということでできればそっちも見てみたい。
指させたいものを定跡としてそこから学習させるとうまく指してくれる。序盤はdlshogiでそのあとはやねうら王。これはSilverBulletと同じアイデアかな。強そう。
フルスクラッチ勢。AlphaZeroを実装したとのこと。これはCuDNNを直書きしたということ? 話しかけることは多分僕には不可能なので話を聞くのはできないだろうけど……。
フルスクラッチ勢。評価関数はelmoを利用。上手くいけばDeepを利用する。
DeepLearning使用。やねうら王を使って教師データを生成し、それを教師あり学習。pythonを実践でも用いるということかな。ちょっと速度が心配な気もするけど、どう実装しているんだろう。
モンテカルロ木探索は上手くやれば将棋でもなんとかなるのでは? とか思ってしまうんですがならないもんなのか。
なぜかりゅうおうのおしごと! の感想があり笑った。
れさぴょんを使っているチームは珍しい気がする。序盤は広く、終盤は深い探索をしているとのことだけれど、それはどうなんだろうか
評価関数は手調整。
C++からRustに変更とのこと。3駒関係を機械学習させたなら結構強いのでは。1勝どころではなさそう。
DeepLearning使用。自己対局による強化学習をしているとのことで。まぁだいたいブログを見ていると進捗のほどはわかるけど、結構強そう。
ドメイン知識を入力に入れた方がいいというのはそんなんだろうな。
ドメイン知識を利用するということでAlphaZeroよりもAlphaGoの方に近いということなのかな? REINFORCEアルゴリズム使っていたとは知らなかった。
Policy Network の一致率:45.6%
Value Network の一致率:78.1%
はすごいなぁ。floodgate2016年のものだけだと全然そんなにいかない。
自己対局の強化学習ではまだ有意に強くなってはいないということで、大変ですね。
DeepLearning不使用(!)。0ベースから強化学習と敵対的学習のハイブリッド。なんだかよくわからないけどすごそうだぞ。
Windfall
DeepLearning使用。努力がとんでもない方向に向かっていませんか? しかしすごい。
48さんなどが参加されているクソ強そうなチーム。結局何をやるんだかさっぱりわからんけどまぁ強いんだろう。
通信部がすごそう。
フルスクラッチ勢。標準的な構成っぽいけど強そうだぞ。
あとがき
これで全部見たかな。一番の注目株はやっぱりthe end of genesis T.N.K.evolution turbo type Dですかね。内容をちゃんと理解はできてないけど今後流行るのかなぁ。
あとはDeepLearning勢がどうなるか。dlshogiが一番強いのかな?
ライブラリを上手く使っているチームは工夫次第で一気に強くなる可能性があると思うのでそれらにも注目ですね。
あまり開発に時間割けてないけど楽しみだー。