2016年1月9日土曜日

AIメモ1

[pdf]麻雀の牌譜からの打ち手評価関数の学習

「麻雀 評価関数」でググると一番上に出てくるやつ。麻雀知らない頃に一度読んで内容理解できず諦めた経験がある

内容は、ツモ局面と鳴き局面において知り得る情報だけを用いて、ニューラルネットワークを使用した評価関数で自分の利益を最大にするように手を打つ。実質的に深さ1のminmaxと変わらない。

ある合法手と牌譜中で実際に打たれた手の一致度をシグモイド関数で表して、その総和が小さくなるように評価関数のパラメータを調整する。シグモイド関数を使うのはx=0付近で傾きが大きいからとか。

カン、リーチ、上がりの基準をそれっぽい風に決めて実際にネットの麻雀サイトで174試合打たせると下位13%程度。役考慮してないし仕方ないよねって結論


0 件のコメント:

コメントを投稿