強化学習を繰り返した結果、私が予想もしてなかったことが起こりました。
ポナンザは単に強くなっただけでなく、どんどん新戦法を指すようになったのです。人間同士の戦いではあり得ないとされていた手順が、次々と湧き出てきました。
コンピュータ将棋の世界に入って本当によかった、と思った瞬間でした。
私は将棋のことを甘く見ていたのです。私自身がプレイヤーとして将棋を指していたころは、既存の戦法にある種の行き詰まりを感じていました。
有効な戦法の種類は限られ、その後の展開も研究しつくされたように見えていたのです。私だけでなく、多くの人が同じ心象を持っていたように思います。
しかしポナンザは、それらの先入観から解き放たれて自由に将棋の海を潜っていきます。そしてその海は、私が思っていたよりずっとずっと深かったのです。
ポナンザが指し始めた戦法は多岐に及びます。それらはおもしろいことに私ではなく、アマチュアプレイヤーやコンピュータ将棋に敏感な若手プロ棋士によって「ポナンザ流」と呼ばれるようになり、体系化されていきました。
ポナンザ流で有名なものでは、「左美濃急戦」と呼ばれるものがあります。この発見によって、プロ棋士の十八番であった「矢倉」が一時期急速に指されなくなったと言われるほど、大きな影響を与えました。
図3−6 左美濃急戦
赤線で囲った部分が左美濃と呼ばれる部分。この局面ののち、矢倉の大家である後手・森内俊之九段に先手・阿部光瑠五段が圧勝します。
また、2013年の名人戦で森内俊之名人(当時)によって打たれた△3七銀は、すでにポナンザによって発見されていた手ということで、大きな話題となりました。
図3−7 名人戦で指されたポナンザ新手
森内俊之名人と羽生善治三冠(いずれも当時)という トッププロ同士の対局の趨勢を決めた一手でした。
今ではポナンザ以外の将棋プログラムも、プロ棋士の棋譜からの学習を脱却して、強化学習を始めています。
そしてここ数年でプロ棋士によるコンピュータ将棋の研究も進み、現在使われる戦法は、何かしらコンピュータの影響を受けたものがほとんどになりました。いつのまにか、コンピュータとプロ棋士の「どちらが教師か」という立場が逆転しているのです。
しかし忘れてはいけないのは、将棋で強化学習が可能になったのは、すでに強化学習前のプログラムがある程度強かったからだ、ということです。
まったく知識がない状態からの強化学習も可能かもしれませんが、その場合はある程度強くなるのに途方もない時間がかかるでしょう。プロ棋士の棋譜を元にすることが、機械学習を現実的なレベルで可能にしたのです。
人工知能の開発においては、必ず大量のデータが必要になるのです。そのうえで、最初は「教師あり学習」。そしてその後は「強化学習」に移るはずです。この流れは今後人工知能が普及するなか、さまざまな場面で出てくると思います。ぜひ覚えておいてください。
人類の反撃と許容
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。