ポナンザの「守破離」

最強の将棋AI「ポナンザ」は、2014年ごろに壁にぶつかった、と山本一成さんは振り返ります。しかし、「ある技術」を導入したおかげで、閉塞した状況を打破することができたそうです。その「ある技術」とは、いったい何でしょうか。

 私はポナンザを作り始めて3年ほどで、将棋ソフトの世界でトップレベルになることができました。2013年には将棋電王トーナメントで1位を獲得します。すでにお話ししたように、この年に将棋ソフトとして初めてプロ棋士に勝利することもできました。

 しかし2014年は、世界コンピュータ選手権と将棋電王トーナメントで、ともに準優勝に終わります。

図3-3 ポナンザの成績

 ポナンザは壁にぶつかっていたのです。明らかに成長の速度が遅くなり、歯がゆい思いをします。このままではほかのソフトにどんどん追い抜かれてしまう……。どうすれば、もっと強くなるか。悩みの日々が続きます。

 そうした苦しみのなかで、ついに導入に成功したのが「強化学習」という手法でした。

 強化学習は、この連載でお伝えしたいポイントのなかでも、少し説明が難しいものです。どう解説すべきか悩んだのですが、「守破離」という言葉がヒントになると気づきました。

 守破離とは、剣道や茶道などで、修業における段階を示したものです。
「守」は、師や流派の教え、型、技を忠実に守り、確実に身につける段階。「破」は、ほかの師や流派の教えについても考え、よいものを取り入れ、心技を発展させる段階。「離」は、1つの流派から離れ、独自の新しいものを生み出し確立させる段階。と、デジタル大辞泉では説明されています。

 ピアニストの例で考えてみましょう。  どんなに才能があったとしても、最初はやはりある先生について、その指示のとおり学習(練習)をするのが上達への近道ですよね。そして、うまくなるにつれてほかの先生からもレッスンを受けてみたり、いろいろな教本を読んだりするはずです。

 しかし、世界最高のピアニストを目指すなら、先生の言うことを聞くだけ、教本を読むだけでは絶対にダメですよね。自分で考え、試行錯誤し、先生や本の教えから離れる必要があります。そうしなければ、先人を超えることはできません。

 この「守破離」は、すべての知能が物事を習得する際に共通してたどるルートだと考えています。

 ポナンザの将棋も上達も、その例に漏れません。ポナンザはプロ棋士の指し手を機械学習し、とても強くなりました。それだけでも十分プロレベルに達しており、実際にプロ棋士に勝つことができました。

 しかしこれは、プロの考えをコンピュータ上で再構成して、高速で再生産しているだけでした。「守破離」で言えば、まだ「守」の段階だったのです。

 このままでは真の意味で人間を超えた世界一にはなれません。「破り」「離れる」ためには、それまでの機械学習に加えて、強化学習の導入が必要だったのです。

強化学習とは何か
この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

この連載について

初回を読む
人工知能はどのようにして「名人」を超えるのか?

山本一成

2016年、電王戦で5戦全勝した将棋AIポナンザ。開発者である山本一成さんは「知能とは何か?」「知性とは何か?」ということを何度も自問することになったそうです。そうすることで、逆に人間の知能がクリアに見えてきたと言います。この思考の結...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

retroeater @krpphilosophy @takehirosan1209 https://t.co/N4s4I0V4SX 6ヶ月前 replyretweetfavorite

tks564bys0000 【コラム】 6ヶ月前 replyretweetfavorite

wol564b =コラム= 6ヶ月前 replyretweetfavorite

pek5845 -コラム- 6ヶ月前 replyretweetfavorite