私はポナンザを作り始めて3年ほどで、将棋ソフトの世界でトップレベルになることができました。2013年には将棋電王トーナメントで1位を獲得します。すでにお話ししたように、この年に将棋ソフトとして初めてプロ棋士に勝利することもできました。
しかし2014年は、世界コンピュータ選手権と将棋電王トーナメントで、ともに準優勝に終わります。
図3-3 ポナンザの成績
ポナンザは壁にぶつかっていたのです。明らかに成長の速度が遅くなり、歯がゆい思いをします。このままではほかのソフトにどんどん追い抜かれてしまう……。どうすれば、もっと強くなるか。悩みの日々が続きます。
そうした苦しみのなかで、ついに導入に成功したのが「強化学習」という手法でした。
強化学習は、この連載でお伝えしたいポイントのなかでも、少し説明が難しいものです。どう解説すべきか悩んだのですが、「守破離」という言葉がヒントになると気づきました。
守破離とは、剣道や茶道などで、修業における段階を示したものです。
「守」は、師や流派の教え、型、技を忠実に守り、確実に身につける段階。「破」は、ほかの師や流派の教えについても考え、よいものを取り入れ、心技を発展させる段階。「離」は、1つの流派から離れ、独自の新しいものを生み出し確立させる段階。と、デジタル大辞泉では説明されています。
ピアニストの例で考えてみましょう。 どんなに才能があったとしても、最初はやはりある先生について、その指示のとおり学習(練習)をするのが上達への近道ですよね。そして、うまくなるにつれてほかの先生からもレッスンを受けてみたり、いろいろな教本を読んだりするはずです。
しかし、世界最高のピアニストを目指すなら、先生の言うことを聞くだけ、教本を読むだけでは絶対にダメですよね。自分で考え、試行錯誤し、先生や本の教えから離れる必要があります。そうしなければ、先人を超えることはできません。
この「守破離」は、すべての知能が物事を習得する際に共通してたどるルートだと考えています。
ポナンザの将棋も上達も、その例に漏れません。ポナンザはプロ棋士の指し手を機械学習し、とても強くなりました。それだけでも十分プロレベルに達しており、実際にプロ棋士に勝つことができました。
しかしこれは、プロの考えをコンピュータ上で再構成して、高速で再生産しているだけでした。「守破離」で言えば、まだ「守」の段階だったのです。
このままでは真の意味で人間を超えた世界一にはなれません。「破り」「離れる」ためには、それまでの機械学習に加えて、強化学習の導入が必要だったのです。
強化学習とは何か
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。