AIによってコンピュータ翻訳の世界がガラリと変わった

近年、世界中から注目を集めている人工知能。人工知能とはどういうもので、私たちの生活をどんなふうに変えるのでしょうか。人工知能の専門家・清水亮さんが、最新の研究結果をもとに解説します。第4回目は、ディープラーニングによって実現した、驚くべき翻訳技術のお話です。

前回、自然言語処理の難しさについて言及した。

その主な理由は構文解析だけでは現実世界の知識や理解が不足していて、ごく単純な文章であっても正しく解釈することができないからである。加えて、品詞ごとにスペースで区切られる欧文と違い、日本語や中国語では構文解析をする前に、形態素解析という、文章を1つずつ品詞に分解する処理を加えなければならずさらに複雑になってしまうという問題がある。

特に形態素解析は厄介で、辞書が必要であり、辞書の性能によって品詞分解の性能が左右されてしまうという欠点もある。

我が国でも30年以上にわたって自然言語解析は独自の研究を重ねてきた。とりわけ日本語特有の形態素解析という分野では世界にひけをとらないが、同時に限界を解決することができないまま長い年月が経過してしまった。

「らき☆すたオモロい」は形態素解析が全くできない

形態素解析のなにが難しいか。たとえば次の日本語を見てみよう。

風の谷のナウシカ

これを形態素解析すると

風(名詞) の(助詞) 谷(名詞) の(助詞) ナウシカ(固有名詞)

この場合、単なる形態素解析だけだと風の「谷のナウシカ」なのか、「風の谷」のナウシカなのか解釈が別れる余地がある。しかし人間なら「風の谷のナウシカ」という言葉を聞いて、自然に「風の谷」のナウシカであると解釈できる。

もうひとつ例を出すと、

らき☆すたオモロい

というツイートがあるとする。このツイートは全く形態素解析できない。助詞が全く無いので1つの単語として扱うしかなくなる。それを回避するには「オモロい」を辞書に登録する必要がある。ところがネットの世界では新語や隠語が多く登場する。たとえば

onksit
マジ草
おはどん

などのネットスラングを形態素解析で解決するには辞書に頼る必要がある。
しかし現実的には全ての新語をリアルタイムに辞書に登録することはできず、辞書を用いる旧来の自然言語解析は辞書によって低めの限界が発生する。

形態素解析がもてはやされたのは、単語がスペースで区切られた欧文に対しては非常に強力だからだ。また、データ量も次元も少なくてすむので深層学習以前からよく用いられた。

しかしスペースで区切られない日本語の場合、どこが言葉の切れ目なのか機械的に判別するのは難しい。そして前回指摘したように、構文解析も実は万全とは言い難い。

従来の人工知能技術の叡智を結集した機械翻訳の例を見てみよう。以下はライス大学でケネディ大統領が行ったスピーチの1節だ。

We choose to go to the moon. We choose to go to the moon in this decade and do the other things, not because they are easy, but because they are hard, because that goal will serve to organize and measure the best of our energies and skills, because that challenge is one that we are willing to accept, one we are unwilling to postpone, and one which we intend to win, and the others, too.

これをとある機械翻訳サービスを利用して翻訳すると以下のように訳される。

私達は、月に行くことを選ぶ。私達は、この10年で月に行き、それらが容易であるのでなく、そのゴールが、私達のエネルギーとスキルのベストを組織し、測定するのに役立つので、それらがかたいので他の事をすることを選ぶ、その挑戦がそれである私達が延期ししぶっていること、および私達が勝ち取るつもりであること、およびまたその他のもののもの 快く私達が受け入れるので。

言うまでもなく、これはおよそ日本語の体を成していない。
特に問題は2回目の「We choose to go to the moon…」以降で、実はこの演説ではこの部分が最後まで続くひとつの文になっているため、構文解析を元にした機械翻訳では、どうしてもひとつの文としてこれを日本語で再構築しようとする。AIが悪戦苦闘した結果、大変読みづらく、また、意味もとりづらい内容になってしまっている。

私も20年前から機械翻訳を下訳として使っているが、このレベルの機械翻訳はほとんど使い物にならないことが多い。それぞれの形容詞の意味やニュアンスについて辞書を引くよりは多少速い、くらいのものである。

かなりの注目を集めたWord2Vecという技術

ただ、従来の自然言語処理が全然ダメかといえば、そんなこともない。たとえば、統計的機械学習という手法の興味深い例の1つとしてWord2Vecを紹介しよう。

たとえば「ステーキは美味しい」「寿司は美味しい」「ケーキは美味しい」という文があるとして、「ステーキ」「寿司」「ケーキ」とは「美味しい」という言葉とよく一緒に出てくるのでどうやら似ているらしい、と考えることができる。

たとえば「王様は偉い」「女王様も偉い」「王様は男らしい」「女王様は女らしい」みたいな表現から、「王様」と「男」、「女王様」と「女」、「偉い」と「王様」と「女王様」はそれぞれ近い、と把握する。

これを専門用語で「単語の分散表現のベクトル化」と言う。重要なのは、本来は文字の組み合わせに過ぎない単語を、「同じ文脈で一緒に出てくるから近い」という尺度でベクトル化するところだ。ベクトル化すると、足し算や引き算ができる。これを使うと

王様 - 男 + 女 = 女王様

とか

東京 - 日本 + フランス = パリ

という計算ができるようになる。
これはWord2Vecの非常に面白い性質で、この性質の面白さからかなりの注目を集めた。

深層学習を使う場合でも前段ではWord2Vecを利用してベクトル化したものを深層ニューラルネットワークに入力するなど、Word2Vecは今でも大事にされている技術の1つだ。

余談だが、Word2Vecのアイデアは考古学にヒントを得ているところも興味深い。考古学に明るくなくても、ロゼッタストーンは知っているだろう。ロゼッタストーンは古代エジプトの神聖文字(ヒエログリフ)と民衆文字(デモティック)とギリシャ文字の3種類で同じ内容が書かれた石碑とされ、これを元にヒエログリフの解析が飛躍的に進んだと言われている。

どうしてロゼッタストーンでヒエログリフが解析できたのか。実は古代文字を解析する1つの方法として、「一緒によく用いられる言葉は意味が近い」というものがあるのだ。それが1つのヒントとなって、Word2Vecのアイデアが生まれたのである。

旧来からの人工知能研究者を戸惑わせた重大かつブレイクスルーな発見
この続きは有料会員登録をすると
読むことができます。
cakes会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

この連載について

初回を読む
知識ゼロからの人工知能入門

清水亮

近年、世界中から注目を集めている人工知能。囲碁AIや自動運転技術などに期待が寄せられる一方、「人間の仕事を奪うもの」と不安を感じている人も少なくありません。実際のところ、人工知能とはどういうもので、私たちの生活をどんなふうに変えるので...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

tanilow https://t.co/eET48Y41GO 3年弱前 replyretweetfavorite

madarame 辞書ありきの形態素解析は日本語には限界があったが、深層学習を用いた技術は、解析用の辞書なしに大量の例文データから勝手に学習することが可能。 → 3年弱前 replyretweetfavorite

sakamotty93 こ、これは…!! https://t.co/RupPbPN9wB 3年弱前 replyretweetfavorite

yoshikibi ロゼッタの白旗宣言は記憶に新しい。。 3年弱前 replyretweetfavorite