今回は、ディープラーニングのマルチモーダル化を実現させるかもしれない、興味深い最新の動向を紹介しておきます。
それは、「言語の処理も画像としておこなう」という手法の登場で、これが最近少なからず賛同者を増やしているようなのです。
そのしくみを簡単に解説するのは非常に難しいので泣く泣く省略しますが、驚くことに、このアプローチが意外とうまくいくようなのです。
この手法の評価が高いのには、大きな理由があります。それは、ここまで何度か言及したように、ディープラーニングは画像の処理が最も得意だからです。
ですから、言語であれ何であれ、なんとか画像と結びつけることができたなら、それは一気にディープラーニングの得意な対象になり、人間を超えてしまえるのです。
そして、画像は非常に多くの情報を表現することができます。どんなものでも画像にできれば、「縦と横の関係」として表現できるのです。そして縦と横の関係は、距離的なものだけでなく、時間的な近さすら表すことができます(数学のグラフは、距離も時間も表現できましたね)。
ここからは完全に私の想像ですが、さらに議論を進めると、もしかしたら「知能とは画像である」と言うことすらできるかもしれません。
考えてみれば、私たちがふだん脳内で見ているのは、3次元を2次元にした画像だと言うことができます。逆に、1次元の数字の列をわざわざ手間をかけて2次元の画像(グラフ)にして解釈したりもします。
つまるところ、人間は2次元の画像にできるものしか認識できないのではないでしょうか。だから私たちは4次元の世界を認識できない、ということも考えられます。
また、人間の目は脳の付属物などではなく、目があったから脳が進化したという話もあるようです。人間の眼球と脳との密接につながりは、「画像が知能の本質」であることの証拠なのかもしれません。