【第26回】
統計家たちの仁義なき争い (2)
—言葉を分析するテキストマイニング

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

計量文献学が否定した
「シェイクスピア=フランシス・ベーコン説」

 テキストマイニングとは、ひと言で言えば自然言語で書かれた文章を統計学的に分析することである。なお自然言語とは日本語や英語のような、要するにプログラミング言語のように人工的に作られたわけではないふつうの言語のことを指す。

 従来あるいは現代においても、文章の分析は数値あるいはデータをほとんど使わず、膨大な歴史的資料の検討と、哲学的な思索と、文学的な想像力によって支えられてきた。私の周りにも「数字が苦手だから」という理由だけで文学部に進学した人が何人かいるが、仮に数字が苦手でもシェイクスピアの戯曲における表現をベン・ジョンソンの詩と比較して論じることに問題はない。

 だが、文章の分析に数が持ち込まれるようになった歴史は意外に古く、19世紀頃から行なわれている。すなわち、文章中に登場する単語の種類や長さ、1つの文の間に含まれる平均的な単語数といった数を数えることによって、文献の特徴を捉えようとする試みがなされるようになったのだ。こうした研究のことは計量文献学と呼ばれるようになる。

 初期の計量文献学の研究者もシェイクスピアの文体を分析しようとした。彼の戯曲の美しさの秘密を知ろうとしたわけではなく、彼が本当はフランシス・ベーコンではないか? という当時まことしやかにささやかれていた仮説を検証するためにだ。

 なぜそんなことを、と思われるかもしれないが、「シェイクスピアという人物は実在しないのではないか」「誰かのペンネームではないか」といった議論は18世紀からしばしば繰り返されていたらしい。彼が平民の出自であるためあまりに歴史的資料が少なく、またその割に貴族の文化や教養を描くのがうまいため、誰か別の教養ある人物が作品を執筆していたのではないか、というのである。

 なお、フランシス・ベーコンはシェイクスピアと同時代に生きた偉大な哲学者であり、偏見や先入観を減らし、観察と実験によって真理にたどり着く帰納の重要性を解いた統計家なら間違いなく尊敬すべき人物だ。彼であれば文章力や教養においてシェイクスピアの戯曲を書くに足る人物であると思われたのかもしれない。

 そうして両者の文章の比較が行なわれた結果、平均的な単語の長さや1文中の単語の数が同様とは言いがたい、という結論が得られた。戯曲と哲学的書籍の文体が変わるのは当たり前だろうという批判もあるが、とりあえず「巷で言われているほど特に共通した特徴は見られなかった」という結果が文章の数値的特徴から示唆されたというのは大きな進歩である。

図表1 シェイクスピアとフランシス・ベーコンの平均的な単語の文字数の違い

テキストマイニングの王道「形態素解析」と
Googleを支える「N-Gram」

 19世紀に本1冊分の文章に登場する単語の数や文字数をカウントする、というのはおそらく地獄のような作業だっただろう。もしその苦労が想像できなければ、ぜひこの文章の中に登場する単語の数を数えてみてほしい。しかしながら、ITが発達した現代であればそれほど大した手間ではなくなった。今では多くの言語でオープンソースの形態素解析ツールが公開されており、それを用いれば、文章中の単語の使用頻度の分析や、動詞か名詞かという品詞別の集計、2つの文章間での使用単語の類似性の分析などが簡単に行なえる。

この続きは有料会員登録をすると
読むことができます。
cakes・note会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

imoproject 書籍でも「ベン・ジョンソンの詩と比較して論じる」と書かれていたけどベーコンの間違い?| (2) ――言葉を分析するテキストマイニング|統計学が最強の学問である|西内啓 @philomyu https://t.co/t6dQlyxnAq 4年以上前 replyretweetfavorite