【第27回】
統計家たちの仁義なき争い (3)
—マーケの現場で生まれたデータマイニング

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人がその本当の面白さを知っているだろうか。この連載では、cakesという新しいプラットフォームに相応しい、最新かつ最も刺激的な統計学の世界を紹介したい。(毎週火・金更新)

 統計学がITとの融合によってその影響力を爆発的に拡大させた、というのはすでに述べたところであるが、その結果生じたのがデータマイニングと呼ばれる研究領域との接触である。

 統計学者が手計算の代替としてITを利用するになったという歴史とは対照的に、データマイニングの技術はITの進歩によって生みだされたものである。そのためなのか、IT分野においては「データマイニング」という単語は「統計学」という言葉よりもずっとよく知られている。私自身「新しい分析用データベースを導入したんだけどどうにかデータマイニングできない?」といった相談は受けても、「どうにか統計解析できない?」という相談をもらったことはない。

 その一方、実際にどのような課題や目的があるのかよく話を聞いてみると、「データマイニング的な手法」よりも、統計学的な手法こそが真に必要だった、ということもしばしばである。

 「回帰分析」という古臭い統計学の教科書に書かれてあった漢字の言葉よりも、「ニューラルネットワーク」という横文字のほうが何だかかかっこいい、という気持ちはわかる。また「人工知能の領域で研究されてきた人間のニューロンをシミュレーションしたものなんです」と説明されば、何かものすごい技術だという気もしてくる。

 だがデータマイニングと統計学の考え方や手法について、どこが違って、どこが共通しているのかがわかれば、今自分に必要な手法はどちらなのかきちんと考えることができるだろう。今回はそのあたりについてお話したい。

意外なほど新しいデータマイニングの歴史

 じつはデータマイニングという分野の起こりがどこにあるか、という話はたいへん難しい質問である。「データマイニング」という言葉自体、1995年にKDD(Knowledge Discovery in Database)の国際会議で「有用でかつ既知でない知識をデータから抽出する自明でない一連の手続き」と採択されるまでは、いろいろな人がいろいろな文脈で使っていたらしい。フィッシャーが「生物統計学の父」であるように、広く「データマイニングの父」と認識されているような人は存在していないようだ。

 なぜこのようなことが起こったのだろうか?

この続きは有料会員登録をすると
読むことができます。
cakes会員の方はここからログイン

1週間無料のお試し購読する

cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。

人気の連載

おすすめ記事

ケイクス

この連載について

初回を読む
統計学が最強の学問である

西内啓

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。 どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたして...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

Tweetがありません