アウトカムと解析単位、すなわち分析における比較軸が定まったら、解析単位ごとのアウトカムの大小を説明してくれるかもしれない、という特徴の候補を可能な限り考える。このような「アウトカムの大小を説明してくれるかもしれない」ものを説明変数と呼ぶ。
多くの未熟な分析者は「自分の頭で仮説を考える」というアプローチを取るが、これはいくつかの理由で非効率的なやり方である。
仮説を考えるとは、例えば「広告接触回数が多いほど来店確率も上昇するのではないか」といった主語と述語を含む命題を考えることだが、これは一つの説明変数(広告接触回数)とアウトカム(来店するかどうか)の関係性だけに注目しているに過ぎない。既に無数の説明変数を含むデータが存在している状況で、わざわざたった一つの説明変数だけに注目する、というのは、何の根拠もなく他の無数の可能性を排除する、というもったいない行為である。
経験に反する関連性を求める
また本来、データ分析において価値のある発見とは、それまで思いつきもしなかった、あるいはこれまでの直感と経験と反するような説明変数とアウトカムの関連性が明らかになるところにある。このような発見は、これまでの業務プロセスを少し改めるだけで大きな利益を生むかもしれないという可能性である。
しかしながら、「思いつきもしなかった」とか「直感に反する」というアイデアを生める人間というのは少ない。そのため、どこかで聞いたような「事例」のマネや、「来店回数と利用金額」という当たり前のようなKPI(重要業績評価指標)の立て方でしか、未熟な分析者たちは物事を考えられないのである。
cakesは定額読み放題のコンテンツ配信サイトです。簡単なお手続きで、サイト内のすべての記事を読むことができます。cakesには他にも以下のような記事があります。