そもそも「データ分析」とは何か?

Summary

マーケティング、特にデジタルマーケティングの世界で「データ分析」という言葉を聞かない日は無くなりました。

しかし、そもそも「データ分析」とは何か?
いまだに遠い存在に感じている人も、その本質を捉えられていない人も多いように感じます。

分析=比較

データ分析の正体は、一言でいうと「比較すること」です。

「データ分析」と聞くと、データを集めてグラフを作ったり、〇〇値を出したり、多様(で複雑)なアウトプットがあって何をしているのかよくわからないと感じる人も多いのではないでしょうか。

しかし、いずれにしろ、「平均からの差」であったり、「期間での差」、「カテゴリ別の平均値」など、アウトプットの形式(表・グラフ・など)に違いはあれど、全て「比較すること」をゴールとしています。

 これは機械学習・深層学習などを含めても同様です。分析手法自体の難易度は変化しても、「比較」することでデータのもつ特徴を見つけ出し、理解しやすい形に可視化(セマンティックなデータに変換)していく手法と言うことができます。

そもそも人間は「差分」によって事象を認識するため、「比較」できないデータは解釈・理解することがとても難しく、かつ客観性を欠いたものとなってしまいます。

例えば、以下の文章を「比較」の形式に変換すると、

・平均年齢は49.9歳である
・気温は29度である

・全国の平均年齢よりも1.3歳高い
・一年前の今日より気温は3.2度高い

となります。

かなり単純な例ですが、もっている情報量・そして解釈できる幅が大きく広がったことがわかると思います。

なにと比較するか

さて、比較と一言でいっても、実は非常に奥が深いです。
何と比較するかによって解釈結果が大きく変わってくるからです。

例えば、「2022/6/15の渋谷区の気温は27度だった」ことは、

・一ヶ月前の渋谷区と比較すると2.6度高い
・新宿区と比較すると1.2度低い
・東京都と比較すると0.6度高い
・全国平均と比較すると0.2度低い

といった具合に、比較軸によって異なる結果を導きだしてしまいます。(上記数値は仮です)

これだけでも中々扱いづらさがありますが、「◯度以上の区域を除外条件」「経度◯度内」など、条件を付与することによって比較方法(比較軸)は多様に作り出すことができてしまいます。

 少々脱線しますが、データ分析が各種経営活動に広く取り入れられるようなった結果、「データ分析をしたが無駄に終わった」という話がたびたび聞かれるようになりました。

この理由は、「比較軸が間違っていた」場合が多いです。

日本の平均気温が年々上昇していることを知りたいときに、
・渋谷区の平均気温は新宿区と比較すると2.6度高い
ことがわかったところで、この文脈では何の意味ももちませんし、解釈・意思決定につなげることもできません。

簡単な例ですが、(上記と根本的には全く同じ問題が、)さまざまなデータ分析プロジェクトで起こりがちです。

目的に応じて、妥当性があり、かつ比較によって有益な情報の得られる軸を設定することが必要です。

 

さて、
「データ分析は比較することである」「何と比較するかが重要である」ことを述べてきました。

データ分析については、理論や手法といった形式知を学ぶことはある程度簡単にできるようになりましたが、一方、その土台となる考え方や姿勢は意外と学ぶことが難しいものです。

データ分析の暗黙知となってしまいがちな側面をシリーズとして引き続き解説していきたいと思います。

Contact