データ分析をしていると、
・広告費を増やすと売上は増えるのか?
・価格と販売数には関係があるのか?
など、「2つのデータに関係があるのか」を知りたくなることがあります。
そんなときに使われる分析方法が 相関分析(相関係数) です。
相関分析を使うことで、
・データ同士の関係性
・関係の強さ
を数値で確認することができます。
この記事では、Excelを使った相関分析の方法について
・相関係数の意味
・CORREL関数の使い方
・データ分析ツールでの相関分析
・分析時の注意点
を初心者向けにわかりやすく解説します。
相関分析・相関係数とは?
相関分析とは、
2つのデータにどれくらい関係があるかを数値で表す方法
で、その数値を相関係数と言います。
相関係数の3パターンを理解する(ここが重要)
相関係数は、−1〜1 の範囲で表されます。
| 相関係数 | 意味 |
|---|---|
| 1に近い | 強い正の相関(片方が増えるともう一方も増える) |
| −1に近い | 強い負の相関(片方が増えるともう一方は減る) |
| 0に近い | ほぼ関係なし |
■正の相関(同じ方向に動く)
正の相関とは、片方が増えると、もう片方も増える関係のことです。
例えば、以下表の広告費と売上で確認すると、相関係数は1.00と表示されます。
つまり、以下表の結果からであれば、広告費を増やす=売り上げが増えるという強い正の関係性があることが確認できます。

■負の相関(逆方向に動く)
負の相関とは、片方が増えると、もう片方は減るという逆の関係を示すことです。
例えば、以下表の価格と販売数量で確認すると、相関係数は-0.99と表示されます。
つまり、以下表の結果からであれば、価格を上げる=販売数が減るという強い負の関係性があることが確認できます。

■相関がないケース(0に近い)
片方が増減しても、もう片方には関係がないケースもあります。
例えば、以下表の社員番号と売上で確認すると、相関係数は-0.09と表示されます。
社員番号は単なる識別情報なので、数値だとしても売上との論理的な関係はありません。
以下表の結果からも分かる通り、関係性がない=0に近い相関係数が確認できます。

相関係数はいくつから「強い」と言える?
相関係数がどのくらいの強さなのか、一般的な目安を表にしてみました。
| 相関係数 | 強さの目安 |
|---|---|
| 【正】0.7~1.0 / 【負】-1.0~-0.7 | 強い正(負)の相関がある |
| 【正】0.4~0.7 / 【負】-0.7~-0.4 | やや正(負)の相関がある |
| 【正】0.2~0.4 / 【負】-0.4~-0.2 | 弱い正(負)の相関がある |
| -0.2~0.2 | ほぼ相関なし |
ただし、これは絶対基準ではありません。
データ数や業界特性によっても変わりますので、参考値としてご覧ください。
では実際にどうしたら相関係数を計算できるのか、具体的なやり方を紹介していきます。
Excelで相関分析・相関係数を算出する方法
Excelで相関係数を計算する方法は、主に2種類あります。
★Excelで相関分析をする方法
・CORREL関数を使う
・データ分析ツールの「相関」を使う
それぞれどのように使用したらよいか、図解で分かりやすく解説していきます。
方法①:CORREL関数を使う(もっとも簡単)
CORREL関数は、指定した2つのセル範囲の相関係数を返します。
相関係数とは、簡単に言うと2つのデータがどのくらい一緒に動くかを表す数字です。
例えば、広告費を増やすと売上も増える傾向があるとします。
この場合、広告費と売上は「関係がある」と言えそうですよね。
相関係数は、この関係性を数字で表したものになります。
CORREL関数の構文は以下の通りです。
=CORREL(配列1,配列2)では実際に、以下サンプルデータにて使い方を解説します。
例として、広告費と売上のデータを用意しました。

この広告費と売上に関係があるかを調べる場合、セルに次の数式を入力します。
=CORREL(B5:B16,C5:C16)
この場合、結果としては約0.92となります。
かなり強い正の相関があることが確認できます。

つまり、このデータからは
広告費が増えると売上も増える傾向が強い
ということができます。
方法②:データ分析ツールを使う
2つ目の方法は、エクセルのデータ分析ツールを使用する方法です。
「データ」タブにある、「データ分析」を使用して相関係数を計算します。
では実際に、以下サンプルデータにて使い方を解説します。
例として、広告費・売上・来店数のデータを用意しました。

1.「データ」タブより、「データ分析」を選択

2.「相関」を選択し、「OK」を押下

3.「入力元」と「出力オプション」を設定し、「OK」を押下
今回のデータでは以下のように設定しました。

3-1.「入力範囲」は、数値のみの範囲を選択する
※但し、「先頭行をラベルとして使用」にチェックを入れることで、先頭行を範囲に含めることが可能
基本的には、数値以外が範囲に含まれてしまうと、「相関入力範囲に数値以外のデータがあります。」とエラーメッセージが表示され、計算することができません。
そのため、A列の項目名は範囲に含めないようにします。
しかし、項目名がないと何と何の相関が分からなくなってしまいます。
その場合は先頭行も範囲に含め、「先頭行をラベルとして使用」にチェックを入れることで、エラーが発生せず、項目名を表示させて計算することができます。
3-2.「データ方向」は、基本的には「列」にチェックを入れる
今回のように、基本的には縦方向(列)にデータが並んでいることが多いと思います。
デフォルトでは「列」にチェックが入っている状態ですので、そのままの設定で大丈夫です。
逆に、データが横方向(行)並んでいるばあいは、「行」をチェックしてください。
以上をまとめると、以下の通りになります。

これらを設定して実行した場合、以下のようにすべての組み合わせでの相関係数が表示されます。

上記表の見方は以下の通りです
①売上と広告費の関係性 :約0.92
②来店数と広告費の関係性:約0.90
③来店数と売上の関係性 :約0.87
いずれも強い相関関係があることが確認できます。
上のデータでは、①>②>③の順に強い相関関係があることが分かります。
このように、複数列をまとめて分析したい場合は、分析ツールが非常に便利です。
「分析ツール」が見つからない場合(追加方法)
「データ分析がどこにも見当たらない」
という場合、アドインから有効化することで表示させることができます。
1.「ファイル」から「オプション」を選択

2.「アドイン」から「設定」を選択

3.「分析ツール」にチェックを入れ、「OK」を選択

これで設定すると、「データ」タブの右側に「データ分析」が表示されます。

CORREL関数とデータ分析の違い
CORREL関数とデータ分析の違いは以下の通りです。
★CORREL関数とデータ分析の違い
・CORREL関数 → 2つのデータの相関係数を計算する関数
・データ分析 → 複数のデータの相関をまとめて計算する機能
つまり、
・「売上」×「広告費」など、1つの関係性だけ確認したい → CORREL関数
・「売上」×「広告費」×「来店数」など、多くの指標をまとめて分析したい → データ分析
と、状況に応じて使い分けすることがベターです。
相関分析を行う上での注意点
相関分析をすることで、データの関係性が数値化できるのが魅力的なポイントです。
しかし、相関分析を行う上での注意点もあります。
ここでは主な注意点・考え方を紹介します。
相関分析をする前にデータを整える
相関分析は便利な分析手法ですが、データの準備ができていないと正しい結果になりません。
ここでは、相関分析を行う前に確認しておきたいポイントを紹介します。
★相関分析を行う前のチェックポイント
・データを「列ごと」に整理する
・数値データだけにする
・データ数をある程度そろえる
・同じ単位/期間のデータを使う
■データを「列ごと」に整理する
→相関分析では、1つの項目を1列にまとめておく必要があります。
ポイントとしては、
・列:指標(ex:売上、広告費など)
・行:同じタイミングのデータ(ex:月、週など)
と、データをキレイに整えておくことです。
■数値データだけにする
→相関分析は数値同士の関係を分析するため、文字データが混ざっていると正しく計算することができません。
・数値が文字列化していないか確認する
・不明なデータは削除する
など、相関係数がしっかり算出できるようにデータをクリーニングしておきましょう。
■データ数をある程度そろえる
→データ量が2件など、そもそも少なければ相関係数として信頼性が低くなります。
分析する内容にもよるので、一概に何件必要かと断言することはできませんが、可能な限りデータ量をそろえることで、分析結果の信頼性を高めることができます。
■同じ単位/期間のデータを使う
→相関分析では、同じ条件のデータを使うことが重要です。
・同じ期間のデータであるか
・同じ単位を使っているか
など、データをそろえることで正しい相関係数を求めることができます。
相関があっても「原因」とは限らないケースもある
ここが非常に重要です。
相関が高い=原因とは限らないケースもあります。
例えば、
・アイスの売上と水難事故件数は相関が高い
としたとしても、
・アイスが水難事故を起こしている
とは言い切れませんよね。
この場合、共通の要因は「気温」になります。
(気温が上がると海や川で遊ぶ人が増える=水難事故の可能性が上がる)
(気温が上がると、暑いからアイスを食べる人が増える)
これを第三の要因と言います。
相関は、
・関係の強さを測るもの
であって、
・原因を断定するものではない
という点が、データ分析においては必ず押さえておきたい注意点となります。
相関がない=関係がない、とは限らない
逆に相関がない=関係がない、と言い切れないケースもあります。
なぜなら相関は「直線的な関係」しか測ることができないためです。
例えば、
・価格が安すぎても売れない
・高すぎても売れない
・中間価格で最大になる
このような「曲線的な関係」は、相関係数ではうまく表せません。
例として、表とグラフを作成してみました。
以下では中間価格で最大の販売数になり、そこから離れる価格になるにつれ販売数が落ちるケースのデータになります。
ご覧の通り、相関係数は-0.16とほぼ相関がないものとなっていますが、グラフでみると関係性がありそうですよね。

このように相関係数が低くても、実は関係が存在しているケースもあります。
分析するときは様々な角度からチェックするよう注意してください。
相関分析は「直線的な関係(線形関係)」を調べる分析です。
そのため、データが曲線のような動きをする場合、相関係数が小さく出てしまうことがあります。
このような場合は、
・散布図でデータの形を確認する
・回帰分析(回帰モデル)を使う
といった方法で関係を分析することができます。
散布図や回帰分析については、別の記事で今後詳しく解説する予定です。
まとめ
相関分析には、以下の特徴があります。
★相関分析の特徴
・「関係ありそう」を数字で示す方法
・-1~1の相関係数で、関係性の強さを判断する
・正の相関/負の相関/相関がないパターンがある
・原因までは分からない
・曲線的な関係性をうまく表現することができない
まずは相関分析でデータ同士の直線的な関係を確認する。
そして次のステップで回帰分析へ進む。
これが、データ分析の基本的な流れです。
Excelには他にも便利な分析機能がある
Excelには相関分析のほかにも、データ分析に役立つ機能があります。
例えば、
・目標の数値から必要な値を逆算する ゴールシーク
・条件の中で最適な解を求める ソルバー
などです。
これらを活用することで、Excelでもより高度な分析を行うことができます。
👉詳しくは以下の記事で解説しています。
データ分析は奥が深い世界です。
状況に応じた分析方法を活用してみてください。
最後まで読んでいただき、ありがとうございました。



コメント