2011年8月30日火曜日

相関係数の差を検定したいとき(エクセルでできる方法)

下の図をご覧ください.
AとBどちらの図の相関係数が高いと思いますか?
当たり前ですが,Aの方です.


相関係数はそれぞれ,
Aは「 0.791 」
Bは「 0.423 」
です.
※いずれも四捨五入している.


よくある統計分析中の苦労話として,
t検定や分散分析などで平均値の比較をやったんだけど,なかなか有意性が見られない.ってんで,それでもなんとか実験結果に統計学的な有意差が欲しいから行き着いたのが 「相関係数に差があるか?」 というものです.

卒論のデータを分析している多くの学生,あと院生もたまにこの 「相関係数の差を検定できないか?」 を聞いてきます.


例えば,給料の額と幸福感の相関関係を調べたとしましょう.
例に出したAの方は女性グループ,Bは男性グループだとします.

男女別に給料と幸福感の間に「相関関係があるのか?」を分析したら,上記のような相関係数がでました.

どちらもN数(調査対象者数)は26名でした.
そんなわけで,前回の記事で紹介したように相関係数の有意性を求めたら,どちらも有意な相関があると認められることになります.
N数が26の場合は0.388以上の相関係数があれば有意だからです.

ということは,“男女ともに給料と幸福感の間には有意な相関がある” ということになっちゃって,結果が面白くなくなってしまいます.

それに,Bの男性は有意とはいえ,散布図としてみるとAの女性よりも相関関係が弱いように見えるじゃないですか.
ここで引き下がるのは悔しいものです.

こんなとき,相関係数の差の検定をやってみましょう.

2011年現在,相関係数の差の検定ができる統計ソフトは見当たりません.ちゃんと探せばあるのかもしれませんが,詳しく確認していません.
でも,そんなに難しい操作はせずともExcelで計算できますので,それを紹介します.


※ここで紹介しているのは,対応のないデータ同士による相関係数の差の検定方法です.
後日,対応のあるデータによる相関係数の差の検定,
対応のある相関係数の差の検定
および,基準値みたいな相関係数との差を検定する方法
基準となる相関係数との差の検定
こちらもご参考にしてください.


下の図をご覧ください.例に出していたAとBの相関係数の差を検定してみました.その結果も出ています.
C列8行目のところにP値を示しています.
p=0.034697ということで,A(女性)とB(男性)の相関係数には5%水準で有意な差が認められました.
これで胸を張って “給料と幸福感の相関関係は,女性のほうが男性よりも有意に強い” と言えるのです.

では,このExcelのシートはどのような仕組みになっているか少しずつ解説します.
このファイルを一つ作っておけば,何かの時に役に立つやもしれません.

まず,水色のセルはただの参照元セルですので,特に何かがあるわけではありません.
正直にN数(調査対象者数)と相関係数を入力するところとして用意しています.


なんでそんな関数とか式を入れるのか理由は後回しにして,その他のセルの中身を示します.
E列3行目,ここではグループAのZ値を求めています.式は以下のとおり.
「Z値って何?」っていうのはこのブログでは割愛します.別に勉強してください.

=(1/2*LN((1+D3)/(1-D3)))


次にE列4行目,グループBのZ値.

=(1/2*LN((1+D4)/(1-D4)))


次は,C列6行目のZ値.
ちょっとカッコがごちゃごちゃして見にくいですけど,がんばって入力してください.

=ABS((E3-E4)/SQRT(((1/(C3-3))+1/(C4-3))))


最後にC列8行目のP値を求める式です.

=2-(NORMSDIST(C6))*2

これで完成です.
あとは水色のセルに比較したい群やグループのN数と相関係数を入力すれば,赤色の部分にP値が自動的に算出されるようになります.


一応,相関係数の差の検定の式がどういう意味なのか説明しておきます.

まず,図中にある表の右端E列の「Z」というところは,グループAとBの相関係数をZ変換したものです.
こうすることで,正規分布に近似させることができましたので,両者を比較できるようになるのです.
意味不明かもしれませんが,あと少しなので聞いてください.

んで,この両者の比較をしているのが 「 Z= 」 の右隣にあるC列6行目のセルです.
まぁ,こういう式で比較するんだそうです.

最後に,そのZの値が有意かどうかを計算してP値を出しているのがC列8行目.
「NORMSDIST」 という関数を使うことで,なんとかなります.
なんで2から引き算したり2を掛け算しているのか?は説明が面倒なので省きます.


次回は,もう一度t検定について取り上げます.
「標本集団と母集団の平均値の比較」 というt検定ですが,意外とその存在が知られていません.
私自身もこのt検定はあんまり使ったことがないんですけど,けっこう用途が広いt検定です.頭の片隅に置いとくのもいいでしょう.
それをExcelで計算する方法をご紹介します.


※そもそも,相関係数のp値をエクセルで求めたいという場合,
エクセルで相関係数のp値を出す

※信頼性係数として算出したい場合,
信頼性係数をエクセルで算出する

参考文献:Jerry R. Thomas, Jack K. Nelson 著 田中喜代次・西嶋尚彦(訳) 『身体活動科学における研究方法』,池田央 著『統計ガイドブック』

※後日,こんな怪しいブログよりも信頼性が高いものに触れてもらうよう,
独学で統計処理作業をスキルアップさせるための本
という記事を書きました.参照してください.