2011年8月28日日曜日

エクセルExcelでの簡単統計(対応のあるt検定と多重比較)

今回は対応のあるt検定の場合を解説します.
対応のあるt検定というのは,同じ集団から得られたデータを比較したい場合に用いるt検定です.
「対応のある」 というのは,同じ集団という意味として捉えてもらえればいいかと思います.



前回の記事ではA群とB群を比較していましたが,あれは例えばA群はサッカー選手,B群は野球選手から得られたデータ,といったように異なる集団を比較する場合です.
今回は,A群とB群が同じ集団である場合として状況設定します.
なので,IDの部分をA群とB群で一緒にしてあります.
画像をクリックすると大きく表示されますので,お手数ですがお願いします.

前回の対応のないt検定ではF検定による等分散性の確認をしましたが,今回のような対応のあるt検定の場合は不要だと言われています.
なのでいきなりt検定の関数を放り込みましょう.

=TTEST(C3:C7,C15:C19,2,1)

前回の対応のないt検定の関数と大きく違うのは最後の数値の部分です.
一番最後の数値の部分,今回は1ですが,前回は2と3でした.
対応のあるt検定をしたい場合は一番最後の数値を1にします.

1番じゃなきゃダメなんですか?2番じゃダメなんですか?と聞かれたら,1番じゃなきゃダメですと答えましょう.

確定したらこうなります.
そして前回と同じようにオートフィルをします.
すると上下の組み合わせで全てのt検定が一気に完了です.

・・・・・・,
どうやら,どこにも有意性が認められませんでしたね.
なんか寂しいですけど,まぁ,いいでしょう.

対応のあるデータのリストをつくる上で重要なことは,「A群とB群のデータの行の順番を一緒にする」 ということです.
これはめちゃくちゃ重要なことで,適当にする学生がけっこう多いので気をつけましょう.
私も 「有意性があるはず」 という感触を持っていたデータから有意性が認められず,よくよく確認してみたら,被験者の順番をバラバラに入力していた,という経験があります.

例えば,B群のD氏(18行目)とE氏(19行目)を入れ替えてみます.
すると,
というように,t検定の値が変わってきてしまいます.
本来なら有意性が認められなかったF列の 「測定X1回」 が有意になりました.

同じデータの比較だから大丈夫,というわけではないのです.
ここは非常に気をつけなければいけないポイントです.


では今度は上半分のA群のデータだけで対応のあるt検定をしてみます.
これもよくある典型的な検定作業です.

まずは「測定X1回」 ~H列の 「測定X3回」 をそれぞれ検定してみましょう.
F列11行目のところに,以下のt検定の関数をいれていきます.

=TTEST(F3:F7,G3:G7,2,1)

で,確定したらこうなります.っていうのは省略します.
オートフィルを駆使しながらでもいいのですが,こんな感じでとにかく
1.「F列とG列」
2.「F列とH列」
3.「G列とH列」
をそれぞれ参照しながら検定していきます.

わかりやすいように,どことどこを比較したのか書いておきました.

ということで,検定結果の解釈としては,
“測定Xについては,2回目と3回目は1回目の測定値よりも有意に小さい値になった.しかし,2回目と3回目の測定値には有意な差は認められなかった”
ということになります.

と,ここで統計処理をかじってきた大学院生なんかから
「でも,t検定は2群までの検定にしか使えなくて,3群以上は分散分析をした後に多重比較検定をしなければいけないのでは?Excelでは多重比較検定できないでしょ?」
という声が聞こえてきそうです.

はい,そうです.

なので分散分析多重比較をやりましょう.
まずは分散分析

※後日,ノンパラメトリック検定版の「分散分析」をエクセルでできるように,
クラスカル・ウォリスの検定をエクセルでやる
フリードマンの検定をエクセルでなんとかする
で取り上げましたので,ご参照ください.


実はExcelは分散分析ができます.
でも,アドインという作業をして 「分析ツール」 なるものを利用可能な状態にしなければいけません.
Excelを特にいじっていなければ,初期状態では「分析ツール」は利用できませんので.
そのアドインの方法についてはググッてください.
Excel2000~Excel2010のいずれのバージョンでも利用可能なはずです.

ここではExcel2007の画面で説明します.
Excel2007では「データ」タブを選択したところにある「データ分析」をクリックしたら,以下のような画面が出てきます.
この中の「分散分析:一元配置」を選択してOKをクリック.
その後,以下のような画面が出てきますので,「入力範囲」のところをクリックして,
以下のような画面を出し,[ F:3,H:7 ] を参照します.
さっきの画面に戻りますので,あとは選択項目を確認.
例のようなデータのリストであれば,データ方向を 「列」 にします.
出力オプションは 「新規ワークシート」 を選択しとくのがわずらわしくなくて便利かと思います.
そしてOKボタンをクリックします.
すると,以下のような新規ワークシートができて,そこに分散分析の結果が出力されます.
とりあえず見なきゃいけないところは,F列12行目のP値を示したところ.
ここが0.05以下の数値であれば,いわゆる分散分析で有意性が認められたということです.
例の中であれば0.003637と示されていますね.有意です.

えっ?,等分散性の検定ですか?
まぁ,なかったことにしましょう.そんなに気にしなくてもいいと思います.標準偏差をつつみ隠さず出しておけば大丈夫.
どうしても,っていうなら計算方法を勉強するかSPSSを購入してください.


では次に多重比較ですね.
対応のあるt検定で算出したP値を使って計算します.
以下の式をF列12行目に入力しましょう.

=F11*3
あとはこれをオートフィルで...,
えっ?,多重比較がそんなに簡単なわけないだろっ!って?

いえ,これでいいんです.
実はこれがボンフェローニ(Bonferroni)の方法と呼ばれる多重比較検定です.
SPSSにもはいっています.
ということで,多重比較検定をしてみても解釈自体はt検定だけでみた時と違いはありませんでした.
よかった,よかった.

論文とかには,
“多重比較にはボンフェローニの方法を用いた” とか “ボンフェローニの補正を行なった”
などと記述します.


ところで,掛け算している3という数字は適当に決めてるわけではありません.

3群による多重比較ですので,組み合わせが3通りあります.
その組み合わせの数なのです.
もし例にある 「測定Y」であれば,4群ですので6通りですから,6をかけます.


ボンフェローニの方法は,t検定で出てきたP値に,組み合わせ数を掛け算するだけなので,Excelでも簡単に利用できます.

ですが,ボンフェローニの方法で注意したいところは,3群までの多重比較しか活用できない可能性があることです.
4群以上になったら6,5群だと10をかけなければいけません.
t検定によるP値がよほど小さい値でなければ,有意性が出にくくなるのです.
まぁ,“有意性がないことを証明したい” のであれば,そういう利用価値はあるかもしれません
でも,恣意的だと思われないよう注意しましょう.
※このボンフェローニの方法の解釈はまだまだ複雑なので,また別の機会に記事にするかもしれません.

4群以上になってくるとテューキーHSD(Tukey HSD)といった多重比較のほうが有意性が出やすくなります.
これを利用するにはSPSSを購入するか,算出手順を本やネットで調べてきて地道に計算することです.
※後日,こんな怪しいブログよりも信頼性が高いものに触れてもらうよう,
独学で統計処理作業をスキルアップさせるための本
という記事を書きました.参照してください.

※後日,その他(ボンフェローニより甘め)の多重比較方法を掲載しましたので,
Excelで多重比較まとめ
ExcelでTukey法による多重比較
繰り返し数(N数)が異なる群を,Excelを使ってTukey法で多重比較する
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
Steel-Dwass法をExcelで計算する方法について,もう少し詳細に
をご覧ください.


あと,対応のあるt検定に相当するノンパラメトリック検定である
という記事も載せました.ご参照ください.

統計的有意にこだわらないのであれば,
効果量(SE:effect size)をエクセルで算出する
がオススメです.

ところで,途中でアドインした 「分析ツール」 ですが,分散分析以外にもいろいろな統計処理が利用できます.
t検定も 「分析ツール」 から利用できます.
ただ,今回紹介しているような方法とは違い,一気にバーっと処理することはできません.
コツコツ処理していく感じです.

どちらがいいかは,好みと残された作業時間の問題です.

次回はExcelで相関をとってみようと思います.


とりあえず,いそぎ手計算で多重比較をしたい方は,以下の2冊がオススメです.