注目の投稿

t検定:対応のある/なしの違いは何か

統計学を専門にされている人にとっては常識であっても,
その他の人たちにとっては意外とスルーして,
且つ,手軽にエクセルや統計解析ソフトが使えるようになった現在,
今更そんな基礎的なことを確認するのも面倒だと思いつつも,
統計処理をする上ではやっぱり知っておいた方がいいことは確かだという認識はある.


実験や調査データを扱う人たちにとって,こういう話は多いものです.

これまで本ブログではニッチなネタを取り上げてきましたが,せっかく閲覧者数も多いので,もっと基本的なところを扱ってみたいと思います.

今回は研究論文でも非常にお世話になる統計手法の一つ,「t検定」について,「対応のある」「対応のない」の違いはどこにあるのかお話します.

なまじエクセルやSPSSなどを使っていると,たんに「対応のある」「対応のない」を使い分けるだけで,その計算方法の違いが分からないままです.

計算方法を知らなくても有意差の有無を判別することができるようになった時代だからこそ,その計算方法の違いを知っておく必要があります.


もっと基本的なことから知りたい人は,
知識ゼロから始めるt検定の使い方・選び方|間違いやすいポイントを確認しておこう
を御覧ください.





例題となるデータを以下に示します.
左側は対応のあるデータ,右側は対応のないデータ.両者とも比較対象となる測定値は同じです.
そして,それぞれ対応のあるt検定と対応のないt検定でp値を算出済みです.

対応のあるデータでは5%水準で有意差あり,対応のないデータは有意差なしになっています.
上記のように,同じ値の2群であっても,対応のある/なしでp値は変わってきます.
それは計算方法が異なるからなのですが,冒頭お話したように,具体的にどのように異なっているのかは案外知られていません.

両者の違いはエクセルの関数や統計パッケージを使っているとスルー出来てしまえるのですが,今回,あえて計算式をエクセル上に展開してみます.
そこから両者の違いを明確に知ることができます.


まず,対応のあるt検定は,2群間における個々の差を算出します.
一方の対応のないt検定では,両者の分散(もしくは標準偏差)さえ分かっていれば算出できるのです.
以下を御覧ください.


対応のあるt検定では,2群間における個々の差を算出し,それらを使って標本分散を算出します.エクセル関数では「VARP」を使って算出できます.

一方,対応のないt検定では,各群の分散もしくは標準偏差を算出します.エクセル関数では分散は「VAR」,標準偏差は「STDEV」で算出できます.


その後はt値の算出になります.
対応のあるt検定であれば,以下のような式から求められます.

すなわち,両群間の平均値の差(差の平均値)を,両群間における差の標本分散を使って計算しているのです.
※なお,「5−1」というのは「n−1」のことです.例のデータではn数は5なので.


一方の,対応のないt検定は以下の通り.

こちらは,両群間の平均値の差を,各群の分散(もしくは標準偏差の2乗)を使って算出しています.
※なお,こちらの式の中にある「5」というのもn数のことです.

両群とも平均値の差を検定していることは同じなのですが,そのなかでも,

対応のあるt検定は2群間に現れた差のバラツキ具合いを検定しているのに対し,
対応のないt検定では両群の測定値のバラツキ具合いを検定しているんです.


ですから,対応のないt検定では両群のn数が異なっていても算出できます.
一方の,対応のあるt検定ではn数が違っていたり,データを並べる順番を間違うと算出できなくなる理由は明白ですね.両群の個々の差を算出し,そのデータを使っているからです.


私が学生の頃の話です.
報告書みたいなものに有意差検定がされていないデータが載っていまして,
「このデータに有意差はあるのかなぁ.でも,統計処理されていないし」
なんて話をミーティングでしていたんですね.

そしたら先生が,
「平均値と標準偏差とn数が分かっているんだから,早く有意性の有無を算出しなさい」
って言うんです.

その頃は,てっきりt検定は個々の全データがなければ算出できないと思っていました.
実際,エクセルやSPSSでは個々のデータを全て入力しなければ自動算出してくれませんから.

「これだけじゃ出来ませんよ(だって,ここには生のデータが無いんだもん)」
って思っていたのですが,実は対応のないt検定なら計算できるんですよね.
標準偏差は2乗すれば分散になるのですから,電卓さえあれば苦もなく算出できるのです.

っていうか,論文などに掲載する研究データとして
「平均値」
「標準偏差」
「n数」
を載せるのは,そのため(読者がt検定できる)だったりします.

パソコンや統計パッケージを使うことが当たり前になってくると,そんな基本的なところをすっ飛ばしてしまうようになります.
注意が必要です.


では最後に,得られたt値から「TDIST」というエクセル関数を使ってp値を出しましょう.
対応のあるt検定では以下のようになります.

t値を選んだあとは,自由度のところに「n−1(5−1)」である「4」を.
尾部には両側検定である「2」を入力します.


対応のないt検定はこちら.

こちらは,t値のあとの自由度は「全n−2」になりますので,「10−2」である「8」を.
尾部は同じく両側検定の「2」を入力します.

以下のように,エクセル関数で算出したものと比較しても,同じp値であることが確認できます.




上記のような話は難しすぎる.
もっと基本的なことから知りたい,という人は,
知識ゼロから始めるt検定の使い方・選び方|間違いやすいポイントを確認しておこう
を御覧ください.



きちんと書籍で統計学を勉強したい人はこちら.

 



大学教員になる方法も紹介しています

大学教員になる方法
大学教員になる方法「強化版」
大学教員になる準備



関連記事
アンケートだけで卒論・修論を乗り切るためのエクセルt検定
卒論・ゼミ論で統計学的有意差が出ない時に読むブログ記事
Excelで多重比較まとめ
ExcelでTukey法による多重比較
ノンパラメトリック検定で多重比較したいとき
ノンパラメトリック版Tukey法による多重比較「Steel-Dwass法」
エクセルExcelでの簡単統計(対応のあるt検定と多重比較)

ちょっとした統計処理上のエクセル小技はこちら
エクセルで相関係数のp値を出す
エクセル散布図で相関関係・相関係数を確認する便利な方法
エクセルで大量のデータを等分割して統計処理したいとき
エクセルで大量のデータを処理したいとき
エクセルだけで統計処理する卒論・ゼミ論用アンケート調査のオススメ方法 part1
点数・得点を段階評価するためのエクセルシートの作成

その他,こういう怪しいブログ記事よりも,ちゃんと勉強になる書籍もご紹介しておきます.
詳しくは,
独学で統計処理作業をスキルアップさせるための本
を御覧ください.

外部サイトにも有益なリストがあります.こちらも参考にしてください.
大学生が自力で「統計学」の勉強をするための良書10選
1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ

コメント