質問紙法:質問項目間の検定の多重性の問題

質問紙法と代表値の検定

質問紙法はいわゆる「アンケート」と呼ばれる調査手法ですが,調査対象者の内面を明らかにする心理学的手法の一つとしてメジャーな手法ですね.教育心理学や学習科学では,刺激に対する心理的反応を測定する方法としてよく用いられます.研究においては,研究対象とする母集団全員からデータを収集できない場合,適切な方法でサンプリングした標本集団から得られたデータを用い,統計的検定を行って自らの主張の妥当性を示す,というプロセスを踏むことになります.大抵の場合,母集団全員からデータを取得することはできないので,統計処理が必要になる場面が多いでしょう.

検定の多重性

統計的検定には,(少なくとも)2種類の過誤を生じる危険性があります.第一種の過誤と第二種の過誤です(詳しくはWikipediaの第一種過誤と第二種過誤を参照).第一種の過誤は,いわゆる偽陽性で,有意な差がないのに差があるとしてしまう誤り,第二種の過誤はいわゆる偽陰性で,有意な差があるのに検出できない誤り.

シンプルな例について考えてみます.比較したい群が,ある処置を行った実験群Aと統制群Bしかなく,両群から質問紙を回収することができ,それぞれの群の平均値をt検定で比較できる条件が整っているとします.この場合,研究者が有意水準αを5%と設定した場合には,第一種の過誤が起きる確率は5%です.例えば,ある質問項目について,A群の平均値がB群よりも高く,有意差が検出されたとしても,5%の確率でその結果は誤っている可能性があるということですね.

次に,対象となる群が3群以上で,それぞれの群間の違いを検定する場合を考えます.処置Aを行った群A,処置Bを行った群B,統制群Cの3群において群間の差異を確かめたい場合,検定を行う組み合わせはA-B,B-C,C-Aの3通りです.ここで,全ての組み合わせについてt検定を行ってしまうと,検定の多重性の問題が生じます.それぞれの検定において第一種の過誤が起きる確率は5%でも,どこか一つの組み合わせで第一種の過誤が起きる確率は,下式のようになるからです.

どこか一つの組み合わせで第一種の過誤が起きる確率 = 1 – ( 1 – 0.05 )3 = 0.143

となり,一連の検定全体での第一種の過誤が起きる確率が14%に増加してしまいます.それぞれの検定が正しい確率は95%で,すべての検定が正しい確率は95%の3乗,それを1から引いた値が,3回の検定のどこかで第一種の過誤が起きる確率です.この一連の検定で第一種の過誤が起こる確率をFamilywise Error Rate(FWER)といい,危険域を5%と定めたならば,FWERを5%に収めるような統計手法を用いなければいけません.上述のような場合には,多重比較法を用いて全体でのFWERを統制します.

質問項目間の検定の多重性

しかし,検定の多重性の問題が生じるのは,実は前述のようなケースだけではありません.複数の帰無仮説について検定を同時に行う場合にも生じます.

仮に有意水準を0.5 として,複数の帰無仮説を一連の実験過程で同時に検定する場合,それぞれの帰無仮説が誤って棄却される確率は5%ですが,m個の帰無仮説の一つでも誤って棄却される確率は,

1 – ( 1 – α )m

になります.ここで注意すべきは,群の数が問題なのではなく,帰無仮説の数が問題だということです.多群に対して同時に検定を行うということは,同時に多数の帰無仮説を同時に棄却しようとしているということを意味します.

例えば,下記で議論されているようなケースです.
多項目を検定する場合の多重性について(群馬大学青木先生の「統計学関連なんでもあり」掲示板)

では,質問紙の場合について考えてみます.質問項目ごとに検定を繰り返すことは,「複数の帰無仮説について検定を同時に行う場合」には該当しないのでしょうか?

例えば,一群が10項目からなる質問紙に,実験群Aと統制群Bの2群が回答する場合を考えます.一見,10項目それぞれの項目について検定をしても(このケースだと,A-Bのペアで10回検定をする)多重性は生じないように思えます.

しかし,例えば,それぞれを5%の危険率で検定している場合,10回の検定を通して,どれか一つでも第一種の過誤を生じている確率FWERは,

FWER = 1 – (1 – 0.05)10 = 0.40

となります.ここでは,10回の一連の検定を,つまり一連の質問紙の項目全体をFamilyと捉えています.

Familyをどう捉えるかについては,議論の余地があるようで,今回の例でいえば,「2群間で差がある」という一連の過程を一つのFamilyと捉え,その中で10回の検定をしていると考えていますが,これは不自然なことではありません.Familyについての考え方は,Shaffer(1995)が参考になります.

Shaffer JP. Multiple Hypothesis Testing. Annual Review of Psychology. 1995;46(1):561-584.

この問題を直感的に捉えるなら,極端な例を考えてみると良いと思います.同じ有意水準を用い,同じ被験者を相手に質問紙調査をしたとします.

  • 200項目からなる質問紙の3項目で有意差が検出された
  • 10項目からなる質問紙の3項目で有意差が検出された

上記の二つのケースで,有意差が検出されたことを同等に扱って良いでしょうか?項目数を無限に増やすことができるなら,有意差が検出される項目が(正しくにしろ過誤にしろ)増加するのは当然ではないでしょうか?

日本では,質問紙の項目間の検定の多重性については目をつぶっているのか,気づいていないのかよくわかりませんが,あまり問題にされないようです.しかし,下記の論文がこの問題について論じていますので参考になります.

水本篤. 複数の項目やテストにおける検定の多重性 : モンテカルロ・シミュレーションによる検証. Language education & technology. 2009;(46):1-19.

では,多重性を回避して全体での有意水準をαに保つにはどうすれば良いでしょうか?もっとも単純な方法は,Bonferroni法による補正です.この方法では,調整した有意水準を α/m (m:帰無仮説の数 = 検定回数)とします.例えば,全体での有意水準を5%とし,10回検定を行う場合は,それぞれの検定での有意水準を0.5%として検定を行います.

第二種の過誤とのジレンマ

さて,ここですっかり放っておいた第二種の過誤について考えます.第二種の過誤とは,本当は有意差があるのに,それを検出できない誤りのことでした.この過誤は,検出の閾値を厳しくすればするほど,つまり有意水準の値を小さくすればするほど起こる可能性が高まります.

質問紙の場合,多数の質問項目を含むことがあります.例えば20項目からなる質問紙で,全体としての有意水準を5%として項目間の検定の多重性を考慮する場合,Bonferroni補正を行った各検定での有意水準は 0.05 / 20 = 0.0025 となります.検定の多重性を考慮して補正をした結果,非常に検出力が下がってしまうのです.つまり,第一種の過誤を気にするあまり,検出されるべき有意差を検出できない,第二種の過誤が起こる確率を引き上げてしまっている可能性があります.Bonferroniは非常に保守的な方法で,項目数が増えると検出力が反比例して下がってしまいます.ただし,Bonferroniに代わる有効な方法は,今のところないようです.

まとめ

実際の研究で質問紙を用いる場合にはどうするべきでしょうか?結局これという明確な答えはなく,自分の学問領域や所属学会の慣習に従う,ということになるのかと思います.

ただ忘れてはいけないのは,特に理由もなく質問項目を増やすことは避けるべきであり,必要最低限かつ十分な質問項目を用意するように努力しなければならないということですね.