2013年12月4日水曜日

Welch検定が主流,単純t検定やANOVAは時代遅れ:Statwingの話題から


2016年7月26日追記

エクセル統計には,正規性も等分散性も仮定しない Brunner-Munzel 検定 が装備されている。その解説には,「マン=ホイットニーの U 検定と異なり、2標本の等分散性を仮定せず」と明確に書いてある。後述するように, U 検定も等分散を仮定することに注意が必要である。なおエクセル統計は, Microsoft の Excel と混同されるが,英語名は Ekuseru-Toukei である。

2015年5月24日に福岡市で開催された日本臨床工学会の市民公開講座で,倉持龍彦氏が, EZR で統計解析を実践しよう」と題して,EZR の利用法だけでなく,正規分布か否か,等分散か否か,などに分けて,適用される統計学的検定法を紹介した。私も,この資料作りに協力,助言した。ここでも Brunner-Munzel 検定が取り上げられた。

**********

t 検定や分散分析,さらにはノンパラメトリック検定の興味深い話題に,脇道にそれながら触れていく。

2 群(2 標本),あるいは,3 群(3 標本)以上の平均値の差を検定する際に,まず,分散が等しいかどうか(一様であるかどうか)調べて,それから検定法を選択するというのは,多重検定に相当する,というのを次のページに書いた。

そこでは,特に,t検定を例として取り上げ,以下のような対処法が妥当であることを指摘した。

  1. 等分散かどうか検定せず, Welch 検定だけを実施する。
  2. 従来どおり,等分散かどうか検定し,その結果によって,検定法を選択する。ただし,これは多重検定なので,例えば,Bonferroni(ボンフェローニ)法などによって,p値を修正する。

ところが前述の問題点ページにも書いたが,どうやら前者,つまり, Welch 検定だけを実施するのが最近の主流となっているようなのである。

昨年開発され,話題になりつつある統計解析ツール Statwing でもデフォルトで, Welch’s t-test
Welch’s F test ANOVA を実行するのである。

そのリンク先を読むと分かるが,もう細かい説明など抜きで,この方法で計算しろ,という感じである。説明の途中からは,正確にはWelch検定というべきなのだが,単に, t-test あるいは ANOVA としか書かれていないのである。

こうなると,大学などで教える統計学の授業や教科書でも,デフォルト?で,この問題を扱うべきだが,前述の多重検定解説ページにも書いたとおり,少なくとも大学授業関連のウェブページでは,そのような傾向になってないようである。

主流となりつつある検定法が,まだ,大学における一般学生相手の講義では,非主流なのかもしれない。

放送大学の統計学の授業でも,例えば,社会統計学入門('12)では,この問題に触れてなかったような気がする。私自身が放送大学の教員でもなく,学生でもないので,確かなことは言えないが,テレビで見た限り,この“等分散問題”は強調されていなかったと思う。間違っていたら申し訳ない。

この問題を明確に指摘している 奥村晴彦氏も,放送大学で教えていたのだが,それがコンピュータ関連の授業であったため,この問題に触れる場面は無かったはずである。

もしかすると他大学より先端的な授業内容を展開する放送大学だから,どれかの授業でこの問題を扱っているかもしれないので,もしそうなら誰か教えてほしい。

話を Statwing に戻すが,もし,等分散でもなく,正規性の仮定も満たさないデータだったら,どのように検定するだろうか,という点が気になった。

通常,非正規性のデータならば,ノンパラメトリック検定というのが定番である。しかし,このノンパラメトリック検定でさえ,例えば,最も代表的な U 検定でも,分散が異なる標本間の検定は不適当なのである。

これに関しては,例えば,粕谷英一氏のブログ参照
Mann-Whitney の U 検定と不等分散

上記の奥村氏のブログも参照
t 検定の話

あるいは,ノンパラメトリック法(岩原信九郎,1964)のU検定の解説を読むと,「2つの分布が著しく異ならないこと」と,きちんと適用条件を書いてある。

つまり,ノンパラメトリック検定だからと言って,仮定フリーというわけではないのである。ノンパラメトリック検定が,どんなデータに対しても万能であるかのような錯覚を抱いている人は注意すべきである。

そもそも,もし母分散が異なると結論されれば,それだけで母集団が異なるという意味である。このとき,代表値(平均や中央値)の差の検定を考える前に,なぜ母分散が異なるのか,それを検討するほうが,はるかに重要なことである。理論的な話題でなく,実際に,医学,生物学,心理学などのようなデータを扱う場合は,もし母分散が異なると推定されれば,その原因こそ解明して欲しいものである。

Statwing の場合は,どうだろうか?この統計解析ソフトでは,ランク化された Welch 検定を実行するようになっているのである。 Ranked T-Test あるいは Ranked ANOVA と書かれているが,もちろんこれは Welch 検定の計算に従っている。つまり,代表値の差の検定として,パラメトリックだろうが,ノンパラメトリックだろうが,Welch検定を利用するのである。ここまで徹底した統計解析ソフトは稀である。是非,試用してみてほしい。

なお,統計解析ソフト R には,多重比較を行なうのに便利な関数 pairwise.t.test がある。これは,デフォルトでは,等分散を仮定した t 検定を行い,オプションを指定するとウェルチ(Welch)検定を行なう。これに関しては,以下のページ参照:
ウェルチ多重検定と2群の分散分析 t検定,Rのpairwise.t.testを利用

リッカート尺度(Likert scale)のデータに対しては, t 検定と U 検定が,多くの場合において,同等な検出力(power)を持つことを示した以下の論文も参照してほしい。

De Winter, JCF. and Dodou, D. (2010) Five-point Likert items: t test versus Mann Whitney Wilcoxon. Practical Assessment Research & Evaluation 15(11): 1-16.

関連ページ:

私が論じた様々な統計学的な話題のリストは,研究室の「統計学的手法の話題」で見られる。