2014年5月10日土曜日

ウェルチ検定の意図とは: 標本サイズの誤解とExcel計算の話題も含めて


ウェルチ検定(Welch test)の意図とは,とタイトルに書いたが,正確には,Welch, B. L. (1938)の意図と言うべき話題である。

Yahoo!知恵ノートに,等分散検定から t検定・分散分析(ANOVA)・ウェルチ(Welch)検定への問題点を書いたが,ウェルチ検定と頻繁に言う割には,その出典に触れられていないことが多い。それゆえ,ここで改めて,それについて考察する。

まずは,ウェルチ検定の概要。

2標本問題を考え,それぞれの標本平均を XY,標本分散(母分散の不偏推定量)を s12s22,標本サイズを n1n2 とする。

そのとき,以下のような統計量 T

ウェルチ検定(Welch test)

および ν

ウェルチ検定(Welch test)自由度

を考えると,統計量 T は,近似的に,自由度 ν の t 分布に従うことを利用したのが,ウェルチ検定である。

少し回り道になるが,ここで用語の問題点を指摘しておきたい。何度も繰り返し指摘してきたが,標本サイズ(sample size,サンプルサイズ,標本の大きさ)と標本数(the number of samples, サンプル数)を混同する人が非常に多い。一部の大学教員でさえ,そうなのである。

上記の問題は,2群の問題であるが,この群数と呼ばれるのが,標本数なのである。

そして,n1n2 のことは,標本サイズ(sample size,標本の大きさ)と言うのである。ところが,この n の部分を誤って標本数またはサンプル数と呼ぶ人が非常に多い。

例えば,間淵領吾氏の奈良大学社会学部(当時の所属,現在,関西大学社会学部所属らしい)での講義「調査結果を吟味する」は,その誤りの典型例である。

一方で,正しく注意を促す教員もいる。例えば,富山大学の唐渡広志氏の 統計学講義 第3回 母集団と標本 p.5 の解説のように,n を「標本数とはよばない!」と,!を付けてまで指摘している。あるいは,神戸大学の羽森茂之氏も, 「標本の大きさ(サンプルサイズ:sample size)と標本数」について という pdf で,両者を混同しないように注意を促している。

統計学における教員の誤解は,決定係数R2においても見られる。大学の教員なら,正しく学生に教えてほしいものである。

再び,ウェルチ検定の話題に戻る。

上記のような,面倒な自由度 ν は小数値とさえなりうるが,それは,Welch (1938) の式(9)に見られる。


興味があれば,リンク先のPDFを読んでほしい。

ウェルチ検定という割には,この文献に触れられることは少ない。ウィキペディアのウェルチのt検定の項目でも,この文献が挙がっていなかったので,追記しておいた(ウェルチのt検定の変更履歴,Iguchi-Y)。

今,この文献があまり触れられないと述べたが,三重大学・奥村晴彦氏の t 検定の解説では,きちんとこの文献が挙がっている。たとえ学術論文でなくても,大学教員なら,こうでありたいと思う。

この Welch (1938) の論文を読むと,ウェルチ検定というのが,非等分散のときに,特にそのときだけに,使われるとは書いてないことが分かる。これも流布している誤解のひとつであろう。

Microsoftによる,Excel 分析ツールの説明でも, ウェルチ検定を,分散が等しくないと仮定した 2 標本による検定と説明をしているが,これも正確ではない。

なお,Excel の ウェルチ検定に関連した問題と言えば,TTEST関数を使うときと,分析ツールを使うときでは,計算結果が異なることである。これは前者では,自由度 ν が小数値であっても,それを使って計算するが,後者では,整数値に四捨五入して使うからである。少なくと,Excel2003まではそうであった。この計算上の違いは,上記の Microsoftによる説明に書いてあるが,案外読んでない人,知らない人も多いようである。

ウェルチ検定の利用条件の話に戻ると,Welch (1938) の最初の1,2ページ(p.350-351)に,等分散であると仮定せずに検定する方法を考えようとしているのが分かる。特に,p.351の15行目
it is reasonable to test whether α1 = α2, whatever the ratio of σ1 to σ2.
という部分,この whatever が,分散比が何であっても,平均が等しいかどうかを検定することを目指していると分かる。

つまり,分散が異なる場合に適用されるのがウェルチ検定なのではなく,等分散かどうか仮定しない場合に適用されるのがウェルチ検定なのである。この点は,竹内啓・大橋靖雄(1981) 入門・現代の数学11「統計的推測」(日本評論社)にも,きちんと書かれている。

もちろん, Welch (1938) は,その検定が通常の t 検定より優れている,ということを示したわけではない。しかしながら,等分散を仮定しないという検定が,いつのまにか,非等分散である場合の検定,と理解されている感がある。

Welch (1938) の論文の最初の部分だけでも読むと,彼が何を意図して,この検定を考え出したかが理解できる,統計学の発展の歴史を考える上でも重要な論文と言える。

なお,統計解析ソフト R には,多重比較を行なうのに便利な関数 pairwise.t.test がある。これは,デフォルトでは等分散を仮定した t 検定を行い,オプションを指定するとウェルチ(Welch)検定を行なう。これに関しては,次の Yahoo! 知恵袋を参照。

ウェルチ多重検定と2群の分散分析 t検定,Rのpairwise.t.testを利用

関連ページ