2017年2月6日月曜日

NHK実践ビジネス英語:統計学用語・四分位quartileを巡って


NHKラジオの実践ビジネス英語を時々聞くのだが,今年1月13日の放送で気になる単語があった。それが quartile である。

本文では,以下のように使われている。

But the U.S. ranks in the bottom quartile for life expectancy and infant mortality.

ここで, ranks in the bottom quartile の部分の和訳は,「下位4分の1に入る」となっている。

講師の杉田氏は, quartile を「統計学用語」と単純に説明していたが,実は,非常にやっかいな単語である。まずは,私のYahoo!知恵ノートの解説を参照してほしい。

四分位数と四分位群:複数定義と用語の区別,その歴史

そこにも書いたが,英語の quartile には,4等分する区切りの値(value)である「四分位数」と,そのようにして分割された群(group)である「四分位群」の二つの意味がある。実践ビジネス英語で取り上げた例文は,前置詞 in が使われていることからも分かるように, 四分位群の意味で使われていた。

杉田氏が述べた「統計学用語」という解説に反して,「統計学」という講義やテキストでは「四分位数」が使われ,「 四分位群」については解説されないことが多い。前述の知恵ノートで取り上げた高校数学で学ぶのも「 四分位数」である。一方で,新聞やテレビやラジオで,しばしば使われるのは「 四分位群」である。

しかも,「 四分位群」の意味では,形容詞として, bottom や top が使われるが,「 四分位数」では, first, third や lower, upper が使われる。さらに,統計学的には, bottom quartile の上限が lower quartile に相当するという,何ともややこしい定義になるのである。

もちろん,杉田氏の解説が間違いというわけではなく,学術論文では,「 四分位数」も「 四分位群」も使われる。しかし, quartile が大学や学校で学ぶ「 四分位数」の意味なのか,メディアで多く使われる「 四分位群」の意味なのか,それを区別して考えることは重要である。

quartile  四分位数と 四分位群;

その他の統計学上の話題は,私の研究室の解説リスト参照

2016年8月3日水曜日

東大入試数学の近似数値積分を統計ソフトRで考える


ネット上で興味深い数値計算問題に出会った。東京大学(2007年前期)・数学(理系)の第 6 問 (2) である。河合塾の過去問解説などで見られる。

東大・数学(理系)の2007年第6問で,数値積分である。

(1) で上記の不等式を証明させ,(2) でそれを利用して
0.68 < log 2 < 0.71
を導かせる問題であった。 不等式の中の積分区間の大きさが 2x なので,左辺は積分値の長方形近似であり,右辺は台形近似であることが,すぐ分かる。もちろん,両方とも台形近似とみなすことも可能である。

すぐ分かる,と言っても,大学で数値積分を学んだからであり,入試で出題されたら私には解けなかった気がする。数学テキストの古典的名著である高木貞治(著)「解析概論」にも,定積分の近似計算として Simpson 法などが取り上げられていて,学生だった私は,学んだばかりの Fortran で計算して,コンピュータの威力に興奮していたものである。

この問題 (2) は,積分区間をさらに細かくしていって,(1) の不等式の辺々の和を考えるので,パソコン利用に好適な問題とも言える。

以下が R のスクリプトで,積分区間を等分しない場合から,20等分した場合まで,上記不等式の左右の辺で表される近似値の変化を示した。

k<- 1:20 # 等分割数
lw<- as.numeric(NULL)
up<- as.numeric(NULL)

for (i in 1: length(k)) {

  lw[i]<- 0
  up[i]<- 0

  for (j in 1: k[i]) {

  x<- 1/(2*k[i])
  a<- (2*j-1)*x+1

  lw[i]<- 2*x/a+lw[i]
  up[i]<- x*(1/(a+x)+1/(a-x))+up[i]
 }   
}

plot(k, lw, main="1/x 積分による log(2) 近似",
   ylim=c(0.66, 0.76), xlim=c(0, 20), 
   col="blue", pch=1, type = "b",
   xlab="等分割数", ylab="近似積分値",
   yaxp=c(0.66, 0.76, 10), xaxp=c(0, 20, 4))

axis(side=2, at=0.66: 0.76)

lines(k, up, type = "b", col="red", pch=4)

legend("topright", c("台形近似", "長方形近似"),
    col=c("red", "blue"), pch=c(4, 1), lw=2, bty="n")

abline(h = log(2))
mtext("log(2)", side=2, line=2, las=1, at=c(1, log(2)))

abline(h = 0.68)
abline(h = 0.71)

結果のグラフは以下のとおり。


左辺の長方形近似のほうが,右辺の台形近似より,やや速く log(2) に近づくのが分かる。入試問題の条件を満たすには,2 等分で十分であり,紙と鉛筆向けの問題となっている。しかし,今どき,これを紙と鉛筆で解かせるという発想も芸が無い。もう少し複雑にして,パソコンで解かせる入試を考えてほしいものだ。


2016年7月24日日曜日

北信越ホタル交流会開催のおしらせ:志賀高原石の湯ロッジ 9月3,4日


北信越ホタル交流会開催

場所:志賀高原・石の湯ロッジ
日程:9月3日から4日
参加費:一泊二食付き 12,000円
    日帰り 5,000円

スケジュール
9月3日
 13:30 開会
     参加者の自己紹介
     講演: 三石暉弥 「石の湯ホタルの特徴」
     岩倉沢見学

 16:30 自由行動
 17:30 夕食を兼ねた懇親会
 19:00 ホタル観察
 20:30 懇親会(当日1000円支払い)
 22:00 第1日終了

9月4日
 8:00 朝食
 9:00 参加者活動発表,フリートーク
 11:30 解散

申し込み締め切り 8月17日(水)

詳細は,私(井口豊)に問い合わせて欲しい。
連絡先:生物科学研究所

長野ホタルの会では,会員を随時募集しています。

石の湯は,2010年には,全国ホタル研究会・第43回全国大会が開催された場所である。石の湯ゲンジボタルの特徴については,私のウェブページ参照。

特異なゲンジボタル生息地,志賀高原・石の湯

TBSテレビ「噂の東京マガジン」で,上高地のホタル駆除に関連して,石の湯ホタルが物議を醸したことでも有名である。

上高地,志賀高原,辰野町のゲンジボタル:その駆除を巡って

これに関連して,2014年8月17日に,テレビ朝日・サンデースクランブル「美しいホタルを駆除へ・夏の風物詩に何が」が放送され,私も出演してコメントした。

危惧されるのは上高地の生態系

今年7月8日に放送されたTBSドラマ神の舌を持つ男,第1話「殺しは蛍が見ていた」は,県外で買ってきた外来種ホタルを地元のホタルと称し観光利用する町として,辰野町がモデルとなった。この番組でホタル生態については,私が監修した。これに関しては,以下のブログを参照。

ドラマ神の舌を持つ男・殺しは蛍が見ていた,辰野町がモデル


その番組の始め付近で,ホタルが舞う季節なのに,雪が降るという場面があるが,石の湯では,まさにそのような光景が見られるのである。


2016年7月10日日曜日

ドラマ神の舌を持つ男・殺しは蛍が見ていた,辰野町がモデル


7月8日に始まったTBSの新しいドラマ・神の舌を持つ男,第1話「殺しは蛍が見ていた」の中で,メインテーマとなった外来種ホタルの生態について,私が監修をした。番組終わりの字幕に,「ホタル生態協力 生物科学研究所 井口豊」と出ている。

見逃した人は,TBS FREE 神の舌を持つ男・第1話 で,しばらく見られる。

監修依頼があった当初は,ニュースか情報番組かと思ったが,ドラマと聞いて,びっくり!製作者の人たちは,本当に詳しく聞いて勉強するので,さらにびっくり!内容を巡って,番組製作者と私の間で,何度もやり取りがあった。

ドラマ中盤(30分ころ)に,木村文乃が「昔から町にいるホタルを保護してるかのように書かれているが,県外で買ったホタルを放している」と言うセリフは,もちろん,辰野町をモデルにしている「事実」である。

さらに同じ場面で,「どうかしているのは確かですが,刑事ではありません」と言う佐藤二朗のバックの研究発表,1960年代に観光目的で~と書かれているが,これも外来種ホタル養殖の町は辰野町のことである。

同じ場面で,「町長が公共事業にしているホタル!」と木村文乃が言う場面で,バックになっている研究発表は,SSH(スーパー・サイエンス・ハイスクール)の八戸北高が,COP10関連イベントで発表した研究成果がモデルとなっている。ちらっとではあるが,八戸北高の関係者は気づいただろうか?

ドラマ最後に,石倉三郎(町長の役)らが,外来種ホタルの養殖で観光客を集めるのを止めてみようと考える場面は,今までのドラマでは,なかなか見られなかったシーンである。これも時代の要請と言える。

参照サイト

このサイトにも書いたが,現在の松尾峡ホタルが,県外から買ってきたり,譲られたりした外来種ゲンジボタルであることは,歴史的にも遺伝的にも明らかになっている。辰野町は事実上,これを観光客に隠して,ホタル観光収入を得ている。この「事実」を,読売・朝日・毎日新聞などに伝えて,記事にもなった。,すると後日,辰野役場の庁舎内で,ホタル保護担当の課長補佐(当時)から,「なんで新聞社に言うんだ!!」と,私は怒鳴られた。

ドラマ同様,それほどまでに,外来種ホタル観光事業を隠してやりたい,という辰野町の考え方を,私は実感している。

ドラマ終盤,51分ごろ,旅館・上屋敷の主人(菅原大吉)が,町長(石倉三郎)に言う。「地元のホタル(在来種)も,よそ者ホタル(外来種)も,客には全然関係ない,ただホタルが多ければ客は喜ぶんだ」。辰野町役場で,まさに私が聞いた言葉である。

なお,ドラマ36分ころに出てくる湯西川のホタルを守る会の建物は,第8回信州ホタル保護連絡会が開かれた松本市島内の公民館に似ている。



2016年6月30日木曜日

標準偏差に ± を付けるな!: 医療論文に多い?


統計量として,平均と標準偏差を示すのに,
平均 ± 標準偏差
あるいは
mean ± sd
と書く例が,時々見られる。

特に医療関係の論文に多いような気がするが,気のせいだろうか?

例えば,次の論文

庄司雅紀・恩田光子・岩出賢太郎・荒川行生 (2015)
降圧剤服用患者におけるお薬手帳の持参割合および手帳シールの貼付割合に影響を及ぼす要因
医療薬学, 41(3), 139-146.

その p. 143 の表 3 や 4 で,マンホイットニー U 検定やクラスカル・ウォリス検定を行なう統計量として
平均 ± 標準偏差
という記述がなされている。

しかし,よく考えてほしい。

通常,± は,範囲や区間を表すものである。例えば,体温計に,± 0.1 ℃ と書かれていたら,その範囲の誤差という意味だろう。

では,論文や報告書で,
平均 ± 標準偏差
と書かれていたら,それは平均の上下に,標準偏差のぶんだけ取った区間に注目せよ,という意味なのだろうか?

しかし,このような範囲を考えても,たいした意義があるとは思えない。実際には,「平均と標準偏差」の意味で,± 記号が用いられている気がする。

日本語論文では,あまり,この問題が指摘されていないが,海外の論文では,ズバリ指摘しているものがある。

例えば,以下のもの。
Jaykaran, P. Y., Chavda, N., & Kantharia, N. D. (2010)
Some issue related to the reporting of statistics in clinical trials published in Indian medical journals: A Survey
International Journal of Pharmacology, 6(4), 354-359.

その p. 357 右段

Instead of writing Mean ± SD the better way of representation is Mean (SD)

つまり,± を使わずに,(標準偏差)とするほうが良いと書かれている。

このような主張は,個人的な論文に留まらない。例えば,米国生理学会(American Physiological Society)の論文執筆ガイドライン

Curran-Everett, D., & Benos, D. J. (2004)
Guidelines for reporting statistics in journals published by the American Physiological Society
Journal of Applied Physiology. 97(2), 457-459

その p. 458 左段下
The symbol ± is superfluous: a standard deviation is a single positive number. Report a standard deviation with notation of this form: 115 mmHg (SD 10 ).
(SD) と書くべし,といった調子で書かれている。

日本の論文でも,平均と標準偏差の表記を改めて考え直したほうが良い。

その他の統計学上の話題は,私の研究室の解説リスト参照


2016年6月8日水曜日

正規性検定をノンパラメトリック検定の選択基準にするな


タイトルには,ノンパラメトリック検定の選択基準にするなと書いたが,もちろん,これをパラメトリック検定の選択基準にするなと書いても同じである。

t 検定を行なう前に,等分散かどうか検定し,等分散なら通常の t 検定,等分散でなければ Welch 検定と安易に使い分けてはいけないことは,既にブログで書いた。
この二段階検定問題は,既に相当広く知られていると思うのだが,それでもなお,駿河台大学・内田いづみ氏のように,大学教員ですら,事前の等分散検定のオンパレードみたいな論文を書いているのを見ると,ガッカリしてしまう。
ところで,この二段階検定問題は,等分散検定だけでなく,もっと広く注意されべき事柄である。

代表的な問題は,正規性検定を行なってから,それを満足すればパラメトリック検定,それを満足しなければノンパラメトリック検定と使い分ける,というものである。

この使い分けが正しくないのは,事前の等分散検定と同じロジックであり,私自身は多重検定の問題と考えている。しかし,等分散検定に比べ,正規性検定の問題については,意外と語られていない。

日本語で,この問題を指摘している数少ない例が,三重大・奥村氏のブログ2段階t検定の是非であり,そのページの追記2段階t検定その後を読むと良い。そこでは,正規性検定の結果で,パラメトリックとノンパラメトリック検定を使い分ける人が揶揄されている。

英語の解説ならば,二段階検定とは異なる観点から,正規性検定の問題点を指摘した統計ソフトGraphPad Prismの以下のページ。
冒頭で,わざわざ訂正線を引いて解説するという手の込んだページになっている。
First perform a normality test. If the P value is low, demonstrating that the data do not follow a Gaussian distribution, choose a nonparametric test. Otherwise choose a conventional test.

要するに,正規性検定では,t検定のようなパラメトリック検定が適用できないほどのズレがあるかどうかは判断できないというのである。

再度言うが,正規性検定を行なってから,それを満足すればパラメトリック検定,それを満足しなければノンパラメトリック検定と使い分ける,という安易な手順を踏んではならないのである。

その他の統計学上の話題は,私の研究室の解説リスト参照。

2016年5月4日水曜日

岡谷市役所と活断層 糸魚川-静岡構造線


熊本地震で,少なくとも5市町の庁舎が被害を受け,業務に支障をきたしているという(朝日新聞4月23日毎日新聞4月16日日経新聞4月23日など)。

本来,防災拠点となるべき庁舎が地震で被害を受けることは,極力避けなければならないはずであるが,布田川・日奈久の活断層が確認されていた熊本県でも,それが避けられなかった。

同様な状況は,本州中部を縦断する第一級の活断層・糸魚川-静岡構造線が存在する長野県岡谷市でも,十分想定される。

岡谷市役所の旧庁舎は,現庁舎から東へ約100mの塚間川左岸(東岸)にあり,1986年まで市役所として使われていた。現庁舎が建設される以前から,既に,市役所近くに活断層が推定されていて,例えば,岡谷断層発掘調査研究グループ(1984)の図2には,それが描かれていた。

それにも関わらず,なぜか,現庁舎は活断層の近く,ほぼ直上に,移転建設されたのである。市庁舎だけでなく,保健センターも活断層のすぐそばに建設された。


図1. 赤線が岡谷断層の断層崖,A 岡谷市役所,B 岡谷市保健センター,C 保健センター西側の断層崖となっている坂道(図2),D 旧岡谷市役所

下の写真は,保健センター裏側(西側)の断層崖(矢印)を塚間川から見た写真であり,実際は坂道なのだが,このように見ると,まるで壁のようである。

岡谷市保健センター裏側(西側)の断層崖は,坂道となっている。
図2. 岡谷市保健センター西側の活断層.矢印が断層崖.

写真の奥に見えるのは,岡谷市民病院であり,市役所や保健センターとの高度差が分かる。

市役所や保健センターは,もちろん,それなりの耐震建築なのだろうが,わざわざ断層近くに建設したことには疑問符が付く。

2012年には,市役所および保健センター西側の断層崖の北北西延長,約300m地点,敬念寺の裏側でトレンチ発掘調査が行われ,実際に活断層が確認された。それにも関わらず,市役所および保健センターの建物と活断層の関わりについて,市民に何ら知らせていない。

もともと岡谷市では,活断層対策をおろそかにする傾向がある。現市長・今井竜五氏も,その姿勢は変わっていない。例えば,岡谷市看護専門学校を設置する際にも,市議会で,その直下の活断層の存在が指摘された。しかし,市では産業技術総合センターのデータベースに活断層が示されていることを把握していながら,原発敷地内の活断層調査を例に挙げて,調査しても活断層を特定するのは難しいとか,直ちに大きな危険性を判断するのは難しいとか,言い逃れみたいな答弁で,結局,知らん顔して,看護専門学校を開校した。

活断層だらけの諏訪盆地に生活するなら,ある程度の被災は覚悟が必要なのだろうが,それにしても,公共施設や教育施設に対する活断層対策が軽視されているのが岡谷市の現状である。

参考文献

岡谷断層発掘調査研究グループ(1984)糸静線活断層系のトレンチ調査(岡谷地区,1983).地震予知連会報,32: 363-372. PDF