最近大きなデータセットの解析をしなくてはならず、まずは t検定しろ!ということで R でごにょごにょしている所です。R 便利ですね。
記憶の定着を促す為に、恥を忍んでメモ書きを公開。
厳密な定義が好きな方は統計学の教科書などをご参照いただくか、Wikipedia に t検定の詳しい項目があるので、とっかかりはそちらを参照してもらうとして(汗
t検定というのは、ざっくりすぎる例でいうと、2つのデータ群がある場合、その平均値に違いがあるかどうかを見るときに使ったりします。大学で統計学とらなかったので(言い訳)、理解が追いついていないのですが、まあ、そういう感じらしい。(厳密さにかける説明ですが、ご容赦を)
比べるときは、母集団のデータがどういう分布になってるかでどういう検定を当てはめるかが違うらしく、スチューデントの t検定を使うときは、正規分布であることが前提となり、Welch の t検定は、2つの母集団の分散が等しくなくてもおkということらしい。R の t.test() は Welch の t検定がデフォルトだそうで、さる人に聞いたら「母集団の分布はあまり気にしなくてもいいんじゃないかな?」ということでした。
私がよくわからなかったのが、3群の母集団(A, B, C)を比較するときに, A vs B, A vs C, B vs C, というような検定(多重検定というそうです) の場合に、有意水準(5%がよく使われる数値)がそのまま使えなくなり、第一種の過誤(False Positive) の危険性が高まる、ということです。第一種の過誤は「受理されるべき帰無仮説が棄却される」と説明されます。検定で受理されなければ行けない帰無仮説が棄却されてしまい、「有意差がある」なんていう誤った(しかも危険な)結論になりかねないので、多重検定を行うときはきちんとした補正を考慮しなければならないそうです。
というわけで、なんらかの補正をするべきなんですが、私が教えてもらったのは Bonferroniの補正と呼ばれるもので、比較する母集団の数で有意水準の値を割るというもの。3群比較・有意水準5%での検定なら 5% ÷ 3 で 1.66666...% が補正後の有意水準ということになります。
と、ここまでは(とにもかくにもやらねばならないという意味で)なんとか詰め込んだのですが、データを整理していると、有意水準 1.6% とかきつすぎる…とか思う訳ですね…
そこで3群の時だけ補正しないで使える ANOVA ですよ!という耳寄りな情報を教えてもらったのですが、統計の師匠から
そういう態度(=結果をみて適用する統計手法を決める)は良くない!とのおしかりを頂き、どうするかな…というところで本日のメモはおしまいです。
ANOVAとかMANOVAとか便利そうなんだけど、t検定でさえよくわかってないので、また今度メモってきます。
p.s. もし今、学部の学生に戻れたら絶対統計学の単位とる!とか思うので、統計の授業をとるチャンスがある人は、絶対勉強しておいたほうがいいよ!理系に限らず、文系の学問でも統計はよく使うので,もはや必須技と思われます。