▼【平均値の差の検定をしてみました:t検定とベイジアン統計の検定も】地球に接近する小惑星の数の10月と8月の平均値には、統計的に有意な差が見られます
NASAのサイト(https://cneos.jpl.nasa.gov/ca/)からNEO(Near Earth Object)のデータをMicrosoft Power BI Desktopに読み込んで、月別にNEOの観測個数を分析しています。 2001年の10月、2002年の10月、・・・、2018年の10月というように、同じ月について、各年の観測個数の分布状況を示したのが、下の箱ひげ図です。箱の中にある●が平均値、線が中央値を示しています。 NEOの観測個数の年によるバラツキが大きいと、箱やひげの長さが長くなります。年によるバラツキが小さいと、箱やひげの長さは短くなります。 11月は、箱の長さや上ひげの長さが長いので、年によってNEOの観測個数がかなり異なっていることがわかります。 6月、7月、8月は箱の長さが短く、NEOの観測個数の少ない年ばかりであることがわかります。 ▼10月と8月の2群で、NEOの観測個数の平均値について、「平均値の差のt検定」をしてみました 統計的仮説検定では、標本データから母集団についての推測を行うことになりますが、NASAのNEOデータを標本データ、母集団をまだ発見されていないNEOも含めた全体の集団と捉えて、統計的仮説検定をしてみました。 帰無仮説は、「10月と8月のNEOの観測個数の平均値は同じである」というものです。この帰無仮説について、2群の平均値の差のt検定を行いました。 群馬大学の青木先生のサイトに、t検定の結果を出力する計算ツールがあります(http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest2.html)。 そのツールのデータ入力窓にデータを貼り付けると、t検定の出力結果を表示してくれます。 なお、等分散性の検定で、10月と8月の年別観測個数の分散が等しい確率が低い、という結果になっています。これは、「等分散が仮定できないとき」に当てはまるので、「Welch の方法」でのt検定の結果を見ます。 すると、「P 値 = 0.00019」となっています。これは、「10月と8月のNEOの観測個数の平均値は同じである」という帰無仮説が正しいとした場合に、今回のデータが得られる確率が極めて小さいことを示しています。そこで、対立仮説「平均値に差がある」が採用されることになります。 10月と8月のNEOの年別観測個数の平均値には、1%(0.01)水準で有意差があるということになります。 そして、どの程度の違いがあるのか、という「効果量(effect size d)」の値が、1.46828となっていますが、これは、「とても大きい(very Large )」違いがあると解釈される値です。 10月は、8月に比べて地球に接近するNEOの個数の平均値がとても多い、と言えるようです。--------------------------------------------------------------▼入力データ8月:0,0,0,0,0,1,0,0,0,0,0,0,2,1,1,1,3,210月:0,0,1,1,2,2,5,5,4,6,4,3,5,4,2,5,11,4--------------------------------------------------------------▼検定結果出力第一群:8月 標本サイズ = 18 平均値 = 0.611111 不偏分散 = 0.839869 第二群:10月 標本サイズ = 18 平均値 = 3.55556 不偏分散 = 6.84967 二群の等分散性の検定 F 値 = 0.122615 自由度 = ( 17, 17 ) P 値 = 0.000078 (両側確率) 通常の t 検定(等分散性が仮定できるとき) t 値 = 4.50494 自由度 = 34 P 値 = 0.00007 等分散性が仮定できないとき(Welch の方法) t 値 = 4.50494 自由度 = 21.10715 P 値 = 0.00019 (小数自由度に対応した正確な値) effect size g = 1.50165effect size d = 1.46828-------------------------------------------------------------- ▼ベイジアン統計の手法でも、平均値の差があることが確認できます P値、帰無仮説を用いる従来型の統計学での検定は、帰無仮説、対立仮説の関係がわかりにくいのですが、ベイジアン統計による検定は単純明快な感じがします。 ベイジアン統計では、母集団の平均値や標準偏差に唯一の真の値を想定せず、母集団の平均値や標準偏差も分布するという考え方がベースになっています。 下図は、ベイジアン統計の考え方で2群の平均値の差を検定する「BEST」というRのパッケージ(https://cran.r-project.org/web/packages/BEST/index.html)を用いて、MCMC法によって10月と8月の平均値の差の分布を導き出したものです。 「平均値の差」の平均は3.36で、下図の95%HDI区間「1.97~4.68」には、ゼロが含まれていないので、2群の平均値には差があるということになります。 事前分布(priors)によって、また、MCMCの設定で結果が少し変化する点に留意する必要がありますが、「差がある確率は何%」と明快な結論が出るので、結果の解釈はわかりやすいと思います。 この平均値の差のデータ分布図からすると、95%HDI区間どころか、100%HDI区間にゼロが含まれていないので、「2群の平均値に差がある確率は、100%」である、ということになると思います。※「R」を利用しなくても、オンラインでベイジアン統計の「2群の平均値の差の検定」ができるサイトがあります(Bayesian Estimation Supersedes the t-test (BEST) - Online:http://sumsar.net/best_online/)。 MCMCの様子がアニメーションとして見られるので、楽しい感じです。P値にこだわらないのであれば、このサイトで2群の平均値の差の有無を判断するのもいいかもしれません。☆関連記事▼地球に接近する小惑星の数が多いのは10月頃?。少ないのは8月?:月別にかなり違いが見られます:Microsoft Power BI Desktopは、無料で利用できる、インタラクティブなインフォグラフィック作成ツールです▼データ前処理の例(その2):Microsoft Power BI用データを準備するための処理の例:NASAのNEOデータをダウンロードし、英語の月名を含む日付の文字列を日付データに変換して、Power BIに読み込む▼Microsoft Power BI用データを準備するための前処理の例です:NASAのNEOデータをダウンロードし、小惑星の大きさの推定値をExcelで取り出し、単位変換して、Power BIに読み込む▼地球をかすめた小惑星「2019 OK」は、0.2LD以下の距離に接近したNEOの中で過去最大だったようです:NASAの1万3千件以上のNEOデータから▼小惑星「2019 OK」は、過去3年間に0.2LD以下まで地球に接近したNEOの中でも最大でした:NASAのNEOデータをPower BIで分析してみました▼【グラフを追加しました】:小惑星「2019 OK」はOKでしたが・・・:7月25日に地球とニアミスした、今年最大の小惑星の名前です。▼「世界の平均気温偏差(℃)」のデータの前処理が、ExcelのPower Queryエディターでもできました:Power Queryエディターは便利です!:簡単に行方向のデータを列方向にできます▼気象庁の「世界の月平均気温偏差(℃)」のデータを、Accessのユニオンクエリで、横方向から縦方向にデータ形式を変換し、簡単に複数グラフの一覧を作成しました▼世界の月平均気温偏差:6月は、2019年が過去最高になりました:7月も今年が過去最高水準に?