テキスト*1に出てきた例を拡張して、ある池$A$にいる魚の数は500尾で次のような分布をしているとします。(横軸は魚の大きさ、縦軸は個体数)
では、この隣の池$B$には3928尾の魚がいるとします。
隣町の池$C$には魚が158尾いるとします。
ヒストグラムで分布を確認する
これらのグラフはヒストグラムといいいます。ヒストグラムから、「それぞれ山なりに分布している」「池$A$を基準に見ていくと、池$B$は右側にあり、山がややなだらか、池$B$は同じ位置にあるけど、山が細く尖っている」など、視覚的に分布の性質を確認できるので、非常に有用である反面、描き方によって問題点も指摘されています*2。
また、それぞれ、比較しやすいように、横軸の幅、ヒストグラムのビン(bin; 区間)を一定にして描いていますが、個体数(縦軸)が違うので、それぞれのヒストグラムを並べて表示すると、分布の違いが分かりづらくなります。
重ねると個体数が違うので、それぞれどのような特徴があるのか、わかりづらくなりました。
個体数の違いに左右されずに、それぞれを比較するにはどうしたらよいのでしょうか。
ここで、確率分布がでてきます。
おしなべて考える
個体数がバラバラで比較できなかったので、個体数をそろえましょう。たとえば、すべて個体数の合計を1として考えます。(わかりづらかったら100としてもよいです。 たとえば、池$A$は本当は500尾いますが、5尾で1セットの標本と考えて、100個の標本を考える、みたいな感じです)
すると、ヒストグラムはこうなります。
いやいや、個体数の合計を1って何よ?ってところですが、これが具体的な標本の値を確率変数に考え直すためのイメージです。
つまり、合計を1(=100%)にする、ということです*3。
このように合計数を合わせれば比較がしやすくなります。
また、合計数を1にしているので、縦軸の値がそのビンに入る確率となります。
分布を関数にする
この山なりの分布は一般的に正規分布と呼ばれています。別に山なりの分布であればすべて正規分布というわけではないですが、とりあえず正規分布として考えることが多いです*4。
正規分布は、以下の式で表されます。
$$y=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
グラフにすると
となります。
テキストで説明があったかわかりませんが、いきなり数式がでてくると「は?」ってなりますよね。
正規分布の関数は、魚の例で言うと、魚の大きさ(変数x)に該当する確率(合計を1としたときの個体数)を計算してくれる関数になります。
正規分布の数式を見るにあたって大事なことは、式の中に平均を表す$\mu$と分散(ばらつき)を表す$\sigma^2$が入っていること。
この$\mu$と$\sigma^2$(または標準偏差$\sigma$)が正規分布の母数(パラメータ)となります。
母数ですべてがわかる
では、池$A, B, C$について、ヒストグラムを正規分布にあてはめるとどうなるでしょうか。このように個体数をそろえれば、たとえば同じ分布を仮定して、個体数が2倍に増えても、それぞれの大きさの魚が何尾ずつ生息しているか、その分布(割合)を考えることができますね。
また、池$A$の母数は平均$\mu=4$、分散$\sigma^2=1.2$、池$B$の母数は平均$\mu=10$、分散$\sigma^2=3.5$、池$C$は平均$\mu=4$、分散$\sigma^2=0.5$の正規分布としました。
母数がわかれば、どのような分布をしているか(どの位置にあり、山がなだらかか急かなど)がわかるようになります*5。
母数という数値でわかれば、複数の分布を比べて、「大きさの平均が大きいのは池$B$(大型種が多いのかな?)」ですとか、「ばらつきが小さいのは池$C$(生息している種が少ないのかな?)」ですとか、一目でわかります。
まとめ
分布を比較しやすいように、関数として扱いやすいように、確率分布は考えられています。確率分布がわかれば、調べる対象の分布の特徴がつかみやすいです。
また、その特徴は母数という数値でとらえることができ、数値であれば比較しやすく、またグラフなどの視覚化もしやすいです。
統計で扱われる分布は正規分布以外もいろいろとあります。
それぞれの分布には、それぞれ母数も違います。
一様分布や二項分布などはわかりやすいですが、抽象的で「なぜその分布が必要なんだ?」と思う分布も多いでしょうが、まぁそういうものもある、という程度でひとまず理解していただければよいのではないか、と思います。
ここでは、確率分布について、分布という具体的なイメージから抽象的な確率分布がどのように作り出されるのか、という点に重点を置いて説明しました。
確率分布(確率密度関数)がわかれば、積分することによってどのような範囲の確率でも自由に算出ことができる、という便利さもあります。
統計学にとって、分布と母数(パラメータ)は非常に重要なものですが、分布の種類や特徴、どのようなときに使われるか、など非常に多彩なので、すぐに理解できなかったり、イメージできなかったり、わけわからなく感じることも多いですが、学ぶ内容に従って都度都度復習して、イメージを定着されるのが良いのではないか、と思います。
*1: 馬場真哉(2018).Pythonで学ぶあたらしい統計学の教科書(出版社HP)
*2:ヒストグラムを用いた解析における問題点http://www.fbs.osaka-u.ac.jp/labs/ishijima/Chemical%20reactin-13.html
*3:それぞれの事象に対する確率は0以上1以下で、すべてを足し合わせると1になる、というのは公理となっていて、すべての確率論、統計学の基礎になっています。コルモゴロフの公理と呼ばれています。
また、素朴な確率論では、確率はそれぞれの事象がおこった頻度(度数)をすべての事象の頻度で割ったもの、たとえば $$\frac{サイコロの1が出た回数}{サイコロを振った回数}$$ をサイコロで1が出る確率のように定義していました。ラプラスの確率と呼ばれています。
確率について、ラプラス流の解釈から、コルモゴロフの公理を通して、数学的に厳密になることにより、統計学の数理的な基礎が築き上げられていきました。
*4:正規分布の重要性は、(平均が存在する)どのような分布であっても、重なり合わせると正規分布に近づく、という「中心極限定理」によって裏打ちされています。
たとえば、下の動画で使われているオモチャは、1点からたくさんの玉が落ちて1つの障害にぶつかり、右か左かに分かれます。その別れた先でも障害にぶつかり、右か左に分かれます。何回か繰り返し、下に落ちていきます。全ての障害で左に落ち、一番左に行きつく玉もあれば、右左を同じ回数進み、真ん中に行きつく玉もあります。(それぞれの玉は二項分布に従っている、と考えられます)。
それらの玉はどこに落ちるのか、確率的であり、決定的な判断は難しいでしょう。しかし、玉の数が多ければ、その分布は正規分布に近しい分布になる、ということが証明されており、実際に、玉の分布が正規分布の曲線に近い分布になっています。
(正確には、玉の数が多ければ多いほど、落ちた玉の分布が正規分布に従う確率が1に近くなる、というわけで、玉の行方と同様に、分布も極端に偏る可能性が0になるというわけではありません)
Galton Board demonstrating probability from r/oddlysatisfying
*5:パラメータを間違えていたため再出力しています。そのため、他の図とヒストグラムが一致してませんが、ご愛嬌ということで…







0 件のコメント:
コメントを投稿