2018年6月26日火曜日

推定/検定/統計モデル

テキスト1、ざっとですが読み終わりました。

第3部7章以降の推定と検定および統計モデルの話、ちょっとしんどいかもしれませんが、

  • データを分析、解析する手法(何をしたいか)
  • その手法のための統計量と分布
  • 理論的な背景
  • 具体的な手法(Pythonコード)
  • 補足的な内容

をそれぞれ整理しながら読み進め、

  • ひとまずコードを追って、手法を理解する
  • 統計量と分布の種類を整理する
  • なぜそうなるのかを理解する

などの目的に応じて、何を知りたいのか意識しながら読まれるのがよろしいかと思います。

推定

概要

推定はテキスト3-7に書かれていますが、できることは「点推定」および「信頼区間の推定」です。

点推定はずばり、標本から平均、分散を求めて、母平均、母分散を推して定める、というわかりやすいものです2。(あっけない感じがしませんか?w)

対して、「信頼区間」は値という「点」ではなく、区間という「幅」で推定するもの。

幅で推定すると何となく、その区間の中に母平均が入るんだろうな、と直感的にわかるかと思います3

たとえば、高校生の平均身長を調べたいとき、全国の高校生の身長測定の結果があれば、母集団にほぼ近い標本を得られているので、母平均を高い精度で点推定できます。

ただ、手に入る標本が自分のクラス30名分だけのとき、そのクラスの平均をもって母平均を推定してよいのでしょうか。

点推定は標本が多いとき、信頼区間は標本が少ないときに有効な推定手法と考えられるでしょう。

手法や分布

このテキストでは母集団が正規分布に従っていると仮定したときの平均値や分散を推定する方法(というよりもそのものの統計量)を紹介しています。

また、標本平均を標準化した$t$値の分布が$t$分布に従うことを利用して、区間推定できることを説明しています。

検定

概要

検定は様々な手法がありますが、簡単にまとめると、仮説が正しいかどうかを調べるものです。

今まで統計学を学ぶ動機は,この検定を身につけるため,という人が多かったほど,非常に大事な統計手法でした.

ただ,人それぞれに思うところはあるでしょうが,現状の認識として,テキストp.231にあるように

いつかは不要になるかもしれない.けれども,それは今日ではない

と考えている人が少なくないでしょう.

でも,とはいえ,統計学を研究に利用している人の大半は,今でもこれを使っています.そのため,統計学の教科書にはこの内容が必ず出てきますし,検定は当然知っているという前提で話が展開されることもあるので,ざっくりとでも知っておいたほうがよいでしょう.

ケースとして,例えば,高校生3年生男子の平均身長は170cmと調査によって分かっています.

でも,私がいる3年B組の男子の平均身長は165cmです.

どの生徒がどのクラスに入るかは依怙贔屓とか何か理由があって選ばれているわけではないので,たまたま背が低い人がクラスに集まってしまっただけでしょう.

いや,でも,本当にこのクラスは明らかに背の低い人が意図的に集められたのではないだろうか.(背の低さを基準に選ばれていないとしても,例えば運動が苦手な人,体育会系でない人,がり勉タイプなど,背が低い人が多い属性の人を意図的に選んでいるのだろうか…)

という疑問を抱いたときに,統計的にどう扱うか.

「このクラスの平均身長から推定される母集団の平均身長は170cmである」という仮説を立てて,この矛盾(統計的な誤り)を導けば,「このクラスは,平均身長170cmの母集団からランダムに選ばれたクラスではない」ということを主張できるようになります.

この一連の流れが統計的仮説検定の1つのケースになります.

つまり,結論を得るために反駁したい仮説(帰無仮説:棄却したい!)と導きたい結論となりうる仮説(対立仮説:帰無仮説の逆)を立てて,統計的に検証するという方法です.

大事なことは,「Aである」という仮説の正しさを導くために,「Aでない」という仮説は間違っていると思われる,という二段階で否定することを行うのです.

この構造を意識しないと,よくわからん分布とかがでてくるので,すぐにわけわからなくなります.

手法や分布

推定と同様に、母集団は正規分布に従うことを仮定しています。

  • ある分布の平均値について調べるときに$t$分布を用いる$t$検定を行うことを3-8で説明しています。

  • 2つの分布について、それぞれの平均値が有意に異なっているか、をしらべるときにも同様に$t$分布を利用しますが、上の手法の時とは統計量が異なることを3-9で説明しています。

  • 青/赤のボタンについて、クリックした/しないをまとめたそれぞれの度数について、有意に異なるかどうか、を調べるために、$\chi^2$分布を利用する$\chi^2$検定を3-10で説明しています。

  • 複数の分布について、平均値の差は意味のある違いか、データの誤差による「あまり意味のない」違いかどうか、を調べるために、$F$分布を利用する分散分析を5-2および5-3で説明しています。

補足

検定で判断の基準とされる$p$値については、特に近年、問題点として話題に上がることが多いです4

そのため、テキストでも3-11で1章分を割いて、正しく検定結果を解釈できるように説明されています。統計学の教科書では、割と珍しいですが、最近のニーズに応えた内容になっているように感じます。

ただ、アカデミックな領域であればしっかりと押さえておかなくてはならない内容ですが、趣味で勉強する範疇でしたら、ひとまず流し読み程度でもよいように感じます。(機械学習界隈では、そもそも機械学習的な手法がブラックボックス化されているという問題のほうが大きく、再現性については、あまりとやかく言われない印象です)

統計モデル

概要

統計モデルは簡単に言えば回帰による分析です。

テキストにある例であれば、あるお店のビールの売り上げを、その日の天気や気温、湿度によって予測するための手法です。

予測したい変数(ビールの売り上げ)を応答変数、予測に用いる変数(天気や気温など)を説明変数と呼び、説明変数が1つの場合は「単回帰」や単に「回帰」と、説明変数が複数あるばあいは「重回帰」などと呼ばれます。

個人的には、いわゆる「統計学」のイメージが強い、散布図を直線によって説明するアレです。

Normdist regression.png
By 英語版ウィキペディアAmatulicさん (same as Anachronist on Wikimedia) - en.wikipedia からコモンズに移動されました。 Transfer was stated to be made by User:anachronist., パブリック・ドメイン, Link

概要の説明を第4章で、単回帰については5-1で、重回帰に関する内容は第6章で説明されています。

手法や分布

回帰分析では、変数がどのような分布に従っているか、や、どのように予測するか(テキストでは基本的に最小二乗法)によって、手法が異なります。

たとえば、変数が二項分布に従う2値(受験の合否など)の場合はロジスティック回帰(6-3で説明)、ポアソン分布に従う場合はポアソン回帰(6-5で説明)などです。(正規分布に従う場合は、特に名称が決まっていないみたいです。たぶん、正規分布を仮定するのが一般的なので、特別なケースにのみ名称がある感じ)

補足

統計モデルは、変数がどのような分布であるか、説明変数として何が適切か、など適切なモデルを組み立てることが非常に重要です。

古典的な統計学では、標本をとる前に必ず実験の目的とそれに応じた計画を立て、必要に応じたデータを入手することが大きな課題でしたが、ここでは、どちらかというとデータをもとに何が説明できるか、というところに重点が置かれているように感じます5

情報量規準AICによる変数選択の説明が多いのは、このテキストの特徴じゃないでしょうか。(一般的な統計学の教科書では紹介程度に載っているような気がします)

第7章で紹介されているLasso回帰なども変数選択の手法ですが、機械学習周辺の話題として取り上げられることが多いです。

ニューラルネットワークなどの説明とともに、このテキストの特徴的なところであると思います。

最後に

この1冊で、いろんな分析ができるようになる!というわけではないですが、さまざまな話題が平易に書かれてますので、ざっと全体を概観できるようになってから、さらに深く突っ込みたいところに突っ込んでゆく、というのがよいかと思います。

統計学は手法や話題が本当に多いので、現在地点を見失ってしまったときに、ニュートラルな視点に戻れる1冊があると、心強いと思います。

では、引き続き、楽しんでいきましょう~


  1. 馬場真哉(2018).Pythonで学ぶあたらしい統計学の教科書、翔泳社。

  2. 3-5-15~17に説明がありますが、推定量を定めるのも、理論的な背景があります。不偏性、十分性、一致性などで推定量の良しあしを測ります。たとえば、1-7-6および1-7-7で分散と不偏分散が定義されましたが係数が$\frac{1}{N}$か$\frac{1}{N-1}$で、どう違うの?というところの意味はこの「不偏性」を持っているかどうか、というところにあります。

  3. ただ、テキスト3-7-12でシミュレーションしているところはちょっとよくわからないような感じがしませんか?岩沢宏和(2014).世界を変えた確率と統計のからくり134話p.226から引用すると

    ネイマン=ピアソン(信頼区間の生みの親)の流儀によればこの「信頼区間」を生み出した人は、「特定の区間推定を行っている際に、(たとえば)その道母数が95%信頼区間に収まる確率は95%であるというように考えてはならない。しかし、確率でないとしたら、信頼係数は何なのか。それを(ネイマン=ピアソン流の)教科書的に説明すれば、何度も何度も(たとえば)95%信頼区間を作っていくということを積み重ねていけば、信頼区間のなかに母数の真の値が収まる割合は95%に近づいていく、というものである。

    と説明しているので、シミュレーションの通りなのですが、実際の現象について考えてみると、何度も信頼区間をとって、そこに母数が入る確率が何を表しているのか、よく分からないように感じます。信頼区間は直感的にわかりやすく感じるのと、計算しやすいため、用いられることが多いですが、発明された当初から批判されることも少なくないようです。

  4. たとえば心理学分野における再現性の危機などは、さまざまな要因の一つとして、正しく$p$値を用いられていないことが話題になっています。(「再現性の危機」Wikipediaを参照)

  5. あくまでも個人的な印象です。実際には、目的に応じて集められていないデータをもとに「なんか分析してくれ」と放り投げられて頭を抱えるデータサイエンティストは非常に多いです。また、フィッシャーという偉大な統計家は実験を行う前の計画の重要性を示すのに

    実験終了後に統計学者に相談をもちかけても、それは統計学者に検死を行ってくれといっているにすぎないことがよくある。

    という有名なセリフがある。

2018年6月19日火曜日

"What You Can't Say" Paul Graham, January 2004

What You Can't Say

January 2004


 昔の自分の写真を見て恥ずかしく思ったことはある?ほんとに僕らはそんな風に服を着てたのかな?うん、実際こんな風だった。そしてどれだけバカらしい格好をしているか考えたことすらなかった。目に見えないのがファッションの本質だ。同じように僕らがみんな乗っかっている地球の動きもどんな風なのかは見えない。

 モラルについての流行もあるってのが怖いよね。全くもって恣意的なものだし、ほとんどの人はそれがあるってことに気づきもしない。けどこっちの方がよっぽど危ないものだ。ファッションはデザインがいいものって誤解される。モラルの流行も善さを示していると誤解される。変な格好をしても笑われるだけだ。暴力的なモラルを示せば、クビになったり追放されたり、投獄されたりする。殺されることだってある。

 もしタイムマシンで過去に戻ったとしよう。過去のどの時点に行ってもたしかなことが一つある。君が何を言うかを意識してなくちゃいけないってことだ。どうってことない意見でも大きなトラブルになりうる。17世紀のヨーロッパであれば大きなトラブルになりそうなことを僕はもう言ってる。そしてガリレオが僕と同じことを言ったとき大きなトラブルに巻き込まれた。地球は動く。*1

 歴史を通してずっとそうだったように見える。どの時点でも、人々はバカバカしいことを信じていて、しかもあんまり強く信じているから、もし君がそこで別のことを言うとひどいトラブルに巻き込まれるだろうなって。

 僕らの時代は何か違うところがあるかな?多少歴史を読んだ人に聞いてみれば、答えはほぼ間違いなくNoだ。もし今が全ての正しさを実現した時代だったとしたら、これは驚くべき偶然だろうね。

 未来の人々から見たらバカらしいようなことを僕らが信じているっていうのはじれったく思える。誰かがタイムマシンで未来からやってきて、言わないように気をつけなくちゃいけないことはなんだろう?それが僕がここで学びたいことだ。けど今の異端を示してみんなにショックを与えたいだけじゃない。君が言えないことを見つけられる汎用のレシピを見つけたいんだ、どんな時代でも通用するようなレシピをね。

順応性テスト

 あるテストから始めよう:仲間の前で表現するのを憚られるような意見を持ってる?

 もし答えがNoなら、ちょっと立ち止まって考えてみてほしい。君が信じていることが全て君が信じることになりそうな何かだったとすると、これはもしかしてものすごい偶然じゃないか?けど多分そうではなくて、単に君が誰かに言われたように考えてる可能性の方が高い。

 別の可能性もある、君が独自に全ての問いに答え、現在受け入れられているものとバッチリ合うような答えを思いついた可能性だ。でもこれはありえなさそうに思える。君は同じところの間違いもしなきゃいけないからだ。地図を作る人は自分の作った地図にわざとほんの小さな間違いを入れておく。そうすると誰かがコピーしたときに指摘できるんだ。もし別の地図が同じように間違えていたら、それは自分の地図をパクったというとても説得力のある証拠になる。

 歴史上の他の全ての時代と同じように、僕らのモラルマップもほぼ確実に間違いを含んでいる。そしてこのマップと同じように間違えた人は偶然によってそうしたのではないだろう。1972年にベルボトムのジーンズがいいと独自に判断したって主張している人と同じようなものだね。

 今もし君が自分が信じることになっていたように全てを信じているとすれば、仮に君が南北戦争前のプランテーションオーナーの間で、あるいは1930年代のドイツで、あるいは1200年ごろのモンゴルあたりで育ったとして、自分がそう信じるようになっている全てを信じていないんだとどうやって言うことができるだろう?ついでに言うけどね。これは多分そう信じている可能性の方が高いだろう。

「よく適応した」みたいな言葉の使われた時代に、大きな声ではあえて言わないようなことを君が考えるとしたら、君に何かまずいところがあるみたいに思われただろう。でも反対じゃないかな。もし君が大きな声ではあえて言わないことを考えないとしたら、ほぼ間違いなく君には何かまずいところがある。

トラブル

 僕らが言えないことは何か。それを見つける方法は人々が発する言葉、それを言うことでトラブルになりそうな言葉を単によく見ることだ。

 もちろん僕らは単に僕らが言えないことを探しているんじゃない。真である、あるいは少なくとも真である十分な可能性があって公にされているべきなのに、僕らが言えないでいる問いを探しているんだ。だいたいのところ人々が口にしてトラブルに巻き込まれるたくさんのことは、この二つめの低い方の閾値を満たすんじゃないかな。2+25だとか、ピッツバーグの人の身長は3mを越えてるとかって主張してトラブルに巻き込まれたやつはいない。こういった明らかに偽であるような言葉はジョークとして扱われるか、最悪の場合でも気が狂った証拠として扱われるぐらいで、誰かをブチ切れさせたりはしない。その意見が信じられるかもしれないと心配しているような意見を見て、人はブチ切れる。中でも人を1番怒らせるのは、真実じゃないかと心配しているような意見なんじゃないかって僕は思ってる。

 もしもガリレオがパドゥア人の身長が3mだと言ったのなら、彼は風変わりだけど害のない人として見られただろう。地球が太陽の周りを回っていると主張するのはまた別のことだ。教会はこの主張が人にものを考えさせることを知っていた。

 確かに、過去を振り返ったとき、この大ざっぱな目安はうまく当てはまる。たくさんのトラブルに人を巻き込んできた意見は、今では無害に見える。だから未来から来た人は、今日ではトラブルに巻き込まれてしまうような意見の少なくともいくつかに同意するだろう。僕らにはガリレオがいない?そうではなさそうだ。

 彼らを見つけるために、人をトラブルに巻き込むような意見を追っかけてって、それが真実かどうか問うんだ。ok, その意見は異端かもしれない、あるいは何であれ現代では異端みたいなものだ。しかしそれは真実ではありえないかな?

異端

 これによって全ての答えが与えられるわけではないけどね。もし特定のアイデアが原因でトラブルに巻き込まれるってことがすでになくなったとしたら?あるアイデアがとてもデリケートで議論をかき立てすぎるために誰も公に向けて言わなくなったとしたら?僕らはどうやってこういうアイデアを見つけられる?

 もう1つのアプローチは「異端」という言葉を追っかけることだ。歴史の全ての時代に、ある意見について真実かどうかを誰かが問う前に撃ち落とすためのラベルが見つかる。

「罰当たり」「神聖冒涜」「不敬」「冒涜」「異端」、こういったラベルは西洋史の中の大部分に、もう少し最近であれば「真っ当でない」「適切でない」「アメリカ的でない」とかね。今ではこういったラベルは力を失っている。ラベルというのはいつだってそういうもので、今では皮肉っぽく使われるのが関の山かもしれない。けどかつては、本当の力を持ってたんだ。

 例えば敗北主義者という言葉には今、これといった政治的な含意はないだろう。でも1917年のドイツで、この言葉は武器だった。和平交渉を望む人々をパージするときにルーデンドルフはこの言葉を使った。WW2の始まるとき、チャーチルとその支援者は敵対者を黙らせようとこの言葉を広く用いた。1940年、チャーチルの強硬策に反対する主張はどんなものであっても「敗北主義」だった。これは正しかったか誤っていたか。それを問うところまで行ってたやつは厳密に言って1人もいなかった。

 今、僕らもこういうラベルを持ってる。もちろん、しかもたっぷりと。汎用性の高い「不適切」から恐るべき「divisive」まで。どの時代でも、何がこういうラベルであるかを見つけるのは簡単だ。偽であって、その上賛成しないアイデアを人がなんて呼んでいるか、単に観察すればいい。政治家が対立する相手が失敗したと言うときは真っ直ぐな批判だ。けど間違っていると主張する代わりに「divisive」とか「人種に関しての無関心」とか言い始めたとき、僕らは注意を払うべきだ。

 だから未来の世代が見たら笑うような僕らのタブーを見つけるもう1つのやり方はラベルからスタートすることだ。あるラベルを用意する、例えば「sexist」、そしてこう呼ばれるようなアイデアをいくつか考えてみよう。そうしたらそれぞれのアイデアについて問う、これはもしかして真実なんじゃないか?

 リスティングはランダムに始めるのかって?イエス、なぜなら多分ランダムにはならないからね。最初に思いついたアイデアが、多分一番もっともタブーらしいものだ。それは君がもう気づいているけど、考えないようにしているものだろう。

 1989年、賢い研究者が、肺ガンの徴候を見つけようとして胸のレントゲン写真をチェックする放射線医師の目の動きを追った。明らかになったのは、医師がガン病変を見逃したときでさえ、目はしばしば病変部に留まっていた。彼らの脳の一部は何かがそこにあると知っていたんだ。意識の方へ滲んで行かなかったってだけでね。だからたくさんの面白い異端的な考えが僕らの心にもうほとんど形作られていると僕は考えている。僕らが一時的に自己検閲をストップすれば、こういうものがまず初めに浮かび上がってくるだろうね。

(いったん途中まで、今の日本のラベルだったら「不謹慎」とか。)

2018年6月7日木曜日

確率分布と母数の話

 母集団と標本(サンプル)の違い、分布については、具体的にイメージしやすいかと思いますので、わかっているものとして説明します。 
テキスト*1に出てきた例を拡張して、ある池$A$にいる魚の数は500尾で次のような分布をしているとします。(横軸は魚の大きさ、縦軸は個体数)
では、この隣の池$B$には3928尾の魚がいるとします。
隣町の池$C$には魚が158尾いるとします。

ヒストグラムで分布を確認する 

これらのグラフはヒストグラムといいいます。
ヒストグラムから、「それぞれ山なりに分布している」「池$A$を基準に見ていくと、池$B$は右側にあり、山がややなだらか、池$B$は同じ位置にあるけど、山が細く尖っている」など、視覚的に分布の性質を確認できるので、非常に有用である反面、描き方によって問題点も指摘されています*2
また、それぞれ、比較しやすいように、横軸の幅、ヒストグラムのビン(bin; 区間)を一定にして描いていますが、個体数(縦軸)が違うので、それぞれのヒストグラムを並べて表示すると、分布の違いが分かりづらくなります。
重ねると個体数が違うので、それぞれどのような特徴があるのか、わかりづらくなりました。
 個体数の違いに左右されずに、それぞれを比較するにはどうしたらよいのでしょうか。 
ここで、確率分布がでてきます。

おしなべて考える 

個体数がバラバラで比較できなかったので、個体数をそろえましょう。
 たとえば、すべて個体数の合計を1として考えます。(わかりづらかったら100としてもよいです。 たとえば、池$A$は本当は500尾いますが、5尾で1セットの標本と考えて、100個の標本を考える、みたいな感じです)
 すると、ヒストグラムはこうなります。
いやいや、個体数の合計を1って何よ?ってところですが、これが具体的な標本の値を確率変数に考え直すためのイメージです。
 つまり、合計を1(=100%)にする、ということです*3
このように合計数を合わせれば比較がしやすくなります。
また、合計数を1にしているので、縦軸の値がそのビンに入る確率となります。

分布を関数にする

 この山なりの分布は一般的に正規分布と呼ばれています。
別に山なりの分布であればすべて正規分布というわけではないですが、とりあえず正規分布として考えることが多いです*4
 正規分布は、以下の式で表されます。
 $$y=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
グラフにすると
となります。
 テキストで説明があったかわかりませんが、いきなり数式がでてくると「は?」ってなりますよね。
 正規分布の関数は、魚の例で言うと、魚の大きさ(変数x)に該当する確率(合計を1としたときの個体数)を計算してくれる関数になります。
 正規分布の数式を見るにあたって大事なことは、式の中に平均を表す$\mu$と分散(ばらつき)を表す$\sigma^2$が入っていること。 
この$\mu$と$\sigma^2$(または標準偏差$\sigma$)が正規分布の母数(パラメータ)となります。

母数ですべてがわかる 

では、池$A, B, C$について、ヒストグラムを正規分布にあてはめるとどうなるでしょうか。
このように個体数をそろえれば、たとえば同じ分布を仮定して、個体数が2倍に増えても、それぞれの大きさの魚が何尾ずつ生息しているか、その分布(割合)を考えることができますね。
 また、池$A$の母数は平均$\mu=4$、分散$\sigma^2=1.2$、池$B$の母数は平均$\mu=10$、分散$\sigma^2=3.5$、池$C$は平均$\mu=4$、分散$\sigma^2=0.5$の正規分布としました。 
母数がわかれば、どのような分布をしているか(どの位置にあり、山がなだらかか急かなど)がわかるようになります*5


平均$\mu$分散$\sigma^2$
$A$4
1.2
$B$103.5
$C$40.5

母数という数値でわかれば、複数の分布を比べて、「大きさの平均が大きいのは池$B$(大型種が多いのかな?)」ですとか、「ばらつきが小さいのは池$C$(生息している種が少ないのかな?)」ですとか、一目でわかります。 

まとめ

分布を比較しやすいように、関数として扱いやすいように、確率分布は考えられています。
 確率分布がわかれば、調べる対象の分布の特徴がつかみやすいです。
 また、その特徴は母数という数値でとらえることができ、数値であれば比較しやすく、またグラフなどの視覚化もしやすいです。
 統計で扱われる分布は正規分布以外もいろいろとあります。
それぞれの分布には、それぞれ母数も違います。 
一様分布や二項分布などはわかりやすいですが、抽象的で「なぜその分布が必要なんだ?」と思う分布も多いでしょうが、まぁそういうものもある、という程度でひとまず理解していただければよいのではないか、と思います。

ここでは、確率分布について、分布という具体的なイメージから抽象的な確率分布がどのように作り出されるのか、という点に重点を置いて説明しました。
確率分布(確率密度関数)がわかれば、積分することによってどのような範囲の確率でも自由に算出ことができる、という便利さもあります。
統計学にとって、分布と母数(パラメータ)は非常に重要なものですが、分布の種類や特徴、どのようなときに使われるか、など非常に多彩なので、すぐに理解できなかったり、イメージできなかったり、わけわからなく感じることも多いですが、学ぶ内容に従って都度都度復習して、イメージを定着されるのが良いのではないか、と思います。

2018年6月5日火曜日

数式テスト

$$i\hbar\frac{\partial\psi}{\partial t} = -\frac{\hbar^2}{2m}\frac{\partial^2\psi}{\partial x^2}+V(x,t)\psi$$

2018年6月4日月曜日

”Life is short” Paul Graham, January 2016






人生は短い、みんな知ってることだ。幼いころの僕はよくこのことを不思議がったものだ。人生は実際に短いのかな、僕たちは本当に人生に終わりがあるってことを不満がってるのかなって。10回分の人生を生きたときでも、僕らは人生が短いって感じるかな。


この問いにはどうやっても答えられなさそうなので、僕はそのことを考えるのをやめた。それで僕はこの問いの答えがわかった。答えは、人生は実際に短い。


子供を持つことは僕に連続した時間をどうやって分けるかを教えた。2歳児と一緒に過ごせる週末は52回だけだ。クリスマスの魔法が3歳から10歳までしか効かないとすれば、その経験は8回だけしか見ることができない。そして時間みたいにまとまっているものについて多いとか少ないとか言えないにしても、8っていうのは大きな数ではない。手に乗った8つのピーナッツ、あるいは棚から選んだ8冊の本、その量は間違いなくそれほど多くないように見えるはずだ、君の人生がどのような長さであったにしてもね。


OK, 人生は実際に短い。それを知ることで何か変わったことがある?


僕にはある。つまり「人生はXをするには短すぎる」に代入される引数にはものすごい力があるということだ。これは人生は何かをするには短すぎるっていうよくあるスピーチの形ではない。悩みの類義語でもないよ。しようとしていることに対して人生が短すぎるってもし君が考えるなら、できる限りそんな風に考えないようにすべきだ。


何をするためには自分の人生が短すぎるのか考えるとき、自分の頭に浮かぶのは「クソ」って言葉だ。この答えが同義反復的な感じがするのはわかる。それをするには人生は短すぎるというのが「クソ」の定義みたいなもんだからね。それで、だけど「クソ」には大きな特徴がある。ダマシが入ってる。経験のジャンクフードなんだ。*1


どういうのがクソみたいな過ごし方か考えたとき、君は多分もう答えを知っているはずだ。必要のない会議、無意味な議論、官僚制、うわべの言葉、他の人の失敗の話、道路の渋滞、依存性があって褒められたものでない時間つぶし。


こういうものが人生の中に忍びこむには2つの場合がある: 君に強制するか、ペテンに引っ掛けるかだ。ある程度は環境から強いられたクソみたいなものを我慢する必要がある。お金は必要だし、お金を作ることのほとんどは何かの用事をすることだ。実際に需給の法則は示している:何かの仕事の評判が上がれば、人々はそれを安くやるようになる。もしかすると逃れられないクソの量は君が思っているより少ないかもしれないけど。普通の退屈な仕事から離れてそれまでの感覚からするとチャンスの少なそうなところ、しかし人生が本物であると感じられるところで生活しようという人々の流れは常にある。これはもっと普通のことになりうる。


もう少し小さなスケールだったら引っ越ししなくてもこういうことはできる。君が過ごさなくちゃいけない雇用主とのクソみたいな時間の長さを変えるんだ。大企業(やたくさんの中小企業)はクソ時間に満たされている。だけどもしお金や栄光といった他の要素に対するクソ時間の優先順位を君が意識的に決めたなら、たぶん君は雇用主が君の時間をあんまり無駄にしなくなるのがわかると思う。


もし君がフリーランスや小さい企業に勤めている人だったら、お客さんに対してこれをやってみるといい。有害なお客さんとの付き合いをやめて会わないようにしたら、人生のクソ時間が減って、収入が増えたなんてこともある。


でも多少のクソ時間は避けようもなく強制されるにしても、ペテンにかけて君の人生に忍び込むクソは、他の人じゃなくて君の責任だ。そして自分で招き入れたクソは強いられたものよりも掃除するのが難しい。君の時間を浪費させようとして君の気を惹くものは、君をペテンにかけるのが本当に上手い。よく知られているのはたくさんの人がネット上で論争していること。誰かが君に反対意見を言うのは君を攻撃しようとしてのことだったりする。時々はかなりあからさまに。攻撃を受けると君の本能は君を守ろうとする。でも他のたくさんの本能と同じで、こいつも君が今いる世界に合わせてはデザインされていないんだ。直感とは反対みたいだけど、ほとんどの場合、自分の身を守ろうとしないのがいい。そうでないとこういう人々は文字通り君の人生を奪う。*2


ネット上での議論はたまたま中毒を引き起こすぐらいのもんじゃない。それよりもっと危険なものだ。前に書いたように、技術的な進歩の副産物は僕らがもっと依存したくなってしまうようなものだ。そうなると依存症を避けるためにもっと意識的な努力をしなくちゃいけないんだーー自分たちを外から見て「これが自分の時間でやりたかったこと?」って尋ねてね。


クソを避けつつも、大事なことを積極的に探すべきだ。けど大事なことは人によって違うし、ほとんどの人は自分にとって何が大事かを学ばなければいけない。少数の人はラッキーで、数学や動物の世話や書くことを愛していると早く実感して、そしてどうやってそのために時間を使うかに気づいた。けどほとんどの人は大事なことと大事でないことの混ざった生活をしているところから始めて、どう区別したらいいかをだんだん覚えていく。


特に若い人にとって、こういう大きな混乱は彼らのいる人工的な状況によって仕向けられたものだ。中学校や高校では、他の子が自分のことをどう思っているかが世界中で一番大事なものだ。でも大人たちにその年齢のころの失敗を尋ねてみたら、十中八九は人のことを気にしすぎだったって答える。


大事なものを見分けるためのいいやり方は、将来そのことを気にするかどうか自分に尋ねてみることだ。大事そうに見える偽物は往々にして大事そうに見えるその見え方のグラフに急なピークがある。それがペテンにかけるやり方だ。曲線の下の面積は小さいのに、ピンみたいなジャブを君の意識に打ち込んでくる。


大事なことは必ずしも人の言う「重要なこと」じゃない。友達とお茶することも大事なことだ。その後で時間の無駄だったみたいなことは思わないだろう?


小さな子供を持つことの素晴らしさは彼らのおかげで君が大事なことに時間を使うようになるってところにある、つまり子供たちだ。君が携帯に見入っているとき、彼らは君の袖を掴んで言う、「一緒に遊ぼうよ」。そしてこれは事実上そのおかげでクソ時間を減らしていく選択の可能性が生まれるってことだ。


もし人生が短いなら、その短さは僕らに不意打ちを食らわせるもんだと思っとく方がいい。そしてこれはまさによく起こることだ。君は物事を当たり前に思う、そしてそれらの物事は君を離れてどこかへ行ってしまう。いつでも本を書けると君は考える、あるいは山に登ったり、あるいは他の何でも、そして君は窓が閉じられたことを知る。窓が閉まって一番悲しいのは人が亡くなる時だ。彼らの人生も短い。母が亡くなって、僕は彼女ともっと一緒に過ごせたらと願った。僕はいつも母がいるかのように過ごした。そして彼女らしいいつもの静かなやり方でその幻想を強める。けどそれは幻想だ。僕はたくさんの人が僕と同じ失敗をしていると思う。


何かから不意打ちを食らわないようにする一般的なやり方は、意識的にそのことに気づいておくってことだ。昔、人生がもっと行き当たりばったりだった頃は、今となってはちょっと陰鬱好みに見えるかもしれないぐらい、人々は死ぬことについて自覚的だった。なぜか知らないけど、誰もの肩の上に浮かぶ死神のことをいつも思い出させるのがいい答えだとは僕には思えない。この問題はたぶん反対側から見る方がいいんだろう。君が一番したいことをせずにいられないっていう習慣を作ることだ。保留しないことだ、山に登る前に、その本を書く前に、君のお母さんに会いに行く前に。なんで保留せずにいるかをいつも思い出す必要はない。単に、保留しないでやってしまおう。


人が持たざる者である時、その人には2つのことができると僕は思う。つまりもっと持つこと、そしてそれを味わうことだ。


どう生きるかがどのくらい生きるかに影響を与える。人々はもっといい感じにやれるはずだ。その内の1人として僕もね。


けどもっと影響の大きいことがあると思う。そこにある時間についてもっと注意を払うことだ。日々を過ぎゆくままにしておくのは簡単だ。想像力の豊かな人々が大好きな「フロー」にはもっと悪いいとこがいて、雑務やアラームが混ざった日常の混濁液の中で君が立ち止まって人生の芯を味わえないようにしてくる。僕が読んで一番衝撃を受けたのは本の中身じゃなくってタイトルだった:James SalterBurning the days


時間が進むのをいくらかゆっくりにすることもできる。僕は少し上手になったよ。子供が助けてくれる。小さな子供がいるなら気づかないはずのない、たくさんの完璧な瞬間が子供との生活にはある。


自分がいくつかのことだけやって、他のことをしていないんだって感じるのも助けになる。母が亡くなって悲しいのは、単に彼女が恋しいからってだけじゃない。しなかったこと、でも僕にはできたはずのことを思うからだ。僕の長男はもうすぐ7つになる。3歳のバージョンの頃の彼は恋しくても、他にあり得たことについて少なくとも後悔はしてない。父と3歳児のあいだの最高の時間を僕らは過ごしたからね。


クソ時間をビシバシ取り払っていこう。大事なことをしようというときは保留しないこと、そしてそこにある時間を味わっていこう。それが人生が短いってときに君がやることだ。


*1: 僕ははじめ、自分の心に浮かんだこの言葉が好きじゃなかった。けれどそのあとで、別の意味の方も相当密接に関係しているって感じた。自分の時間を浪費するその対象という意味の”Bullshit”は本当に知的なクソみたいなものだからね。

*2: 自分へのノートとして、僕はこの例をわざわざ選んだ。僕はネット上でよく攻撃される。人々は僕について本当にイかれた嘘を言う。そして僕はこれまでのところ、人間の本来的な傾向を抑えるという、つまり「それは違うよ!」と言いたくなってしまう気持ちを我慢するという、かなり凡庸な仕事をしてきたんだ。

ジェシカ・リビングストンとジョフ・ラルストン、原稿を読んでくれてありがとう。

>>> print("Helloworld again!")

Helloworld again!

$t$分布について

標準正規分布$N(0,1)$に従う母集団から2個サンプリングする場合を考える。 2個のサンプリングから、母集団の平均値を推定する場合、たった2個なので、さすがにばらつきが大きくなる。 2個のサンプリングを何回も繰り返して、算出した標本平均をヒストグラムに表すと、次の...