http://www.asyura2.com/13/nature5/msg/162.html
Tweet |
(回答先: 科学研究の問題点:科学はどこで間違えるのか 投稿者 SRI 日時 2013 年 10 月 21 日 11:46:54)
未来授業〜明日の日本人たちへ
西内啓氏 〜統計学〜統計学が最強なワケ
2013年10月18日
今回の講師は、統計家の西内啓(にしうち ひろむ)さん。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在は社会にイノベーションを起こすためのさまざまなプロジェクトにおける調査、分析、システム開発、戦略立案のコンサルティングに従事。新刊『統計学が最強の学問である 』(ダイヤモンド社)が大きな話題を呼びました。
統計学が最強なワケ
先だって『統計学が最強の学問である』という本を書いたのですが、「最強」と断言したのは、いま、政治学・経済学・経営学・教育学・ITなど分野を超えたすべての学問が「最終的には統計学で結論づけなければいけない」という流れになってきているからです。
たとえば、教育の世界に「子どもをのびのび遊ばせた方がいい」とか「褒めて伸ばした方がいい」という問題があります。このことについては多くの方が自分の経験や理論に基づいてさまざまな説を唱えてきたのですが、結局どちらなのかを結論づけることはできませんでした。
褒められて伸びる人もいれば、甘やかされてだめな大人になる人もいるわけですから、どちらも間違ってはいません。でも「100人の子どもたちを50人ずつに分け、片方は褒めてみて、片方は厳しく叱ってみたとき、1年後にはどちらの成績が伸びるのか?」という検証は、統計学を使うことで可能になります。
それは、政治の世界でも同じです。実際に最近すごく話題を集めたのは、オバマ大統領が選挙で勝つためにデータ分析、統計学を使ったこと。どんな手紙を送れば選挙の資金をより多く寄付してもらえるのかについては、いろいろな専門家がいろいろな考えを導き出しているのですが、結局どれが本当に正しいかはよくわかりませんでした。
そこでいろいろなものを試し、さまざまなパターンのメッセージを多くの人たちに送り分け、どれが一番いいのか分析したデータを選挙に取り入れたところ、ものすごい額が集まったのです。それが、オバマが大統領選挙に勝利した理由のひとつなのではないかともいわれています。
1960年代のころの統計学の世界では、「理論上はこう計算をすればいい」ということはわかっても、実際に計算するのはとても大変でした。1,000個のデータを足し算するのも、人間の手では負担がかかりますから。しかし現代なら、世界中どこのオフィスにもあるパソコンを使えば、簡単にデータ分析ができる。つまり分析のハードルが下がったことが、統計学が浸透した背景のひとつなのです。
実際にデータを得る場合にも、ひとりひとりにアンケートをし、答えを紙に書いて集計するという手作業はとても大変だったのですが、いまだったらインターネットで調査でき、GPSやセンサーなどで自動的にデータがためられるので、「統計解析に必要なデータが足りない」という状況が一気に改善されました。そういったものは「ビッグデータ」と呼ばれていますが、ビッグデータを生かしたら、さまざまな分野ですごくおもしろいことができる。そういう意味でも、統計学が最強の時代になってきたのではないかと思います。
日本は統計学先進国
ビッグデータが注目を集め、それを活用すると大きな利益を上げられることが少しずつ知られてくるようになりました。たとえばAmazonのレコメンドシステムで「この商品を買っている方はこちらも買っています」というような結果が出てきますが、あれも裏側では統計解析され、「◯◯という商品を買った際に、これが買われやすくなる確率が上がります」という分析がなされているからなのです。
その結果、Amazonは売上が伸びたので、他の企業も「これからはビッグデータの時代だね」とチャレンジをしはじめました。そして「まずは分析ができなければいけないだろう」ということで、データ分析を専門とし、ITにも詳しい「データサイエンティスト」という職業が注目を集めるようになってきています。
一説によると、データサイエンティストはアメリカでも10〜20万人ぐらい不足するといわれていますが、個人的には日本はちょっと違うと思っています。なぜなら、Amazonがデータ分析を使って利益を上げるよりももっと前の時点で、統計学によって世界的に一番の利益を上げた国は日本だからです。
ポイントは「カイゼン運動」です。「カイゼン」という概念においては、いろいろな製造業の現場で不良品が出た場合、不良品率はどこが一番高いのかを集計していきます。「一番不良品率が高いパーツはどれで、最終的にはそれが製品全体の不良品率に影響しているのではないか、どう原因を解決すれば生産性は上がるのか」と分析をしていくと、工場全体で製品をつくるスピードや不良品率がコントロールできるわけです。それが「カイゼン」と呼ばれる方法で、背後には統計学的な知識があります。高度経済成長期は、そういった考え方に支えられていたのではないかともいわれています。あくまで単純集計なのですが、日本の場合は一部の偉い人や経営者だけがわかっているのではなく、地方の工場で働いていらっしゃる職人さんでも、ひとりひとりが当たり前のように算数を使いこなし、統計的な集計をする文化がありました。ですから、「1億人全員がデータサイエンティストです」というような状況をつくれればいいなと考えています。
誤差の範囲を知る
統計学の集計は、おそらく多くの日本人が当たり前のようにやっています。たとえば事務職に就いている方も、Excelを使えば今月の製品の売上や、平均残業時間の計算も簡単にできます。これはすごいことなのですが、さらに次の一歩に踏み込むとしたら、「誤差」という統計学の概念を理解する必要があると私は考えています。
誤差の範囲については日常的な会話でも「それぐらいは誤差の範囲だよね」というような言い方をしますが、統計学では「これぐらいのずれが、どれぐらいの確率で生じるのだろう」と、厳密なものとして使われています。
たとえば「調査の結果60%の方がこう言っていました」というのはあくまで集計結果として正しいのですが、5人中3人が言っていた60%と、1万人中6,000人が言っていた60%では、おそらく意味が違います。つまり、たまたま1人が心変わりして、本来なら“Yes”と答えたはずの質問に“No”と答える確率は実際問題としてあるはずだからです。しかし、仮に「5人中3人が“Yes”と言っていたから60%」というデータでも、1人が心変わりすると20%も変わってしまいます。
一方、1万人中6,000人のなかで1人が心変わりしたとしても、0.01%しか変わりません。そういった違いがあるのです。1万人の20%が変わるということは、2,000人が突然心変わりをする奇跡的な確率で、そういうことはありえないということになると思います。
この違いをどう吟味するかが統計学の大事なポイントです。統計学では、誤差の範囲をクリアに説明するために「信頼区間」という概念を使います。先ほどの例でいいますと、5人中3人が60%というものは、実は40%だったかもしれませんし、80%だったかもしれません。「どれくらいの確率で何%から何%の間になる」というような範囲で集計結果を把握する考え方が統計学の「信頼区間」という概念です。たとえば先ほどの「60%で1万人中6,000人」というのは、「59〜61%の間のどこかで60%という値が出ました」というふうに、誤差の範囲を正確に記述することで間違った判断が少なくなるのです。
実際、我々が目にする統計の結果は、多くの場合その平均値と割合は出ているのですが、誤差の範囲がクリアに表現されていません。でも「何%の人がこう言っていました」というデータではなく、「誤差の範囲で考慮すると、本当は何%から何%の間のどこかかもしれない」という付加情報があってもいいのではないでしょうか。そして、そういった情報を当たり前のように日本人が受け入れられるようになると、日本の統計リテラシーが大きく変わるのではないかと思います。
因果関係の向き
誤差に加えてもうひとつ考えた方がいいのは、「因果関係の向き」です。たとえば、長年ずっと議論されていたひとつの仮説に、「早寝・早起き・朝ごはんという生活をすると子どもの成績は上がるのではないか」という話があります。実際にデータを集計してみても、早寝・早起きで朝ごはんを食べている子どもは、そうではない子どもにくらべてたしかに成績がいい。ただ、だからといってそのまま受け取っていいかは微妙です。
でも、ランダムに選ばれたひとつの学校で実際に比較をしてみて、その結果として「朝ごはんを食べたら他とくらべて成績が上がった」のであれば信頼性が増します。事実、東京の大田区で試したところ、本当に朝ごはんを食べることで成績が上がったという結果が出ました。そしてその結果に基づき、現在では「朝ごはんをちゃんと食べて、ちゃんとした生活習慣を心がければ子どもたちは勉強が得意になるのではないか」と言われています。
データだけを見ていると、原因なのか、結果なのかということに騙されてしまうのですが、統計学の教科書には、その点に注意しましょうと書かれています。ただ個人的には、「注意しましょう」と言われてアクションをとらないのはもったいないと思います。「そうかもしれない、でも原因か結果かわからない」という状況下で「どうしたら子どもの成績を上げられるか」悩んでいるとき、「朝ごはんをちゃんと食べる生活にすればいいかもしれない」という仮説は大きな助けになるはずだからです。
ですから、多くの人が実際に試してみるというアクションをとればいいのです。そのアクションをとってみた場合と、とらなかった場合の両方を、少しずつ試して比較する。そして、自分の頭はどちらの状況で働いているかを検証してみる。すると個人的なランダム化比較実験として、実際に自分が取るべきアクションがわかるのではないかと思います。
もちろん絶対的な正解はないかもしれませんが、最近はこうした考え方に統計学を取り入れようというビジネスマンの方がいらっしゃいます。統計学を取り入れることでより正解に近いもの……これを私は「最善の答え」といっていますが、つまり必ずしも正解ではないにせよ、より正しい確率が高いであろうという選択をとり続けられるのではないかと思います。
これだけ統計学が注目されたことには私も驚いているのですけれども、いろいろな企業など、どこへ行っても統計学ができるということでありがたがられています。そんななか、みなさんが統計学を勉強したくなったときは、どうすればいいか。
不思議なことに、日本の大学には統計学部が存在しません。ただし統計学は、いろいろなところで教えられています。たとえばビジネススクールの1年コース、あるいは週末のビジネススクールなどで、統計学を教える授業を持っている学校もいくつかあるので、学びたい場合はそういったところを調べていただければいいのではないかと思います。
(FM TOKYO「未来授業」9/2(月)〜9/5(木)放送より)
(2013年10月18日公開)
https://www.blwisdom.com/linkbusiness/linktime/future/item/9223-72.html?mid=w432h90400000492638
スパムメールの中から見つけ出すためにメールのタイトルには必ず「阿修羅さんへ」と記述してください。
すべてのページの引用、転載、リンクを許可します。確認メールは不要です。引用元リンクを表示してください。