02. 2013年7月30日 01:00:46
: niiL5nr8dQ
万能薬ではないビッグデータの“副作用”に注意せよ経営学者が見る「ビッグデータ」の本質(第6回) 2013年7月30日(火) 林 高樹 企業のビジネスを巡って日々流れるニュースの中には、今後の企業経営を一変させる大きな潮流が潜んでいる。その可能性を秘めた時事的な話題を毎月1つテーマとして取り上げ、国内有数のビジネススクールの看板教授たちに読み解いていただき、新たなビジネス潮流を導き出してもらう。 今月のテーマは、メディアなどで盛んに報じられるようになった「ビッグデータ」──。一般的な言葉として定着しつつあるビッグデータとはどのようなものなのか。企業のビジネスを大きく変える可能性があるとされるが、実際にはどのような効用があるのか。その本質について、国内ビジネススクールの教壇に立つ4人の論客がリレー形式で登場し、持論を披露する。 最後の4人目として登壇するのは、慶応義塾大学大学院経営管理研究科の林高樹教授。統計学の専門家の立場から、ビッグデータの効用と限界、そして活用する側に求められるリテラシーについて語ってもらった。 (構成は秋山基=ライター) 私は以前、銀行で新商品・技術の研究開発に携わっていました。そこで確率統計の面白さに目覚め、研究者の道に進みました。 今、研究で触っているのは、金融証券取引の「高頻度データ」です。ミリ秒単位の時間刻みのデータを使って、市場の値動きやリスク量の変化、銘柄間の相関関係といったものを調べて評価しています。 最近の市場では、コンピューターによって自動的に売買注文を行う「HFT(高頻度売買)」という手法が盛んになり、ヘッジファンドや専門の会社がこれを用いるようになっています。そのアプローチの1つに、インターネット上のツイッターでつぶやかれている言葉や、グーグルでよく検索されるキーワードを抽出したり、ヘッドライン・ニュースの内容をテキスト解析したりすることで、株価の動きを予測して自動的に売買注文を出すという手法があり、既に一部が実用化されていると聞きます。 これはビッグデータを分析することによって利益を出そうとする取引であり、ビッグデータとは、単なるデータ自体ではなく、そのようなことを可能にするインフラ、つまりICT(情報通信技術)を含めて考察すべきテーマであろうと思います。 20年ほど前、私は、5分間隔の日経平均株価半年分をデータ分析したことがあります。すると、米ハーバード大学の大学院生から「そのデータはどこで手に入れたのですか。もらえませんか」という問い合わせを受けました。当時は高頻度データの入手は難しかったのです。 ところが、今ではすっかり様変わりしています。「3つのV」と言われるように、大量(Volume)で、多様(Variety)で、高頻度(Velocity)という、私たちの想像を超えるような形でデータが出回っています。 しかも、そういったデータが、リアルタイムか、ほぼそれに近い形で処理できるようになり、以前では考えられなかったような使い方もされるようになりました。「ビッグデータ」なる言葉が生まれる前から「大規模な」データの統計分析を行ってきた私や周りの研究者も素直に驚いています。 「統計学の終わり」なのか では、統計学者たちは現在の状況をどのように見ているのでしょうか。実は、ビッグデータブームによって、統計学が脚光を浴びるチャンスが到来したというふうに前向きなとらえ方をする人がいる一方で、ビッグデータは統計学にとって脅威になると悲観的な見方をする人もいます。 統計学は、学問の世界ではどちらかと言えば黒子の役割を担ってきました。米国の大学には統計学部がありますが、日本の大学に統計学部はなく、いろいろな学部の中に統計学の講座や教員が分散して存在しています。 つまり統計学は、社会学や経営学や医学や心理学といったほかの科学分野に統計の手法を提供し、各分野の研究の発展をサポートする役割を果たしてきたのです。もちろん、統計学にもベースとなる理論はあるのですが、ほかの学問とのコラボレーションを通じて新たな統計的方法論を生み出すという発展の仕方をしてきました。 (写真:都築 雅人) そのため、統計学者は、自分たちの役割を「審判(レフェリー)」だと見なす傾向があります。バイアス(偏り)のないデータの取り方を教えるとか、「客観的な」データ分析をするとか、推定方法や予測方法の選択肢をそれの前提条件や限界を含めて的確に伝え、選択はその分野の専門家(あるいは実務担当者)の最終判断に委ねなさい。大学院ではそう教えられます。
統計的方法論によるデータ分析において、他分野のアプローチと比較して特徴的なことは、データの「ばらつき」を重視することにあります。「不確実性」を考え、それを数学的に「確率」で表現しようとします。一方で、そのようなアプローチゆえに、統計的方法論が出す結論は、どちらかと言えば保守的なものになりがちです。ゆえに、例えばビジネス上の意思決定に統計的方法論を教科書的に「正しく」使おうとするとき、予測の幅がビジネスでは使えないほど広かったりするなど、得られた結果がビジネスの人たちにアピールしないこともあるようです。 そんな中、ビッグデータが注目されるようになり、このままでは統計学は、ITに強く、高速計算やデータのビジュアライゼーション(可視化)に長けたコンピューターサイエンスの専門家などに後れを取ってしまうのではないかと危機感を抱く統計学者もいます。一般的に、統計学者は大規模データの処理には精通していません。今の状況を指して「統計学の終わり」なのかと、自虐的な問いかけをする統計学者もいるほどです。 しかし、ビッグデータを分析しようとするなら、どんな形であれ統計的手法を使うことになります。「ビッグデータの時代」においては、データの使い方、統計的手法の選択の良しあしやその使い方の巧拙によって、ビジネス上の損得が大きく変わる可能性があります。そもそもすべてのデータを蓄積することはできませんから、ビッグデータの蓄積に当たって、どういう頻度でどの内容を取るかの意思決定に迫られます。 統計学のビジネス上のインパクトはこれまでにないほど大きくなっているように思います。これを機に、大学における統計の研究や教育システムをアップデートし、ビジネスの世界の意思決定にもより深くコミットできるようにすべきだと考えている統計学者もいます。 今までのような審判の立場にとどまるのか、そこから一歩を踏み出してより「現場」にコミットするのか。ビッグデータの出現によって、統計学の専門家も選択を迫られる時代が到来したと言えるのかもしれません。 過去を説明できても、将来は予測できないことも サンプリングのコストが高いことを暗黙の前提とする従来の統計学では、いかに少ないサンプルから全体(母集団)に関する特徴を推定したり、いまだ観察していないデータに関して予測するかを考えてきました。しかし、今日では、母集団全体とも言えるようなデータが簡単に低コストで集められるようになり、これについて直接分析ができるようになりました。このことも統計学にパラダイムシフトを迫っています。 ビッグデータ利用によって期待される応用の1つが、政府統計などこれまでサンプリングにコストがかかり、公表まで時間を要していた指標を精度良く模倣できる代替変数の提供です。その好例が、東京大学大学院経済学研究科の渡辺努教授らが今年5月から公開している「東大日次物価指数」でしょう。 政府の物価統計は作成するのにかなりの時間やコストがかかりますが、この指数は、日本全国のスーパー約300店から、20万点以上の商品の価格や販売数量などをPOS(販売時点情報管理)から日々送信してもらったデータを基に作成し、原則として3日後に公表しています。このように低コストでタイムリーな指数が提供できるというのは、ビッグデータの効用の1つでしょう。 ビッグデータは、マーケティングの分野でもうまく実用化され始めています。例えば、eコマース(電子商取引)の企業などが、異なる2つのパターンのウェブサイトを作り、ユーザーのアクセスログを追跡することによって、ウェブデザインの効果を比較していますが、このような統計学の「実験計画法」をマーケティングに応用した、いわゆる「スプリットラン・テスト」が、実際のビジネスをしながら低コストで簡単かつ迅速にできるのも、ビッグデータの効用です。 また、ビッグデータによって、「ファットテール(ロングテール)現象」と呼ばれる、発生確率が極めて低い事象についてのデータも取れる可能性が出てきました。100万件に1件程度の出現頻度でしか現れず従来のデータセットの中には入ってこなかったような事象でも、ビッグデータ10億件のデータを集めれば、1000件ほど取れることが期待され、それらについての分析が可能になります。 とはいえ、ビッグデータは決して万能ではありません。サンプルではなく、母集団に近いデータ、あるいは母集団そのもののデータを取ったからといって、すべてのことが見えるようになるわけではありません。ビッグデータ分析が適した分野とそうでない分野があるだろうと思います。一言で言えば、ビッグデータを生成しているメカニズムが時間を通じて変化しているか否かという見極めが大事です。 例えば金融証券市場において、ビッグデータ分析の結果、確実に儲かる売買ルールが得られたとします。しかし、その情報が多数の投資家の間に広まり、皆がそのルールに従って取引をすれば、同じタイミングで売買どちらかの注文が片寄り、その結果期待通りに売買が行えず(取引価格が動いてしまい)、儲けられなくなるでしょう。人々の行動が市場の構造を変えたのです。 すなわち、時間とともに構造が変化する分野、とりわけ人の行動自体が構造を変えるような分野において集められたビッグデータは、過去を説明することはできても、将来は予測できない可能性が高いのです。例えば、金融証券市場にはビッグデータをもってしても説明できない市場を駆動する複雑な要因が様々あり、よって、ファンドマネジャーのような市場のエキスパートの存在意義は今後ともなくならないでしょう。 費用対効果の問題も改めて考慮すべきでしょう。現状のビッグデータブームは、ややITベンダー主導の感があり、「今、このインフラを買わないと、時代に乗り遅れますよ」という企業への売り込みが先行しているように見受けられます。しかし、単純な分析であれば、従来のデータ分析でも十分有効な可能性があります。 当たり前ですがビッグデータの分析は何らかのビジネス上の目的を達する手段であって、それ自体は目的ではありません。別にビッグデータを新たに集めなくても、手元にあるデータの有効活用をまず考えてみることが大事です。 しかも、失敗事例は世の中に出にくいものです。ここにもある種のサンプリング・バイアスがあると考えた方が無難です。ブームに惑わされないことも重要です。 ビッグデータの使用が効果的なのは、やはり消費者1人ひとりの購買行動を予測するマーケティングのような分野だと思います。個人の嗜好や行動パターンは時間とともにあまり変化しないでしょうから、消費者個人の購買履歴やアクセスログのデータを大量に集めて、消費者を類型化し、得られたルールやモデルに従って販促やリコメンデーションを行うアプローチは、理にかなっていると思います 日本人の統計リテラシーは高くない ただし、今後、ビッグデータを活用していくうえでは課題もあります。その1つは、人材が不足していることです。 ビッグデータを扱うためには、データ・サイエンティストの育成が不可欠であるとよく言われます。それはその通りだと私も思いますが、そういった高度人材だけでなく、中堅人材、つまり、ある程度の統計リテラシーがあるホワイトカラーの存在も重要です。 一般的に日本人の統計や数学に関するリテラシーはそれほど高くありません。むしろ、近年低下傾向にあるように感じます。そんな中、ビッグデータを分析して活用しようというのは、ある意味で危険なことでもあります。ビッグデータが誤用されたり、乱用されたり、悪用されたりするリスクも見ておかなくてはなりません。 例えば、消費者の動向や企業が売り出した商品の良しあしを調べるために、インターネット上のつぶやきや書き込みを大量に集めて分析するといった方法が考えられますが、当然、そういったつぶやきや書き込みは、モノを売る側の人たちやアフィリエイターによって作られている可能性があります。ネットからのデータにはサンプリング・バイアスがあり、それをいかに取り除くかという問題が常につきまといます。 相関についての理解も大切です。商品Aを買った人は商品Bも買っているとか、Cという嗜好を持っている人はDという嗜好も持っているといった連動性が見られる場合、統計学では相関があると言いますが、相関関係は必ずしも因果関係を意味しません。 「風が吹けば桶屋が儲かる」ということわざの例のように、「AならばBである」を言うには論理が必要です。人が関与し、専門知識や経験や勘を総動員して、2つの事柄の間をロジックで埋める必要があるのです。物事を深く考えず、統計的な相関関係を因果関係と勘違いしてしまう。これは統計的リテラシー欠如の典型例です。 また、統計的リテラシーの点ではやや高度な話になりますが、ビッグデータを使って、複数の仮説を同時に検証(検定)する場合、1つの仮説検定では起こらなかったような問題、いわゆる「多重仮説問題」(当初想定よりも「帰無仮説」を棄却しやすくなる)という現象の発生することが統計学で知られています。 ゲノム解析など多数の遺伝子を同時に比較するような場面において重要な課題で、医学・生物学統計分野を中心にこれを補正するための方法論が研究されています。目的にもよりますが、ビッグデータ分析を適切に行うには、このような高度な統計的方法論に精通した統計専門家の協力が必要な場面が出てくるでしょう。 都合の良いデータばかりが目に入るバイアスも さらに、ある仮説を立て、それをデータで実証しようとするとき、人はついつい仮説を満たすのに都合の良いデータばかりが目に入ってしまい、それによって仮説に対する誤った確信を強めてしまうことがあります。このことを行動科学分野では「確証バイアス」と言いますが、これは統計の専門家でさえも陥るかもしれないすべての人間に共通した意思決定・判断のワナです。 確証バイアスによる誤りのリスクは、ビッグデータの活用によってさらに増える可能性があります。なぜなら、仮説を実証しようとするとき、データがたくさんあればあるほど、仮説を満たすかのような証拠が見つかりやすいからです。 ビッグデータを可視化することでパターンを発見する、これは機械にはまだまだ困難なことです。他方、人間の認知のクセとして、元来ランダムな系列にパターンを見いだしたり、過去データを伸ばしてトレンドを見つけたりしてしまうようなバイアスのあることがよく知られています。 見いだされたパターンが真のパターンなのか、目が勝手に見つけてしまった偽のパターンなのか見極めは難しいでしょうが、少なくとも、データの中から見つけたパターンを鵜呑みにしないような批判的態度は必要でしょう。 リーダーの意思決定支援に生かす 最後に意思決定の支援という観点からお話しします。 人間は、経済学が言うところの「合理的経済人」ではありません。人間は、入手可能な情報の量に限りがあったり、記憶量や情報処理スピードに制約があったりするなど、「合理的に」意思決定することはできません。これは、ハーバート・サイモンの「限定合理性」の考え方ですが、実際の人間行動を観察する行動科学分野において、人間行動に関する様々な「非合理的」行動、バイアスが報告されています。 例えば、米コロンビア大学ビジネススクールのシーナ・アイエンガー教授は、有名な「ジャムの実験」を行いました。店の入り口に試食ブースを設け24種類のジャムを並べたときと、6種類のジャムを並べたときを比較すると、ブースに立ち寄った客が実際にジャムを購買した割合を見ると前者は後者の10分の1だった。 この実験結果から、選択肢が多いときほど、人は意思決定がしづらくなるということを同教授は示しました。人間が「合理的」であれば、選択肢が多い状況ほど、自分の効用を高める選択肢を見つけやすくなるので、結果は逆になるはずです。 ビッグデータ時代において、情報量が増えノイズも増え、一方で、新商品や新技術、事業戦略の短命化が進む中、多くのことを矢継ぎ早に決めなければならない「限定合理的」、あるいは「非合理的」な私たちは、ますます判断を間違えやすくなるだろうと思います。データ量にひるむことなく、24時間365日間不平を言わずに首尾一貫したデータ処理や意思決定支援をしてくれる機械があれば、それは頼もしい存在になるはずです。 米フロリダ州立大学のロイ・バウマイスター教授(心理学)は、人間の「意志力(ウィルパワー)」は筋肉のようなものであり、使えば使うほど疲れる(ただし、鍛えることもできる)と述べています。意思決定は、やれば疲れる(意志力は消耗する)ものであり、人は疲れると的確な意思決定ができなくなります。 意思決定分析の観点から、これらを踏まえて私が言いたいのは、ビッグデータの活用を通じて、企業のリーダーには重要な意思決定に集中してもらうべきだということです。 ビッグデータが広く活用されるようになれば、データに基づくルーティン化された意思決定はかなりの部分機械に任せられるようになることが期待されます。もちろん、そうした仕組みを作って機能させていくためには、人が関与してPDCAサイクルを回さなくてはなりません。そのうえで機械に任せられるような日常的意思決定は極力機械に任せることで、企業のトップや幹部は、非日常的な、会社や部門の命運を決するような重要で難しい(戦略的な)意思決定に全精力を振り向けられるようにできればよいと思います。 現代の企業では、組織の上層部にいる人ほど、多くの意思決定事項を抱えており、重要な意思決定に集中できない状況に置かれています。ビッグデータの活用によって、そのような状況が改善されれば、リーダーが良質な意思決定を行うことの支援となります。それもビッグデータの1つの効用になるのだろうと思います。 (次回からは、日本企業が海外の企業や事業を合併・買収する「国境を越えたM&A」の巧拙をテーマとしたシリーズをお届けします) このコラムについて MBA看板教授が読むビジネス潮流 企業のビジネスを巡って日々流れるニュースの中には、今後の企業経営を一変させる大きな潮流が潜んでいる。その可能性を秘めた時事的な話題を国内有数のビジネススクールの看板教授たちが読み解き、新たなビジネス潮流を導き出していく。
|