http://www.asyura2.com/18/hasan126/msg/703.html
| Tweet | 
 
これからの企業はデータサイエンスの「正しい理解」が必須だ
http://diamond.jp/articles/-/166886
2018.4.12 野口悠紀雄:早稲田大学ビジネス・ファイナンス研究センター顧問 ダイヤモンド・オンライン
「データサイエンス」が注目を集めている。
 これは、一体、どのようなものか? 企業にとって、データサイエンスの導入は、意味があることか?
 データサイエンスは新しいアプローチなので、その内容について必ずしも正確に理解されているわけではない。流行語のから騒ぎに終わってしまう可能性がある。それだけでなく、導入して事態をかえって悪化させてしまう危険もある。
 データサイエンスの利用から成果を引き出すためには、内容についての正しい理解が必要だ。
データサイエンスとは、
「データが駆動する」アプローチ
 ウィキペディアには、「データサイエンスとは、データに関する研究を行う学問である」と書いてある。この定義は間違いではないが、あまりに広すぎる。
 単に「データを扱う」というだけなら、これまでも広く行なわれてきた。
 一般には、つぎのようにいわれることが多い。
 コンピュータサイエンス、数学、統計学、情報科学などの知見や手法を用いる科学。ビッグデータ、AI(人工知能)、ディープラーニングと関連する。
 こうした概念規定も間違いではないが、データサイエンスの本質を示しているとは言いがたい。
 重要なのは、データサイエンスは、理論とデータの位置づけに関して、これまでとは正反対のアプローチを取っていることだ。
 従来の考えでは、まず理論モデルがあり、それから観測可能な結果を導き出す。それを実際のデータと突き合わせて、理論モデルの正しさを検証する。これは、「理論駆動型」または「仮説駆動型」と呼ばれるものだ。
 ところが、データサイエンスでは、これと逆の方法論を取っている。つまり、理論モデルがなくても、データを用いてコンピュータに判断させ、モデルを導くのだ。
 モデルが明確には分からない場合もある。後述するディープラーニングの場合、なぜ、導き出されたパラメータの組み合わせが最適なのかが解釈できない場合もある。そうであっても、答えが正しければよいとされる。
 このため、データサイエンスは、「データ駆動型科学」(data-driven science)とも呼ばれる。
 これは、科学的方法論の大転換なのである。
「理論駆動型からデータ駆動型へ」という、基本的方法論の大きな転換が起こりつつあるのだ(ゲノム解読での応用は、『週刊ダイヤモンド』4月7日号、「『超』整理日記」第899回「データ駆動への転換で科学は自動化できるか」を参照)。
 このアプローチは、ビジネスにおいても有用だ。これを適切に使うことができれば、企業収益を飛躍的に増大させることができる。また新しい事業分野の開拓も可能になる。
 ただし、データサイエンスでどんなことでもできるわけではない。
 その内容が新しいものであることから、データサイエンスのいかなる方法を、事業のいかなる分野に応用したらよいのかは、自明ではない
プロファイリングをもとに広告
自動診療、図形認識などに
 企業が導入を考える際には、データサイエンスがこれまでどのような成果を上げてきたかを見るのがよいだろう。
 データサイエンスの第一の応用は、データから、ある人の性格や嗜好、意見などを推測することだ。これを「プロファイリング」という。そして、その人に応じた広告を流したり、政治的なメッセージ送ったりする。
 グーグルの検索履歴やフェイスブックの「いいね!」のデータから、その人がどのような人であるか推測できる。そして、その人に合った広告を送る。
 グーグルやフェイスブックは、このような広告モデルによって急成長してきた。ネットフリックスも、同様の手法でレコメンデーション(顧客の嗜好を分析し、関心がありそうな書籍、映画、商品などを勧めること)を行なっている。
 フェイスブックの個人データが不正な方法で取得され、アメリカ大統領選挙で用いられたのではないかということが、現在、問題となっている。取得方法は確かに問題だが、データサイエンスの進歩によって、データからプロファイリングすることが可能になっているという点が重要だ。
 保険でも利用がなされている。
 自動車にセンサーを搭載し、運転の状況によって保険料を変える自動車保険がすでにある。また、血液検査などのデータから保険金の支払いを自動的に変える保険も登場している。
 また、あるデータが得られた場合に、その原因を突き止めることも行なわれる。
 従来から行なわれてきたものは、スパムメール(迷惑メール)検出のためのフィルターだ。メールに含まれている文言などから、スパムか否かを自動的に判断する。
 侵入の探知などにも用いられる。
 また、医療では、自動診療への応用が進められている。
 パターン認識(図形や音声などの認識)にも、データサイエンスの手法が用いられている。
 顔認識の技術が進んでいる。自動車の自動運転も、近い将来に実用化されるだろう。音声認識も、コールセンターの自動化など、幅広い用途を持つ。
 そしてビッグデータがあると、データから推論を行なうことが、より正確になる。
 ビッグデータの利用が可能になったことが、データ駆動型のアプローチの有効性を高めたことは間違いない。ただし、ビッグデータが必ず必要であるわけではない。
 例えば、鉱物資源の探索はデータを取りにくい分野だが、ここでどのようなデータを集めたらよいかの分析にも、データサイエンスが使われている。
学習データによって
ディープラーニングなどの手法
 以上のような目的のために古くから用いられてきたのは、重回帰分析の手法だ。
 最近では、学習データによって自動的に最適なモデルを見出すための手法が開発されている。
 その1つに、「ベイジアン・ネットワーク」という手法がある(これについては、『週刊ダイヤモンド』4月21日号、「『超』整理日記」第901回に掲載予定の記事を参照)。
「ディープランニング」という機械学習の方法が用いられている。
 これは、人間の神経組織を真似た仕組みで推論を行なう方法だ。これによって、パタン認識ができるようになってきた。
 人間の脳では、ある層の脳細胞(ニューロン)の発火状態(他のニューロンから刺激を受けて活動する状態)によって、つぎの層の脳細胞の発火状態が決まる。このような層が何層にもわたって続き、最終的に行動や認識が決まる。
 ディープラーニングは、コンピュータの中でこのような仕組みを再現する。
 画像認識の場合、画像を多数の小片に分けて、ニューラルネットワーク(神経回路網)の最初の層に入力する。最初の層のニューロンの発火状態によって2つ目の層の発火状態を決める。こうして、つぎつぎ層の発火状態を決めるのだが、学習データを用いて、結果的にうまく認識されるように伝達方法を直していく。
 最終的に得られる伝播パターンがなぜ最適なのか、人間には知ることができない。
経営者は
コンピュータの指示に従うか?
 データサイエンスを活用する経営は、「データ駆動型経営」といわれる。
 これまでは、企業の経営者が経験などに基づいて、事業戦略を決定していた。もちろんデータは使われてきたが、それは、実行されている戦略の有効性をテストするためのものであった。だから、まったく新しい事態が生じても、従来の戦略が続けられる場合が多い。
 それに対して、データ駆動型の経営では、新しい事態が生じれば、それがデータに現れるので、戦略が自動的に変更される。
 ところで、データ駆動型アプローチによって、ある戦略を示された場合、経営者がそれを是とするだろうか?
「私はコンピュータには指示されない。自分の経営判断のほうが正しい」と主張することが十分にあり得る。
 これは、(こうした場合に通常はそのような表現は用いないが、あえて言えば)、「理論駆動型」の考えなのである。データ駆動型への転換は、発想の基本的な転換を要するものであり、それほど容易なことではない。
 経営者だけではない。エキスパートは、自分の仕事がデータサイエンティストに奪われてしまうことに対して、強く反対するだろう。
 また、いうまでもないが、データを収集しただけで、事業戦略決定に使えるわけではない。それをデータサイエンスの手法で活用する必要がある。
 ところが、企業がどれだけのデータサイエンスティストを必要とするかは、事業の内容によって大きく異なる。
 ここで、事業というのは、現在行なっている事業だけでなく、今後の方向性との関係で捉えなければならない。
 例えば自動車会社では、いままでは機械工学の技術者が中心だった。しかし、自動運転の時代になれば、データサイエンスィテストが不可欠になるだろう。そして、付加価値が最も高いのは、そのような部門ということになるだろう。
 流通業など、多くの顧客を相手にする事業では、広告や店舗の配置計画の戦略等にビックデータの活用が重要な意味を持つだろう。コンビニエンスストアで、そうした利用はすでに行なわれている。
 こうした中で、データサイエンティストを自社で雇うのか、あるいは外部の専門家に委託するのがよいのかは、難しい問題である。
 どんな場合にも適用できる一般的なデータサイエンスの手法というものはないので、現場をよく知る者が行なわなければ、適切なデータ分析はできない。そのことを考えれば、自社で雇う必要があるだろう。
 しかし、データサイエンスは急速に進歩しているので、つぎつぎに新しい知識が必要になる。また、つねに新しい人材と入れ替える必要があるかもしれない。それを考えれば、外部の専門家に委託するほうが効率的かもしれない。
日本では人材が
まったく不足している
 データサイエンスは、新しく発展した分野であり、その内容は伝統的な統計学とはかなり違う。
 日本ではもともとソフトウェア関係の科学技術が弱いが、こうした新しい分野はとくに弱い。
 そのことは、ウェブサイトを検索してみると、すぐにわかる。
「data science」を検索語にして英語のサイトを検索すると、2140万件がヒットする。しかし、「データサイエンス」では104万件しかヒットしない。得られる情報の質も、大きく違う。
 また、人材も著しく不足している。
 これに対処するため、大手企業9社が、東京大学など5大学と組んでデータサイエンティストの育成のための組織「サーキュラーエコノミー推進機構」を立ち上げた(日本経済新聞、2018年4月2日)。
 ところで、データサイエンティストを雇ったり仕事を依頼したりする場合に、その実力をどう評価するかという問題がある。
 まったく新しい分野だけに、評価は容易でない。その際に目安になるのがKaggleだ。
 これは、世界中の企業や研究者が研究成果を投稿するプラットフォームで、2010年にアメリカで設立された。60万人超のデータサイエンティストが成果を競っている。投稿は採点され、ランク付けされる。高得点を獲得した参加者には、賞金が支払われる。
 ここでの実績は、世界的な企業への就職の際に参照されている。
(早稲田大学ビジネス・ファイナンス研究センター顧問 野口悠紀雄)
 
 
▲上へ ★阿修羅♪ > 経世済民126掲示板 次へ 前へ
投稿コメント全ログ コメント即時配信 スレ建て依頼 削除コメント確認方法
▲上へ ★阿修羅♪ > 経世済民126掲示板 次へ 前へ
 スパムメールの中から見つけ出すためにメールのタイトルには必ず「阿修羅さんへ」と記述してください。
スパムメールの中から見つけ出すためにメールのタイトルには必ず「阿修羅さんへ」と記述してください。すべてのページの引用、転載、リンクを許可します。確認メールは不要です。引用元リンクを表示してください。