http://www.asyura2.com/16/hasan115/msg/780.html
Tweet |
2016年11月18日 奥田由意
「東ロボくん」が偏差値57で東大受験を諦めた理由
11月14日、国立情報学研究所で2016年の成果報告会が開かれた
東大入試を突破することを目標に、2011年から国立情報学研究所が開発を進めてきた人工知能「東ロボくん」。先のセンター試験模試では5教科で総合偏差値57.1となかなかの成績をマークしたのだが、このままでは東大受験突破は無理と判断、プロジェクトは一旦凍結されることとなった。一体、どこに壁があるというのか。(取材・文/ライター・奥田由意)
2011年に国立情報学研究所が開始した「ロボットは東大に入れるか」プロジェクト。2016年度までに大学入試センター試験で高得点を取り、2021年度に東大入試を突破することを目標に「東ロボくん」というAI(人工知能)の開発が進められていた。
「東ロボくん」はこのほどセンター試験模試で、英国数理(物理)社(世界史)5教科でいずれも平均点を上回り、総合偏差値57.1をマーク。MARCH、関関同立や複数の国公立大学に合格する実力に到達した。
しかし、東大二次試験を受けるための足切りの点数には届かなかった。さらに点数を伸ばすには、東ロボくんが文脈や複雑な文章の意味を理解することが必要で、このまま開発を進めても、その点を突破できないため、2021年度を待たずしてプロジェクトは、東大受験に関しては一旦凍結した。
一体AIはどんなことを苦手とし、なぜ克服できないのか。今回の試験結果から細かく見てみたい。
英語も国語も文脈理解が苦手
小学生にも劣る「常識的な選択」
まずは、マーク式で解答する、センター試験模試で不得手なところを見ていこう。
【英語】 単語の穴埋めはほぼ完璧だが…
短い一文の中の一部が空欄になっていて、適切な単語を選んで入れる問題は、ほぼ完璧に答えられる。
表面的な単語の並びだけ見て、自分の持っているデータに照らす。問題文に出てくる単語と同時に表れる確率の高い単語を引っ張ってくる、という解答方法が有効なためだ。
逆に苦手なものは、ストーリー性があったり、因果関係のある複数の文を読んで文脈を理解したうえで、解答する問題だ。
実際の問題文ではないが、「A.彼は報告書をまた出し忘れた」「B.おまけに会議に遅刻した」という文章のあとに、続く文として以下3つの選択肢があるとしよう。
(1)私は寝坊した。
(2)会議には報告書が必要だ。
(3)彼は社会人として自覚がない。
東ロボくんは、A、Bと同じ単語が入っている(2)や、遅刻という単語と同じ文章に入っている確率が高い「寝坊」が含まれる(1)を選んでしまう。文脈を理解できず、自分のデータにある単語の組み合わせの頻度から推定して答えてしまうためだ。
リスニング問題も正答率が低かった。音声から単語に変換する音声認識の能力自体はグーグルの音声認識並みに高い。しかし、会話のテーマを理解したうえで、常識的な受け応えをするという日本語なら小学生でもできることができないし、前述のように、複数の文から文脈を理解することもできないのだ。
これを克服するには、“人間としての常識”のデータや膨大な量の複数の文のセットを用意せねばならず、コストと労力がかかりすぎ、現段階ではその方向で進化させることは物理的に不可能だ。
【国語】 実は文章の意味はわかっていない
デンソーの協力でアームを実装した「東ロボ手くん」も開発。解答用紙のマス目内に解答をボールペンできれいに書く技術も習得したが、残念ながら東大の二次論述解答は鉛筆でないと失格となってしまう
現代文は、文中の傍線部と同じ内容の文章を選択肢から選ぶ問題が多い。選択肢に出てくる単語と本文の単語の並びや、一致率を見て答えれば、明らかな間違いである選択肢を省くことができる。二択にまで絞る精度は高くなった。
しかし、英語と同様に表面的な単語の並びを見て処理しているので、大きな方向性では誤らないが、文章の細かい意味はわかっていない。二択から先、さらにひとつに絞るときに間違えてしまうのだ。
また、文章の構造を把握したり、表現技法の効果を判断したり、全体のテーマを読み取ることが必要な問題にも対応できない。
一方、古文の現代語訳は、短い文や語句であれば翻訳した後、選択肢にある単語との一致率から正答を導き出すことができる。しかし、長い文章の訳になると、やはり全体の話の流れを把握している必要があり、表面的な単語の一致だけでは、正答率が上がらない。また「こそ〜已然形」などの係り結びをうまく捉えられないことも大きな障害だ。
さらに、和歌の問題は最初から手つかずだ。序詞や本歌取り、見立てなど、和歌の技法や、表現効果の判定を学習させることは複雑すぎて、この手の問題が出たら潔く“捨てる”しかない。
現代文、古文とも、今以上の点数アップのためには、英語と同様、どうしても文章の意味を理解する必要があり、効率的で有効なアプローチが難しい。
計算能力は抜群ながら
問題文を計算式にするのが一苦労
【物理】 当たり前の前提条件がわからない
物理では、ひとことでいえば、問題文を東ロボくんが計算できる形の計算式にまで噛み砕く過程の設計が難しい。人間にとっては常識だったり、物理の問題としては当たり前の前提条件のため、敢えて問題文に書いていないものを判断して加えたり、逆に計算には不要な情報を抜きとるところだ。
たとえば、物体Gがあったとき、常に重力加速度9.8m/秒が働いていることは問題文中には書かれていないが、問題を解くときにはそれが前提になっている。
図の読み取りも同様だ。図には暗黙の了解事項があって、省略されていることが多く、計算式に置き換えるときに、多くの情報を足さなければならない。そもそも「図1のように」といった“前フリ”が意味するところを理解するのも、東ロボくんは苦手とする。
今回の模試では、問題文から計算式までの工程を増やすなどのさまざまな工夫が結実したのと、計算式にしやすい「ばねと重り」など力学分野の出題範囲だったことで比較的高得点を得られた。
問題文を計算式に置き換えるプログラムを、問題のタイプに応じてつくりさえすれば解けるのだが、試験問題は毎年新しいパターンが出るので、永遠に新しいプログラムをつくり続けなければならない。
【世界史】 抽象的な言い方や言い換えに当惑
教科書とWikipediaをデータベースとし、選択肢と問題文を照合して、一致率の高いものを選ぶという方法で、安定した点数を維持している。国語や英語に出てくる問題文と違って、文脈が短いものが多いので、意味を理解しなくても、答えられるものが多いのだ。
ただし、さらに正答率を上げていこうとすると、単に世界史に関する記述のデータベースを加えればよいというものではない。新しいデータを加えれば、精査するときに邪魔になる情報も増えることになり、絞込みの精度が下がる。
また、短い問題文であっても、「それまでの風潮に批判的な文化が生まれた」などの抽象的な言い方をしていると、意味をとれず、また、その問題文のなかだけで通用する、「国内では」、や「同盟国以外で」などの言い換えには対応していないので、言い換えが出て来る問題にも正答できない。
論述問題に挑戦した
世界史と数学での課題
さて、センター試験では足切りに引っかかって、二次試験が受けられない東ロボくんだが、世界史と数学の東大の二次試験模試(論述問題)に挑戦した。
【数学】 問題文の解釈可能性についていけず
理系数学で偏差値76.2と、もっとも難関の理科三類にも合格するレベルに到達した。物理と同じで、問題文を計算式にまで解析できれば、どの受験生をも圧倒できる驚異的な計算力があるからだ。
その問題文の解釈でつまずきやすいポイントを見てみよう。
たとえば、数学で用いられる文章は、比較的計算式に置き換えやすいが、それでも、さまざまな解釈可能性がある。
問題文のなかに「○○ならば」という文があるとき、ならばの前後の文章同士の関係は、さまざまに変わる。
(ア)雨ならば遠足は中止、お弁当は教室で食べる。
(イ)雨ならば遠足は中止、晴れてほしいな。
というふたつがあった場合、(ア)は、遠足が中止になるという条件なら、お弁当は教室で食べると、前半を条件として理解する。(イ)は遠足が中止になるのはいやだから晴れてほしい、という意味なので、条件ではない。
これを東ロボくんは両方とも条件だと解釈してしまうのだ。
また、数学の問題によく出てくる( )の意味の解釈も難しい。
(ア)y=0(x軸)
この場合( )のなかはy=0、すなわち、x軸そのものですよ、という親切な言い換えである。
(イ)y=ax(a>0)
この場合( )のなかはaが0以上であるという条件を示す。
(ウ)グラフの領域の問題でy=ax(x>0)
この場合( )のなかは、グラフでxが0以上の部分であるという意味である。
人間はこうした前提条件を暗黙のうちに読み取って、適切な判断を下しているが、東ロボくんには、この3つの( )内の違いはそのままでは認識できないのだ。
また、問題文の文同士の関係を理解しているわけではないので、それ、これなどの指示語もわからないし、「一方」「他方」「それ自身」などの言い方にもとまどってしまう。
【世界史】 論述では暗記力を発揮できず
マーク式では高い正答率を維持していた世界史。論述では、点数として、受験生の平均はかろうじて上回ったものの、やはり解答を見るとAIらしい「ぼろ」が出てしまうようだ。
点数を落としたところは、たとえば、解答のなかに同じ文章を二回書いてしまったり、文章の主語がなかったりという初歩的なミス。
用語集に出てくるキーワードと問題文との単語の一致率で判断したときに、特定する時代や地域がずれてしまったところもあって、まったく違う国や時代について書いてしまったところもあった。
また、面白いのは、2016年度から新しい教科書に切り替わったのに、古い教科書のデータで試験に臨んだため、新しい教科書で初めて出てきた固有名詞を答えられなかった。
さらに、解答自体は辞書や用語集でおなじみの答えであっても、聞き方にひねりがあったり、抽象的な言い方をしている場合には、答えられなかった。
たとえば中国の三国時代の問題。東ロボくんが学習した用語集には「魏王曹操の子・曹丕」という記述があった。問題文では、「魏の初代皇帝となった曹丕の父は誰か」という聞き方になっていた。東ロボくんは親子関係を理解しているわけではないので、データベースとしては情報を持っているのに、正答できなかったのだ。
問題文が読めなければ
AIといえども答えられない
本プロジェクトのリーダーである、国立情報学研究所の新井紀子教授が認めるように、東ロボくんは「科目の得手不得手があるというより、意味を読み取るのが苦手」だ。卓抜な計算力と暗記力があり、問題文を計算式に解析できれば、簡単に答えを出せるが、問題文に「意味」を理解しなければならない要素があれば、現状ではお手上げだ。
つまり「問題文を読めないので答えられない」という壁を乗り越えないことには、プロジェクトの進展は見込めない。ひとまず凍結という判断に至ったのは、そこに有効なブレイクスルーの方法が見つからないためだ。
文の意味を考える、複数の文同士の関係を考える、文脈を捉える、言い換えや抽象的な言い方を具体的な言い方に捉え直す──こうした作業はいまのところ人間が得意な分野ではある。
しかし、東ロボくんの開発を進める一方で、中高生の文章の読解力がAIよりも劣っているという研究結果も出ており、意味の読解は人間が圧倒的に優位などとあぐらをかいていられない。東ロボくんが大学受験する試みは凍結されるが、これまでの研究結果から、人間の認知のしくみや「意味」の捉え方についての研究の方向性にも新たな道筋がつくだろう。
拡大画像表示
・東ロボくんの試験結果詳細
http://www.nii.ac.jp/userimg/press_20151114.pdf
http://diamond.jp/articles/-/108460
投稿コメント全ログ コメント即時配信 スレ建て依頼 削除コメント確認方法
▲上へ ★阿修羅♪ > 経世済民115掲示板 次へ 前へ
スパムメールの中から見つけ出すためにメールのタイトルには必ず「阿修羅さんへ」と記述してください。
すべてのページの引用、転載、リンクを許可します。確認メールは不要です。引用元リンクを表示してください。