13. 中川隆[-13838] koaQ7Jey 2018年8月04日 08:04:35 : b5JdkWvGxs : DbsSfawrpEw[-17584]
日本語で会話する AI搭載ラブドールを作るのは難しい
2018年8月4日
シンギュラリティを邪魔する「日本語の壁」とは?
青山学院大学シンギュラリティ研究所 講演会(5)斎藤由多加氏
ゴン川野 (フリーランスライター)
http://wedge.ismedia.jp/articles/-/13295
青山学院大学シンギュラリティ研究所の設立を記念した講演会の内容を、6回にわたり掲載していく本連載。第5回は、「AI 開発で明らかになった”日本語の正体”」と題して、シーマン人工知能研究所所長の斎藤由多加氏が、6月24日に講演した内容を紹介する。
齋藤由多加氏:1962年東京都生まれ。シーマン人工知能研究所所長。大学卒業後リクルートに入社。その後独立し、1994年「オープンブック株式会社」を創業。高層ビルシミュレーション『タワー』の国内外のヒット(海外名はSimTower)で全米パブリッシャーズ協会賞ほか受賞。1995年、日経BP社ベンチャー・オブ・ザ・イヤー最優秀若手経営者部門賞。1999年、『シーマン 禁断のペット』を発売。文化庁メディア芸術祭優秀賞、米国GDC年間キャラクター賞など受賞多数。(写真・NAONORI KOHIRA)
シンギュラリティの「ラスト1マイル」と言われているのが、日本語の部分です。シンギュラリティに欠かせないのは、AIによるディープラーニングですが、ディープラーニングの結果をどう日本語化するか、そして口語の日本語をどうAIに取り込むか。また、AIが人間の言っていることをほんとうに理解しているか、「会話の自然性」について情熱を込めて研究しているところです。
音声認識ゲーム開発で分かった「日本語の曖昧さ」
私の職業はゲームクリエーターです。人面魚の「シーマン 〜禁断のペット〜」(1999年7月発売)というゲームを作っていましたが、リリースが19年前なので、開発していたのはもう20年以上前になります。このゲームソフトは音声認識を使ってプレイするタイプだったので、私は日本語の会話について研究せざるを得ませんでした。この当時の技術では、「人工知能」ではなく、「人工無能」の発展系にしかなりませんでした。人工無能とは人間と会話することを目的としたプログラムです。音声認識のゲームは現在でもあまりなく、このゲームはSEGAで発売され、出荷率No.1などの記録を作っていくことになります。
「二人称」の問題に突き当たる
シーマンは会話するときにユーザーの事を「おまえ」と呼びます。シーマンが生意気だと言われる一つの理由が、この「お前」という呼び名です。ではなぜ、相手のことをおまえと呼ばせることになったのか、それが本日の議題につながります。日本語には二人称を的確に目上の人に伝える言葉がありません。それが日本語の特徴であり、困ったところでもあります。千鳥(お笑いコンビ)が登場するスマートニュースのCMで「貴様は?」と問いかけていますが、文字にすると貴様、相手を敬っていますね。でも声に出して言うとけなしているように聞こえます。
例えば私が先輩の小平プロデューサーを呼ぶときには、「小平さん」と名前を呼ばなければなりません。しかし、これは当時のプログラムでは不可能で、シーマンにユーザーの名前を呼ばせることができなかったので「おまえ」と呼ばせたわけです。現在、親しい間柄で相手の事を呼ぶときは「おまえ」、すこし距離感がある場合には「きみ」ぐらいしか選択肢がありません。「あなた」と言われると、少し突き放された感じがあります。
それからもう一つ厄介なのが省略です。日本語の会話には省略が多い。その後、Pepper君などが登場しますが、これらの問題に突き当たって日本語の会話がなかなかうまくいかない。エンジニアたちはだんだん日本語と向き合うことをやめてしまい、GoogleやAmazon、Appleなどの賢い人たちが日本語に関してもどうにかしてくれるだろうと、期待して待っている状態でした。そこで私は、1年半前に「シーマン人工知能研究所」(http://seaman.ai)を作りました。シーマンの開発で培ったノウハウで日本語口語の会話エンジンを開発し、無償で提供したいと考えています。
日本語には「3つの特徴」がある
AIに日本語を教えるにあたり、まずは日本語の文法を作り直す必要があります。そうする必要がある最初の理由は、日本語には単語の区切りがあるようでないこと。アルファベットの世界では単語と単語の間に半角スペースを入れるので、明確に単語と単語の間に区切りがあります。しかし日本語にはそれがありません。これでは言葉の生成などままならないのも当然です。
「あと一歩のところで戦争でした」――この文章の単語の切れ目がどこにあるのか明確には分かりません。主語と述語の関係も分かりません。日本語の文章はSVOCにはなっていないのです。「昨日は僕はオフでした」この文章の主語は何でしょう。昨日でしょうか、僕でしょうか。主語が2つあるようにも思えます。
もともと曖昧だった日本語は、戦後、GHQの政策によって無理矢理、表記を統一して教育の標準化をおこないました。これによって生まれた文法を使っても、日本語プログラマーはうまく日本語を扱うことができない、という仮説を私は立てています。
例えば「昨日、おまえ、デート、したの、昌子と?」という問いに対して、
・「昨日」にアクセントがあれば、「昨日じゃないよ先週だよ」と答えます。
・「おまえ」にアクセントがあれば、「俺じゃないよ田中だよ」と答えます。
・「デート」にアクセントがあれば、「あれはデートじゃないよ」と答えます。
・「したの」にアクセントがあれば、「してないよ」と答えます。
・「昌子」にアクセントがあれば、「昌子じゃないよ、淳子だよ」と答えます。
つまりメロディを変化させるだけで質問の意味が変わってきます。シーマンはメロディを理解できないので、おまえと言われて疑問形かどうか判断できません。文法が重要視しているのはメロディ認識ではないかと考えています。
メロディとは別に、語尾に「よ」とか「ね」を吟味して付けるという特徴が日本語会話にはあります。これを使わないと会話に違和感がでてくるためです。例えば「三木さんのお子さんは10歳ですよね」ここから「よね」を外すと違和感があります。言い切りの形では、「本人よりも詳しい」というニュアンスになるからです。言っている内容についてどちらがよく知っているか、それが語尾によって決定づけられているわけです。
会話の中の「主見」に注目する
ここまで、日本語に対する問題点を3つ挙げました。単語の切れ目、メロディ、そして語尾の問題です。例えば、「食べる」という動詞は下一段活用とされていますが、食べないもん、食べたくない、食べてたじゃん、食べたらぶっ殺す、これらをひっくるめて活用形と考えると、食べたらぶっ殺す、は食べるの否定形のレベル5になります。レベル4は、食べるなって言っただろ、レベル3は食べるなよ。このように普段使っている慣用句に動詞を代入して使っています。この活用形の中に意味が込められています。これがメロディ言語です。この3つの組み合わせで、意味が通じるようになります。何を言っているのか、誰の意見なのか、これを「主見」と我々は名付けています。三人称なら、食べたがってましたよね、二人称なら食べたいですよね、合意が得られない場合は、食べるもん、食べたいし、食べたいから、これらは自分の主張が強い場合ですね。
これも仮説ですが、日本語は自分と相手との関係において、どこまでが自分のテリトリーか、を確認する、という言語だと考えています。例えば身内を紹介するときに「青山学院大学学長の三木さんに......」と言うと違和感がありますね。身内に「さん」を付けると違和感を感じます。これを外国人が聞くと「さん」が付いていない方に違和感を感じるそうです。目上の偉い人を呼び捨てにしていると。「さん」を付けるかどうかで、そのグループに話者が帰属しているかどうかが分かります。「さん」なしで「ウチの三木がそう申しておりました」と言えば、彼は三木グループに属していることが分かります。
主語、述語以外の単語を数値化して、意味化するのが私たちの仕事です。また、メロディによる文章の意味を定義するために、カラオケの採点システムを作っている音響メーカーと協力してメロディ認識のエンジンを開発しているところです。これらを解析できれば、日本語の文章の正しい意味を伝えられるようになるはずです。
日本語の「省略」にどう対応するか
野球というゲームで選手がおこなっている動きは、わずか4つの動作です。投げる、打つ、走る、捕る。これらの組み合わせで監督の采配が伝わってきます。その監督の偉大さも分かります。ゲームにはそんな文脈を作る力があります。将棋の羽生名人の言葉ですが、相手の弱点を突く対局もあれば、相手を称える対局もあるそうです。その道を究めれば究めるほど、相手が一手を指すだけで、その人の性格まで分かってくるに違いありません。それがゲームというものです。
それでは言語の場合はどうでしょうか。結婚式のスピーチで朗々と語る人がいますが、そんなスピーチは退屈で心に響きません。理由を考えてみると、論文のように読み上げられるスピーチには観客が介入する余地がありません。干渉できないわけです。一方、面白いスピーチには隙があります。文語と口語の違いもあると思います。口語はセンテンスが短く、主語、述語がポンポン入ってきます。これが論文調だと主語と述語の間に隙がなく会話に入っていけない。口語には省略が欠かせません。日本語のエンジンはこの省略の部分をきちんと補完する能力が要求されます。
言葉をシンプルにするとリズムが生まれます。女子高生同士、築地の競り、株式市場。どの会話も省略され、暗号化され、部外者が聞いても意味が分かりません。省略がなければ強調もできません。省略によって高度なコミュニケーションが生まれているのです。これをAIに教えようとしても、会話の文例が少ないので難航しています。こうした会話のビッグデータを得るためにいま、各社が「Siri」やスマートスピーカーを発売し、必死になってそのサンプルを集めているところです。ただ、これはマシンと人間の会話で、本当に必要なのは人間同士の会話のサンプルです。我々も日本語の会話の教師データを収集してディープラーニングに利用したいと考えています。
(写真・NAONORI KOHIRA)
世界初の「相づちを打てるAI」の完成を目指す
世界中にある会話のできるAIに、「今日はやる気が出ないなあ」と話しかけても相づちを打てるものはありません。ビッグデータの中に答えがないので、ディープラーニングは使えません。質疑応答システムは正解という存在が曖昧な議論には答えられないのです。相づちを打つには、別のアプローチが必要になります。いつ生まれて、いつ失恋したのか、好きな食べ物、嫌いな物は何か、などのパーソナルデータを読み込むことが不可欠になります。我々はそれらと向き合った日本語音声会話システムの開発をおこなっています。数年あれば、普通に会話ができる日本語エンジンを完成させることができると考えています。
http://www.asyura2.com/17/lunchbreak54/msg/220.html#c13