京都大学大学院情報学研究科・言語メディア研究室の黒橋禎夫教授は、日本のAI(人工知能)研究の権威の1人である。
黒橋教授は、コンピュータに日本語を理解させようとしている。「大学でのAI研究と言語研究」と聞くと日常生活に遠いことをしている印象を持つかもしれないが、黒橋教授は違う。例えば、研究成果を、企業のカスタマーセンター業務や、病院で使われている電子カルテなどに応用することを考えている。
黒橋教授の言語メディア研究室は、世の中を便利にする研究をしているのである。
この記事では、黒橋教授が「今のAIの日本語の理解度」をどのようにみているのか紹介する。(肩書などは2019年11月現在のもの)
京大「言語メディア研究室」とは
京大には、学内の研究と一般社会をつなぐ「京大オリジナル株式会社」という企業がある。
京大オリジナルは今、京大のAI研究を一般の人に知らせる「『人を知る』人工知能講座」を開催していて、黒橋教授もその講師を務める。
黒橋教授は、コンピュータが日本語を理解するには、コンピュータに世の中の常識や世界中の知識を与える必要がある、と考えてきた。しかしコンピュータは、仕事のルールを教わって仕事を続けることや暗記は得意だが、常識の理解や知識の獲得は苦手である。
しかし、インターネットで大量の文章を手に入れることができ、AIで膨大な量の文章を処理できるようになったことで、コンピュータによる常識の理解と知識の獲得が可能になってきた。
黒橋教授の言語メディア研究室でも、100億文超の文章をコンピュータで処理して、コンピュータに同義語、類義語、述語項構造、事態間関係知識を理解させることができるようになった。
黒橋教授が目指すのは「知識インフラ」の構築である。
コンピュータやAIが日本語を正しく理解できれば、言葉どうしの関連付けや検索、比較、意味の理解が自動で行えるようになる。
知識インフラが構築できれば、企業のカスタマーセンター業務の自動化や自動翻訳が、より高度になっていく。
黒橋教授の研究は、企業の経営活動にも一般の人の日常生活にも大きなインパクトを与えることになるだろう。
曖昧性がコンピュータを悩ませる
言語には、「ものすごく簡単」と「とても難しい」という2つの特徴がある。例えば、3歳の子供でも言語を理解する。子供が「あれは何?」と尋ね、親が「あれは自動車だよ」と答えれば、子供は4つの円盤をつけた大型の走る箱のことを「自動車」と理解する。言語は、ものすごく簡単だ。
しかし、大学教授が書く論文は、例えそれが日本語で書かれてあっても、ほとんどの日本人は理解できない。また逆に、10代後半から20代前半の若者たちが話す言語は、例えそれが日本語で話されていても、多くの大学教授は理解できない。
言語は、とても難しい。
では、難しいほうの言語は、なぜ難解になるのか。
それは、言語には、コミュニケーションの役割が担わされ、記憶や思考が反映され、知的活動の根幹になっているからだ。
つまり、言語は難しい作業をこなすために使われることが多いので、理解が難しくなるのである。
この難解さが、コンピュータやAIによる日本語理解のハードルその1である。
そしてハードルその2は、曖昧さである。
日本語はとても曖昧だ。
例えば「外国人参政権」と聞きけば、多くの日本人は「日本に住む外国人に参政権を与えるべきかどうかの議論」を想像する。
つまりほとんどの日本人は、「外国人参政権」を「外国、人、参政、権」と理解する。
しかし「外国、人、参政、権」と理解するには、日本の政治の仕組みを知っていなければならない。なぜなら「外国人参政権」は「外国、人参、政権」と読むこともできるからだ。
日本語に漢字という1字に多くの意味を持たせる便利な文字がある「せい」で、外国人参政権には次の2つの意味が発生してしまうのである。
・外国、人、参政、権:日本に住む外国の人に政治に参加させる権利。日本の政治システムに絡む言葉。
・外国、人参、政権:外国産ニンジンの輸入解禁に揺れる政権? 意味のない文字列。
これが日本語の曖昧性である。
さらにもうひとつ、曖昧な日本語を紹介する。
・望遠鏡で泳ぐ少女を見た
・クロールで泳ぐ少女を見た
この2文の構造は両方とも「泳ぐ少女を見た」というシチュエーションに、「~で」で意味を追加をしている、という点で共通している。
しかし、「望遠鏡で」は「見た」につながり、「クロールで」は「泳ぐ」につながっている。
このつながり具合は、話者の気まぐれであり、曖昧である。「望遠鏡で泳ぐ少女を見た」は「泳ぐ少女を望遠鏡で見た」と変えても、まったく同じ意味を持つ。
ところが、ほとんどの日本人はこれらの曖昧性を問題にしない。
なぜなら「外国人参政権」という文字をみた瞬間に「外国、人、参政、権」と理解できるからである。また「泳ぐ少女を見た、望遠鏡で」という文章でも理解できる。
このように人は、言語の曖昧性を簡単に超えることができる。
ところがコンピュータが日本語の曖昧性をクリアするには、膨大な量の言語資料にあたるしかない。それを可能にするのがAIというわけである。
ベクトルでコンピュータに理解させる
AIを搭載したコンピュータに曖昧な日本語を理解させるには、単語の意味や文の意味をベクトル表現する必要がある。
ベクトル表現とは、スタート地点Pからゴール地点Qに向かう方向と大きさを、矢印の方向と長さで表す表現方法である。「P→Q」と表記すれば、PからQに向かっていることがわかる。さらに「P→Q」と表記すれば、「P→Q」よりスピーディーにPからQに向かっていることがわかる。
これと同じことを、言語理解の分野でも行う。
例えば、AIが「バナナ、スイカ、自動車」のなかから、被験者の望むものを選択する、とする。
このとき、事前に「バナナ、スイカ、自動車」について、次のようにベクトル表現しておく。
甘さ | 大きさ | |
バナナ | 20 | 1 |
スイカ | 18 | 5 |
自動車 | 0.1 | 20 |
甘さや大きさがベクトルの方向であり、数字がベクトルの長さである。
被験者が「甘いものを少しだけ食べたい」と言えば、AIは「甘いものを選ぼう」「少量を選ぼう」と考える。するとAIは、甘さの数字が大きく、大きさの数字が小さいバナナを選び、被験者に渡すことができる。
単語の意味や文の意味をベクトル表現すると、なぜ日本語の曖昧さ問題を解決できるのか。もう一度、先ほど紹介した例文をみてみよう。
・望遠鏡で泳ぐ少女を見た
日本人であれば「望遠鏡で」が「見た」につながることが、瞬時にわかる。それは日本人がほぼ無意識に「望遠鏡で」という語を「ベクトル表現付きで」読んでいるからだ。
「『望遠鏡で』という言葉は見るときに使う」という理解こそ、ベクトル表現である。
この過程をAIに学ばせることで、AIは日本語の曖昧さ問題の壁を越えていくのである。
グーグルの言語モデルBERTとは
黒橋教授によると、グーグルが開発した「言語モデルBERT」と言語メディア研究室で開発した文解釈のデータベースを用いれば、日本語を96%の正解率で理解できるという。このBERTに基づくシステムは、日本語の文を単語分割し、各単語について適切な修飾先を求める。96%は人間に迫る性能であるという。
しかしこのシステムではまだ、日本語文で散見される主語や目的語の省略を正しく求める問題は60%しか解けないという。
黒橋教授は、言語モデルBERTは、今後さらに進展する可能性があると指摘している。
エンド・ツー・エンド学習とは
黒橋教授がもうひとつ注目しているのが、エンド・ツー・エンド学習である。
エンド・ツー・エンド学習は、言語処理の応用であり、大量の学習データを用意できるメリットがある。そのためエンド・ツー・エンド学習は、機械翻訳(自動翻訳)の進展に貢献するとみられている。
エンド・ツー・エンド学習を極めると、構文、省略、照応などを解析できるので、コンピュータが文章を構造化できるようになる。
文章を構造化できるAIコンピュータは、ネット上に溢れるSNSの文章を次々解析していき、「意味の分布」を把握するようになる。
SNSの文章は無料で回収できるビッグデータなので、SNS文章の意味の分布を把握できれば、企業のマーケティングはかなり高精度になるだろう。
SNSの意味分布の把握を応用すれば、医療の電子カルテを解析して医療支援に役立てることなども可能になる、と黒橋教授は指摘する。
カルテとは、1人の患者に行った治療や処方した薬、その患者の健康状態といった情報が記載されたものだ。電子カルテとは、カルテ情報を電子化したものである。
電子カルテに記載するのは、主に主治医であるが、その他の医師がその患者の治療に関わればその医師も電子カルテに記載する。また、看護師やリハビリ専門家たちも、必要に応じて電子カルテに記載して「患者情報」を濃密にしていく。
このように電子カルテに記録された日本中の患者情報が収集・解析され、そこでの「意味分布の把握」ができるようになると、主治医は自分の患者に似た患者に対する治療方法を素早く調べることができ、AIによる診断支援なども実現できる可能性がある。
まとめ~対話の研究の進展がカギ
黒橋教授は、日本語理解が進んだAIコンピュータは「人々の経済活動や日常生活により大きなインパクトを与えるようになるだろう」と予測する。
それを実現するのが、対話の研究だ。
そのためには、対話に含まれる「文脈」「理解」「感情」の3つのモデル化が欠かせないといい、これが今後の研究課題になっている。
<参考>
- 黒橋・河原研究室(京都大学)
http://nlp.ist.i.kyoto-u.ac.jp/index.php?%E7%A0%94%E7%A9%B6%E7%B4%B9%E4%BB%8B#n6ae68ab - 黒橋 禎夫 Sadao KUROHASHI(京都大学)
http://nlp.ist.i.kyoto-u.ac.jp/member/kuro/index-j.html - 語形成と意味(弘前大学)
http://culture.cc.hirosaki-u.ac.jp/english/utsumi/linguistics/lingusitics_c9_ja.html - 「人を知る」人工知能講座(京大オリジナル)
https://www.kyodai-original.co.jp/jinkouchinou/about.html - ベクトルの表現方法(新潟大学)
http://www.wave.ie.niigata-u.ac.jp/yamaguchi/education/vector/vector_analysis_basic.pdf - 自然言語処理の精度を向上させた”単語のベクトル表現”とは?簡単に実装してみた(Aidemy Blog)
https://blog.aidemy.net/entry/2017/07/01/184421 - BERTとは何か?Googleが誇る最先端技術の仕組みを解説!(Udemyメディア)
https://udemy.benesse.co.jp/ai/bert.html - BERT解説:自然言語処理のための最先端言語モデル(AINOW)
https://ainow.ai/2019/05/21/167211/ - エンドツーエンド深層学習のフロンティア(電子情報通信学会)
https://app.journal.ieice.org/trial/101_9/k101_9_920/index.html - 「End-to-end training」 とは?(teratail)
https://teratail.com/questions/124187
役にたったらいいね!
してください
NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。