AI(人工知能)や自動翻訳の分野で、自然言語という言葉が出てくる。これは人々が普通に使っている言語のことだ。コンピュータに指示を出すためのコンピュータ言語と区別するために、自然言語と呼んでいる。
自然言語が今注目されているのは、コンピュータに次々と自然言語をつくらせたいからだ。人間らしいコンピュータをつくるには、欠かせない研究だ。
ただ、コンピュータは、計算結果を出すことは得意だが、自然言語は苦手だ。なぜなら「1+1=2」という計算結果は1つしかないが、「私はウナギ」という単純な自然言語ですら複数個の正解があるからだ。
そこでAIを使って自然言語処理の開発を加速させようとしている。
続きを読む自然言語処理とは
自然言語処理はとても高度な技術である。それは自然言語を理解することがとても難しいからだ。そして自然言語のなかでも、特に日本語は難しい。
先ほど「私はウナギ」という文章を紹介したが、これほど単純な文章ですら、正確に理解することは簡単ではない。
「私はウナギ」の理解
「私はウナギ」という文章を読んで、何を想像するだろうか。「ウナギ漫画の主人公のウナギが話し始めた」と理解するだろうか。それとも演劇の練習で「ウナギ役を担当するのは私です」と言っているのだろうか。
それとも、和食レストランで「私は『本日のおすすめ』のウナ丼セットを注文する」と言っているのだろうか。
これらの意味は、すべて「私はウナギ」で通じる。
このように自然言語は複数個の正解を持つ。これでは1か0かのコンピュータは困ってしまう。
自然言語処理とは、コンピュータに「私はウナギ」という文章を、著者の意図通りに理解させる技術なのだ。
自然言語処理の仕組みとは
自然言語処理は「形態素解析」「構文解析」「意味解析」「文脈解析」の順で行っていく。
このように専門用語を並べると難しく感じるが、ここでのポイントは、分解してからつなぎ合わせることと、4ステップで処理していくことの2点だけだ。
ひとつずつみていこう。
1ステップ:形態素解析
形態素解析は、文章を単語に分解する工程である。
例えば「賢い猿と猫を威嚇する犬」という文章を形態素解析するとこうなる。
賢い:形容詞
猿:名詞
と:助詞
猫:名詞
を:助詞
威嚇する:動詞
犬:名詞
2ステップ:構文解析
単語に分解したあとで、どのような構文が考えられるかを検討するのが、構文解析である。ばらばらにしたものを再構築する工程である。
先ほどの文章は、次の3つの構文が考えられる。
・「賢い猿と猫」を「威嚇する犬」
・「賢い猿」と「猫」を「威嚇する犬」
・「賢い猿」と「猫を威嚇する犬」
3ステップ:意味解析
上記の3つの構文の意味を考えるのが意味解析である。先ほどの文章は次のような意味を持つ。
・「賢い猿と猫」を「威嚇する犬」
意味:賢い猿と賢い猫がいて、その両方を威嚇する犬がいる
・「賢い猿」と「猫」を「威嚇する犬」
意味:賢い猿と、特に特徴がない普通の猫がいて、その両方を威嚇する犬がいる
・「賢い猿」と「猫を威嚇する犬」
意味:賢い猿が存在する。そして猫を威嚇している犬が存在する。
「賢い猿と猫を威嚇する犬」の一文で3つの意味が存在しては、自動翻訳としては役に立たないので、ひとつに絞る必要がある。
4ステップ:文脈解析
3つの意味のなかかひとつに絞るには、文脈を理解しなければならない。文脈とは、文章の前後関係のことである。また、常識も文脈になり得る。
多くの日本人は「賢い猿と猫を威嚇する犬」という文章を読み、その前後に文章がなければ、常識から次の意味を選択するのではないだろうか。
・「賢い猿」と「猫を威嚇する犬」
意味:賢い猿が存在する。そして猫を威嚇している犬が存在する。
なぜなら「犬猿の仲」という言葉があるからだ。したがって猿と犬が出てきたら、同格として扱おうとする。
そして、犬が猫を襲い、猫が鼠を襲うという動物ヒエラルキーも、日本人の多くが共有している動物観であろう。それで、犬が威嚇するのは猫だけであろう、という推測が働く。
自然言語処理の事例
自然言語処理の「威力」を簡単に感じられるソフトがある。グーグル翻訳だ。
まだグーグル翻訳を使ったことがない人は、ぜひ体験してみてもらいたい。以下のURLからアクセスすることができる。
https://translate.google.com/?hl=ja&tab=TT
グーグル翻訳に「賢い猿と猫を威嚇する犬」を訳させると次のような結果になった。
Dogs threatening clever monkeys and cats
つまりグーグル翻訳は、以下のように理解したわけである。
・「賢い猿」と「猫」を「威嚇する犬」
意味:賢い猿と、特に特徴がない普通の猫がいて、その両方を威嚇する犬がいる
そして日本語を少し加工すると、グーグル翻訳も微調整を行う。
「賢い猿と猫を威嚇する犬がいる。」をグーグル翻訳にかけるとこうなった。
There are dogs that threaten clever monkeys and cats.
「がいる」と「。」をしっかり「There are」と「.」に翻訳している。
ただ意味としては先ほどと同じく「賢い猿と、特に特徴がない普通の猫がいて、その両方を威嚇する犬がいる」となっている。
また少し日本語を変えてみる。
「賢い猿と、猫を威嚇する犬がいる。」をグーグル翻訳にかけるとこうなった。
There are clever monkeys and dogs that threaten cats.
今度は意味が「賢い猿が存在する。そして猫を威嚇している犬が存在する」に変わった。
「、」の意味をしっかり理解して英文を変えてきたのである。
しっかりと著者の意図を翻訳英文に反映させている。これは「すごい」とたたえてよいだろう。
AIと自然言語処理の関係性
ここまで自然言語処理のことだけをみてきた。次に、自然言語処理とAIの関係について考えてみる。
コンピュータが自然言語処理技術を極めれば、驚くべき自動翻訳機ができあがるだろう。いわゆる「空気を読む」コンピュータが出現するかもしれない。
先ほど確認した自然言語処理のうち、「形態素解析」と「構文解析」は、非AIのコンピュータでも難しくない。大きな課題は「意味解析」と「文脈解析」であり、これこそがAIが活躍する領域である。
AIがネット上の大量の猿と猫と犬に関する日本語文章を読み込めば、次第に「犬猿の仲」や「犬が猫を襲い、猫が鼠を襲うという動物ヒエラルキー」を理解できるようになる。
例えば2人の会社員がLINEで「部長と課長は犬猿の仲だからな」「まったくあの2人の言い争いは迷惑だよ」というチャットを交わしていたとする。AIはここから「人間を犬と猿に例えることがある」「犬と猿が言い争うことがある」といったことを学習できる。
もしくは、ユーチューブ動画の感想に「まさか猫が犬を襲うなんて、驚きました」というコメントが掲載されたとする。このコメントをAIに取り込めば、AIは「普通は犬が猫を襲うのだな」と理解できるようになる。
AIにネット上の大量の文章を次々取り込んでいけば、AIは日に日に賢くなる。
現在はLINEやユーチューブの文章を第三者が取り込むことは倫理に反するが、文章データを匿名化したり、有料で文章を購入したりすれば、AIの学習に必要な大量の文章を入手できるようになるかもしれない。
自然言語処理の今後の課題
自然言語処理の今後の課題は、言葉の価値判断だろう。言葉の価値を計測することは、文脈の理解以上に難解である。人間でも正確にできないことがあるくらいだ。
例えば、喧嘩している2人の片方が「このチビ! 生意気だぞ」と言ったとする。このチビには侮蔑的な意味がある。しかしショッピングモールで開かれる「チビッ子ショー」のチビには、子供目線の優しい意味がある。
AIにネガティブな意味を持つ「チビ」だけを学習させると、AIは「小さいことは悪いこと、残念なこと、回避すべきこと」と理解するようになってしまうだろう。
しかしリアルの世界では、小さいことは決して悪いことではない。「小回りが利く」「コンパクト」「小型化」「すばしっこい」これらはいずれもポジティブな内容である。
AIには、さまざまな価値の文章を学習させなければならない。こんなこともあった。
マイクロソフトは2016年にチャットボット「テイ(Tay)」を公開したが、すぐに休止に追い込まれた。チャットボットとは人とチャット会話ができるロボットだ。
テイは、人とのチャット会話で暴言や差別発言やヘイトワードを連発したのである。
マイクロソフトの技術者は、テイにSNSの文章を学ばせた。つまりテイの暴走は、奇しくもSNSに暴言や差別発言などが溢れていることを証明してしまったのである。
親が子供にみせるテレビ番組やネットのサイトを厳選するように、AI開発者は、AIに与える参考文章を厳選しなければならないかもしれない。
まとめ~日本人らしさを獲得するために
自然言語という言葉は、不思議な印象を与える。人の言語はそもそも自然なものだからだ。だから、コンピュータに指示する特別な言語のことを、コンピュータ言語と名付けたのである。
自然言語は、コンピュータがつくる人の言語、と理解することができる。もしくは、コンピュータ目線でみた人の言語である。
そのため2019年現在の自然言語は、まだまだ不自然だ。しかしAIの進化の速度を考えると、1、2年で自然な自然言語ができあがるかもしれない。
AIを使った自然言語処理開発は、コンピュータを日本人らしくする取り組みといえるだろう。
<参考>
- 日本語の形態素解析(長岡技術科学大学 電気電子情報工学専攻 自然言語処理研究室)
http://www.jnlp.org/inaoka/b3semi/text-segmentation-in-japanese - 自然言語処理における分野適応(京都大学学術情報メディアセンター)
http://www.ar.media.kyoto-u.ac.jp/publications/JSAI12Jul.pdf - グーグル翻訳(グーグル)
https://translate.google.com/?hl=ja&tab=TT - 人工知能「Tay」の暴走問題から見るAI(人工知能)との付き合い方(TECH:NOTE)
https://tech-camp.in/note/technology/48366/
役にたったらいいね!
してください
NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。
No related posts.