Google翻訳の精度が非常に高くなっていることをご存じだろうか?以前はとてもではないがまともな翻訳文を出力できなかったのだが、ディープラーニングを活用することで、かなり自然な文章として出力できるようになっている。今回は機械翻訳の歴史、現在の活用法と、仕事が奪われそうな翻訳家の将来を考えながら、AI翻訳の弱点などについても紹介する。
続きを読むAI翻訳発展の歴史
まずはAI(人工知能)を利用した翻訳の歴史を紹介しよう。
2000年代まで主流であった統計的機械翻訳の精度向上が頭打ちになり、2010年代に入ってからAI(人工知能)の技術であるニューラルネットワークとディープラーニングを利用した「ニューラルネット機械翻訳(NMT)」が出現した。これは2012年にジェフリー・ヒントン率いるトロント大学のチームがILSVRCで好成績を収めたのがきっかけである。
その後、この技術を機械翻訳にも導入しようという動きが出て来て、2014年にGoogleが発表した「自動翻訳にディープラーニングを活用する」という論文が、一気にディープラーニングによる機械翻訳を推し進めた。現在ではネット上の機械翻訳サービスはディープラーニングをベースとしたモノに切り替わっていきつつある。
また中国語については中国の検索大手サイトであるBaiduが精度面でもGoogleを圧倒するサービスを展開し、そしてMicrosoftもBing翻訳でGoogleに追随している。
日本では以前から機械翻訳を手がけていたRosetta社や、NTT系列の企業がAIをベースとした機械翻訳サービスを展開している。
また、国立研究開発法人情報通信研究機構(NICT)が開発した「みんなの自動翻訳@TexTra」や老舗の高電社によるAI翻訳サービスなども展開されている。まさに機械翻訳による自動翻訳サービスは、群雄割拠の戦国時代に突入した感があるのだ。
従来と最新の自動翻訳技術の違いとは?
ではそもそも、AIが活用されるようになるまでは、自動翻訳はどの様に行われているのかを知っておく必要があるだろう。
まず、最初に始まったのは単語を辞書登録し、自動的に置き換えていくという方法である。この方法では単純に単語を置き換えるだけの直訳になってしまうため、自然な文章にはならない。例えば「good morning」は「良い朝」と訳されてしまう。単純に直訳しただけになってしまうのだ。そこでできるだけ多くのフレーズや用例を登録して対応し、原文から翻訳を行う手法が採られてきた。つまり、翻訳のためのルールを登録しておくことで、翻訳を行う方法であり、これを「ルールベース機械翻訳(RMT)」と呼ぶ。ただし、残念ながらあまり精度は良くなかった。辞書的に置き換えを行うだけなので、やはり直訳になってしまい、意訳によるなめらかな文章にはならなかったからである。また、様々な実務をこなすには、分野毎のルール登録も必要であり、そのルールの登録が面倒である上、精度向上も見込まれなかったために、今では使われなくなっている。
一方、「ルールベース機械翻訳」に対して、「コーパス」をベースに翻訳を行う方法を「統計的機械翻訳(SMT)」と呼ぶ。このSMTが現在のディープラーニングを活用したAI翻訳へと繋がっていく。
SMTはコンピュータに対訳データを与え、統計モデルを学習させることで訳文を出力させる。精度を高くするには大量の対訳データが必要となるが、学習自体はコンピュータが行うため、ルールベースと異なり設定の手間はかからない。単語は記号として扱われ、統計処理に基づいて機械的に処理されることでデータベース化される。
この統計処理部分をニューラルネットワークに置き換えることでディープラーニングエンジンとし、精度の向上につなげている。
またGoogle翻訳では、SMTの際には英語を中間言語として使うことで対応する言語の数(nとする)が増えても、翻訳経路をn-1になるようにしてきたが、NMTでは独自の中間言語になっている様である。それにより、直接学習させていない言語の組み合わせでも、それなりの精度を出しているという。
AIは翻訳にどのように活用されているのか
ではAIを用いた翻訳はどの様に活用されているのであろうか。実はすでに幅広い分野で使われている。
まず、一般の人々の目に付きやすいところから行くと、Google翻訳をはじめ、SOURCENEXT社のポケトークなど、外国人との会話に利用されている。両者とも主要言語に対応しているため、日本にやって来るほぼすべての外国人との意思疎通に利用することができる。
またGoogle翻訳は、スマートフォンのカメラで撮影した画像を渡すと、写っている言葉を自動的に翻訳する機能も持っている。これは海外旅行に行った際に、レストランでメニューが読めなくても、Google翻訳を使えば自分の分かる言語に翻訳してくれることを意味する。
もちろんこれらのAI翻訳はプロの世界でも利用されている。高精度な翻訳ソフトで知られているRosetta社の「T-400」は翻訳サービスを提供している会社と言うこともあり、Google翻訳よりも精度が高いと言われている。このサービスはWebサイトの多言語化作業などに活用され、グローバルに展開している企業のサイト文章を翻訳するのに用いられている。
また、企業内にある法務系や技術系の、外部に出せない文書を翻訳するサービスとして、NTTコミュニケーションズが「KOTOHA Translator」を提供している。これはNTTが長年培ってきた自然言語処理の技術とAIを組み合わせたもので、「TOEIC960点レベル」をうたっている。一般的な文書であればキレイに翻訳してくれるので重宝する。ただし筆者がかなりマニアックな技術文書を翻訳してもらったところ、かなり修正が必要な訳文が返ってきたので、専門用語だらけのものはキビシイかも知れない。これは他のAI翻訳サービスにも言えることである。各社は「追加専門辞書」を用意することでこの問題点をクリアしようとしているが、どこまで正確な翻訳になるのかは検証が必要な段階だ。
もう一つ。これは日本語に特有のものだが、指示語が多用されている文章や、主語が欠落する文章がかなり多い。これらの文章を自動翻訳サービスにかけると、とんでもない翻訳文が出力される。綺麗な翻訳文を出力させたいならば、原文に手を入れて「日本語としてはかなりくどい」文章にしておく必要もある。ただしこれをやっておけば、きれいな翻訳文として出力される。Google翻訳などで一度試してみてもらいたい。
翻訳家の仕事は今後無くなるのか
では、プロユースの分野にまでAIによる自動翻訳が浸透しているとなると、翻訳家や通訳の仕事はなくなってしまうのであろうか。実のところ、そのような心配は、少なくとも当面はない。というのは、人間は非常に多くの「角度」から文章を組み立てて話したり書いたりしている。端的に言うと、文章の持つ「ニュアンス」は、人間だからこそ感じ取ることができるのであり、意味を解釈していないディープラーニングによるAI翻訳では訳しきれない。
筆者が良く例として挙げるのは、夏目漱石が「I love you」を「月が綺麗ですね」と訳したという逸話(後世の創作の可能性が高い)である。日本人の文化的背景と外国のそれとは異なるため、そのままの訳をしてしまっては意味が分からず、注釈だらけになってしまう。例えば日本では家に帰ると靴を脱ぐのが普通だが、欧米では土足のままである。従って、日本の小説を英語に翻訳する場合、忠実に訳すると「何故靴を脱ぐのか」という部分から説明して回らないといけない。このような文化的な背景を持つ文章は、そのニュアンスをどのように翻訳するのかという「腕」が試されるため、AIによる自動翻訳では対応ができない。
またそこまでの文化的な背景がない文章であったとしても、文脈から細かなニュアンスを読み取る必要があるものもある。「バカ」という言葉も、怒った状態で「バカ」という場合と、あきれて「バカ」という時では、ニュアンスが異なる。AIでは残念ながらそこまでのニュアンスを読み取った翻訳は行えない。従って、まだまだ翻訳家の出番はなくならないのだ。
まとめ
AI(人工知能)を活用した自動翻訳(ニューラルネット機械翻訳)は、旅先で入ったレストランのメニューを翻訳し、ホテルのチェックインを手伝ってくれるレベルにまで達した。これはルールベース機械翻訳や統計的機械翻訳では達成できなかった精度である。身近なGoogle翻訳は一般人が外国語に翻訳したいときに、手軽に使えるツールとして活用することができるし、NTTコミュニケーションズの「KOTOHA Translator」はTOEIC960点レベルをうたっている。これらは契約書の翻訳にも活用されるようになってきている。
一方で、細かなニュアンスを読み取って翻訳するというレベルには達していない。文化的背景の理解が必要な文章や、前後の文脈で訳を変えなければいけない文章などは、まだまだ人間の翻訳にはかなわない。マニアックな技術文書など、専門的な内容が多く含まれている文章の翻訳も苦手としている。
いずれにせよ、大抵の文章は自動翻訳できるようになってきたため、仕事で他言語対応を考えている方は、これらのサービスを使ってみると良いだろう。
<参考>
- 【進化する人工知能】AI翻訳は従来と比べて何が変わったのか?(T-400:Rosetta Corp.)
https://www.jukkou.com/contents/content_aitranslation.html - 翻訳AIの進化でこれ以上の英語学習は不要?(日経ビジネス)
https://business.nikkei.com/atcl/report/16/113000186/120800004/ - 「急速に進化した機械翻訳」に、それでもできない3つのこと(現代ビジネス)
https://gendai.ismedia.jp/articles/-/55237 - 機械翻訳の限界と人間による翻訳の可能性(AGLOS: Journal of Area-Based Global Studies)
http://dept.sophia.ac.jp/g/gs/wp-content/uploads/2018/10/52a484c937a997630b2a553418a18a49.pdf - 高電社
https://www.kodensha.jp/index/ - 十印
https://to-in.com/ - ニューラル機械翻訳以前を支えた「ルールベース機械翻訳(RMT)」と「統計的機械翻訳(SMT)」(TOIN)
https://to-in.com/blog/2504 - 機械翻訳がたどってきた歴史(TOIN)
https://to-in.com/blog/2275 - Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入(Gigazine)
https://gigazine.net/news/20161202-zero-shot-translation/ - AI翻訳プラットフォームサービスCOTOHA® Translator(NTTコミュニケーションズ)
https://www.ntt.com/business/services/application/ai/cotoha-translator.html?utm_source=google&utm_medium=cpc&utm_campaign=cotoha-tr_001_ac_g&waad=UWfFRn6z
役にたったらいいね!
してください
NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。
No related posts.