機械翻訳のしくみは、ルールベース、統計ベース、ニューラル、の3種に分けられます。現在はニューラルが主流になっていますが、それぞれに特徴がありどのシステムも現役で活躍しています。順番に確認していきましょう。
ルールベース機械翻訳(RMT:Rules Based Machine Translation)
予め言語上の特性や文法をルールとして登録しておき、ソース言語のルールとターゲット言語のルールの関係性に基づき単語を並べ替え、それに用語辞書を組み合わせ機械的に翻訳結果を導くシステムです。機械翻訳は、第二次世界大戦の暗号解読技術を応用し、言語間での変換ができないかという発想が元とになり、1950年代から本格的に開発が進められてきた経緯があります。機械翻訳のそもそもの発想は、歴史的にここから始まりました。
RMTでは文章を解析・分解しルールに基づいて処理をするので、原則的には記載されている単語すべての文意を汲み上げた翻訳が期待できます。
しかしルールとして認識し得ない例外が対象となると、正しい訳文が期待できません。さらに、厳密なルールに基づいた翻訳結果となるので、自然に読み通すことに難のあるギクシャクとした固い表現になりがちです。
統計的機械翻訳(SMT:Statistical Machine Translation)
統計ベースシステムは言語上の特性や文法を前提とせずに、既に存在している対訳データ(コーパス)を大量に集め、それを元にした統計的な解析に基づき翻訳結果を導くシステムです。いわゆるビッグデータを扱うことが前提となるため、コンピューターやインターネットの発達とともに急激に進化してきた手法です。
現存する大量のコンテンツからの対訳データを元にするので、訳文はルールベースに比べより自然な表現での翻訳が期待されます。また対訳データを特定の専門的なコンテンツに集中させることで、その分野特有の表現を反映させられる傾向があります。
ただし、統計的に訳文を導く性質上、機械は文の構造や単語一つ一つについてを処理していません。原文にある細かな表現や個々の単語などが訳文では表現されない、または勝手に原文にない表現が含まれている、という可能性を含んでいます。
ニューラル機械翻訳(NMT:Neural Machine Translation)
ニューラル機械翻訳は人の脳神経細胞の活動をモデル化したニューラルネットワークを利用した人工知能(AI)による機械翻訳です。大量の対訳データを使って人工知能(AI)に翻訳の傾向を学習させ、学習した情報を元に原文から訳文を人工知能(AI)が考え翻訳結果を導くシステムです。
大量のデータを基にするところはSMTと似ていますが、SMTが統計的解析に基づくアルゴリズムから訳出することに対し、NMTでは大量のデータで「学習」したニューラルネットワークが、文脈を元に自ら考えて訳文を導きます。
ビッグデータを元にしていることから、訳文品質の長所、短所についてはSMTと似た傾向がありますが、学習を深めながら文脈上の意図を汲む翻訳を実現させようとしている点において、人間によるものに近い翻訳結果が期待されます。