多言語機械翻訳と2020年オリンピック2020年オリンピック
京都大学名誉教授
長尾 真
於中央大学、2014,7,30
Ⅰ 機械翻訳(MT)の方式
MTの基本的プロセス(RBMT)
• 原言語文入力(テキスト、音声の認識)
• 形態素解析
• 構文解析
• 構文変換(原言語の句構造から相手言語の• 構文変換(原言語の句構造から相手言語の
句構造への構造の変換)
• 構文合成
• 形態素合成
• 目的言語文出力(テキスト、音声)
構文解析の基本的方式
• 句構造解析
チョムスキーの句構造文法の考え方
しかし、例えば英語についても文法が皆が
認める形で整理されていない
• 係り受け解析
日本語のように語順が比較的自由な言語
に適した解析手法
自然言語処理のツール
• 今日種々の解析にオープンソフトウエアが存在する
形態素解析:JUMAN, Chasen, Kytea, . . .句構造解析:Berkeley Parser, Stanford Parser,句構造解析:Berkeley Parser, Stanford Parser,
Charniak Parser, . . . 係り受け解析:KNP, CaboCha, . . .言語処理ライブラリ:Stanford CoreNLP,
NLTK, . . .
科学技術庁Muプロジェクト
• 科学技術論文の抄録の日英/英日MT• 1982年から4年間
• 京都大学、電子技術総合研究所、日本科学技術情報センターの共同プロジェクト技術情報センターの共同プロジェクト
• RBMTを採用
• システムはその後改良されてかなり販売された
Ⅱ 新しいMTの考え方
言語の基本単位についての考察
• 単語あるいは形態素
• 言語の単位を細かくしてゆくと各単位はいろんな組み合わせで使われ、的確さを無くしたり多義性を持つことになるり多義性を持つことになる
ex: 高根=高+根
>high+root(誤り)
>lofty peak• これは機械的に扱うときに困難をもたらす
• 言語の基本単位の組み合わせには言語的制約がある
Ex. 動詞+助詞 は不可
• 言語の基本単位を大きく(句に)取れば言語的制約をその中に含み、曖昧さを逃れたり、その後の言語処理が簡単になるその後の言語処理が簡単になる
• その代り単位の数は膨大になる
Ex. 1万語の単語辞書の場合、2語の組み
合わせで言語的に妥当なものの数は1
億にはならず、10%以下になるだろう
用例MTの考え方
• 文を構成する基本単位を句(いくつかの単語の列)に取る。人は句を単位として発話する傾向がある
• 句単位の対訳辞書をつくる。これを用例辞書• 句単位の対訳辞書をつくる。これを用例辞書と呼んでいる。
• 対訳辞書はおそらく数百万から一千万を超すだろう。しかし今日のコンピュータでは扱える規模である
• 文を基本的な文法(係り受け文法)によって句単位に分析し、用例辞書で目的言語の句に変え、これを合成して出力文にする
• 1980年にこの考え方を提唱したが、1990年代になって徐々にその良さが知られるようになり、世界に広まった。になり、世界に広まった。
• 用例辞書は巨大な対訳テキストを自動解析し、句単位に対応を取ることによって作成する。
• 数十億の対訳テキスト文を入手することが困難という問題がある。
統計MT(SMT)の考え方
• 米国DARPAなどが、世界のある言語の翻訳が必要になった時に素早く対応できるMTの開発を考えた
• その結果、翻訳すべき言語の文法などを知ら• その結果、翻訳すべき言語の文法などを知らなくても翻訳できる方式として、大量の対訳データを集めて統計的に解析することで翻訳ができる統計翻訳(SMT)が考案された。
• 翻訳すべき文の各セグメントが大量の対訳データのどこに最も高い確率でマッチするかを文全体で集計して調べ訳文を出す方式
• 音声認識研究で始められた隠れマルコフモデルを文字列に当てはめ、n (n=3 ?) 文字
連鎖での蓋然性を文全体で最大にするものを取るという考え方で訳を採用する
• この確率計算を文字単位、単語単位でやって• この確率計算を文字単位、単語単位でやっては良い結果が得られないので、最近は句単位で行うようになり、かなり良好な翻訳品質が得られるようになってきた。
MTシステムのこれからの課題
• 主語や目的語などの省略をどう推定するか、
指示詞の指すものをどうすればきめられるか
などの文脈の取り扱い
・特に対話文などにおいては、場面や状況の情
報、ニュースなどの情報、常識や知識を参照
する必要のあることが多く、これをどうシステ
ムに取り込めるか、などの問題がある。
RBMT, EBMT, SMTの精度は今日ほとんど同じである。
さらに精度を上げてゆこうとすると上記のような様々な課題に遭遇するので、これらをうまく扱様々な課題に遭遇するので、これらをうまく扱おうとすると、システムに言語学的健全性があるかどうかが問題となるだろう。
Ⅱ 実用MTの現状Ⅱ 実用MTの現状
これまでの代表的なMTシステム
• 初めての実用MTシステムはSYSTRANで、ECで英仏翻訳に使われた(1963)
• SYSTRAN はその後多くの言語の翻訳へ拡張されていったされていった
• 多言語間MTプロジェクトEUROTRAが1978年にEUでスタートしたが、数年たって放棄された
• 今日EUでは、英仏、英独、仏独、仏伊などのシステムは日常的に使われている。
• 科学技術庁MTプロジェクトが1982年に始まった。
• 科学技術論文の抄録部分の日英/英日MTシステムの作成。
• 京都大学、電子技術総合研究所、日本科学技術情報センターの共同開発技術情報センターの共同開発
• 4年後に完成、評価委員会の評価はA• その後、商用に書き直され、多くのところで使われた。
• その頃から多くのコンピュータ関係企業が製品を発売
現在の商用MTシステム
• 現在日本で利用できる商用MTシステムは
AAMT journal , No. 52, Sept. 2012に詳しい。
• 40社以上から種々のシステムが発売されている。
• 対象言語は、日、英、中、韓、独、仏、伊、西、露、アラビア、オランダ、その他
• グーグルは100言語以上の翻訳をサービス
音声MTシステム
• 近年音声認識の精度が目覚ましく向上した
• その結果、旅行会話など場面がある程度限定された分野における音声MTが実用されはじめている(ATRなどで)じめている(ATRなどで)
• 比較的短い発話文のMTが中心で、スマートフォンなどで使われている
• 多くの企業の製品が利用できる
• 2020年を目指して出来るだけ多くの言語にしてゆくことが必要である
MTの質の評価
• 翻訳の質の評価は難しい。人手による評価が最も良いだろうが、膨大な翻訳結果を人手で評価するコストは高い
• 機械的に評価する方法としては、BLEU(IBM)• 機械的に評価する方法としては、BLEU(IBM)やRIBES(NTT) などがある。
• RBMT, EBMT, SMTともに同程度の精度であ
る。問題は学習能力を持って進化してゆけるかどうかにあるだろう。
MTシステムの使い方
• 前編集:長い文を複数の短い文にしたり、主語などの省略を補ったり、文の形式を整える。
• 後編集:翻訳された文の誤り部分を直したり、読みやすいように修正する。読みやすいように修正する。
• 翻訳しようとするテキストの専門分野の単語、特有の言い回し表現などの辞書の整備
• 前編集をうまくすることによって人手による翻訳に比べて20~30%の時間、コストが削減できる。
日本語における制限言語の考え方
• 出来るだけ短い(単)文にする(一文の長さをN字以内に制限する)
• 並列句が多い場合には箇条書きにする
• 主語や目的語などの省略を出来るだけ避ける• 主語や目的語などの省略を出来るだけ避ける
• 和語の組み合わせ表現よりは一つの漢語
Ex. 日本語から英語への翻訳=>日英翻訳
• 語尾表現を複雑にしない
• ・・・・・・・
Ⅲ 多言語MTⅢ 多言語MT
中間言語を経るMT
• 一つのシステムで多言語翻訳をする場合は、入力文を中間言語(pivot)にまで分析・変換し、そこから目的言語文を生成する
• 中間言語表現は、文の基本的概念の表現であ• 中間言語表現は、文の基本的概念の表現であるが、解析過程で微妙な様相などの情報が脱落してしまい、事実関係しか翻訳で伝えられない
• 中間言語として記号論理(述語論理、様相論理)が検討されたが、自然言語文の表現には全く不足であり、あきらめられた。
言語グリッド
• 京大石田亨教授が始めた多言語間MT• 既存の多くの2言語MTシステム(翻訳エンジン、辞書、コーパスなど)のインターフェイスを統一してグリッド状に繋ぎ、任意の2言語間統一してグリッド状に繋ぎ、任意の2言語間のMTを実現する
MTシステム[A→B]*[B→C]=[A→C]• 言語グリッドには世界の主要国の研究機関が参加し、世界の主要言語MTシステムを繋いで協力運用しており、異文化コラボレーションのツールとして使われている。
オリンピックは文化の祭典でもある文化の祭典でもある
• ロンドンオリンピックでは文化の祭典でもあるとして、イギリス全土で種々のイベントがオリンピックの3,4年前から行われた
• 2020年には100以上の国、地域から2000万人以上の人が集まる
•• 日本の文化、日本人の精神性などを諸外国の人々に理解させる絶好の機会である
• 日本各地、特に日本の伝統文化の凝縮した京都の有形文化財の見学、無形文化財の体験学習などをさせる企画を作る必要がある
• 少なくとも日本語とそれらの国、地域の言語との音声MT, テキストMTシステムを作ることが必要である
• これらの言語の一般用語辞書のほかに、スポーツの専門用語辞書、観光関係の専門用語辞書、病気治療に必要な語句の辞書、語辞書、病気治療に必要な語句の辞書、日々の世界のニュース情報などが必要
• これらの言語資源の整備には世界各国の協力を得る必要がある。これをどうするかが問題である。
どうしましょう ???
終