本1冊を機械翻訳で訳してみた


昨年暮れに、新 企業の翻訳者を目指す皆さんへという本を出版しましたが、その本を機械翻訳を使ってまるまる1冊英語に翻訳してみました。翻訳済みの英語はこちらです。PDFファイルを無料でダウンロードいただけます。

使った機械翻訳システムはみらい翻訳です。Google翻訳Microsoft Translatorも試してみましたが、少なくとも昨年夏にいろいろ試した結果、(英日はわかりませんが)日英の翻訳品質が一番良い印象でした。もっとも、定量的な評価をしたわけではないので、あくまでも「印象」です。

私は1980年代の終わりころに機械翻訳の研究をしていました(学位も機械翻訳の研究でいただきました)。ですので、ある程度は機械翻訳のことはわかっていると思っていました。初期のもくろみは、辞書の整備と十分な前編集を行うことで、ほぼ後編集なしで本1冊をまるまる英訳することでした。後で述べるように、今の機械翻訳の精度では、まだ後編集なしというわけにはいかないようです。ただし、日本語を丁寧に書くことで、後編集の手間を大幅に削減できることはわかりました。結果、本1冊をほぼ1ヵ月で英語に翻訳することができました。

翻訳対象

本の内容は、もともと2009年に書いた本で、IBM東京基礎研究所に勤務していたころに、社内の研究員に宛てて書いていたレターやブログを中心に、企業における研究者のあり方について論じたものです。これを、その後のキヤノン・統計数理研究所・PFNでの経験を元におよそ内容の半分を書き直したものが、今回翻訳対象とした本です。研究のやり方だけでなく、コミュニケーション、リーダーシップ、キャリア、倫理など社会人としての技術者に広く読んでいただける内容をカバーしています。従って、専門的な内容は少なく、機械翻訳の対象としては、一般文章と考えてもよいでしょう。である調の本文のところどころに、ですます調のレター・ブログが挟まっている点は、少し注意が必要でしょう。日本語文書はGoogle Docsで作成しましたが、レター・ブログ部分は異なるフォーマット(文字色)で区別していました。本全体の長さは146,125字、紙媒体の本で232ページです。

うまくいかなかったこと

自然言語処理の難しさの1つは、多義語の扱いにあります。日本語で同じ表記なるものでも英語ではまったく別の意味になる場合があります(例えば、自転車のバルブはvalveですが、電球のバルブはbulbです)。従って、文脈に応じて翻訳を変えなければなりません。以前の自然言語処理は、この文脈の処理が難しかったのですが、今の機械翻訳は、大量の翻訳例から統計モデルを作って正しい翻訳を推測します。この際に、文脈が考慮されるので、文脈の応じた訳語の選択が相当うまく行くようになってきています。

ところが、この文脈を考慮することが裏目に出ることがありました。本書の中で論文の書き方を議論する際、論文のタイプとして「事実に関する論文」「法則に関する論文」「方法に関する論文」と3つに分けたのですが、「事実に関する論文」が、その場その場の文脈によって、”a paper on facts”, “a factual paper”, “a fact paper”と訳し分けられてしまったのです。おそらく、それぞれの文脈で統計的により現れやすい表現だったのでしょうが、ここではそれぞれのタイプの名前として使った表現なので、表現を統一したかったところです。表現を統一するためには、辞書登録すればよいかというと、必ずしもそれでうまくいくとは限らないことがわかりました。文脈による訳し分けをしてほしい場合と、訳語の統一をしてほしい場合があり、その区別はまだまだ難しい問題のようです。

ちなみに、誤訳で面白かったのは、「地頭の良い人」という意味で使った「地頭」が “jito (manager and lord of manor) “ と訳されたことです。これは、鎌倉幕府の荘園を管理する人のことですね。

うまくいったこと

辞書設定による訳語のコントロールが、なかなか思うようにいかなかったので、「辞書整備+前編集」という当初の方針はあきらめ、翻訳結果を手作業で修正することにしました。多くの場合、機械翻訳された英文を見るだけで原文の意味が推定できたので、原文に戻ることなく後編集ができました(元々自分で書いた文章ですから当り前といえばその通りですが)。

嬉しい驚きは、新たに書き起こした部分については機械翻訳が相当うまく行ったことです。本のおよそ半分が書き起こしですが、書き起こし部分については特に次の3点について気をつけました。

  • 1文をできるだけ短くすること
  • どうしても長くなる場合は従属節を鍵括弧で囲むなど、文の構造を明確にすること
  • できるだけ、主語を省略しないこと

外国人に日本語を話すときには、文の構造に気をつけて話しますよね? それと同じようなことだったと思います。

年末年始休みに入ってから作業を始め、まずは明らかな誤訳や、意味の通じないところを自分で修正しました。その後、何人かの外国人の友人(フィリピン、ニュージーランド、ルーマニアの出身)に見てもらい、気の付いた点を直してもらいました。出来上がった英語の文書(56,035語)は、出版クォリティにはほど遠いですが、無料ダウンロードでカジュアルに読んでいただく分には、ほとんどストレスなく読めるものに仕上がったと思います。

機械翻訳がなければ、すべてを自分で翻訳せねばならず、とても1ヵ月ではできなかったと思います。機械翻訳システムは、それなりに心の準備をして使えば、本1冊を英訳するのにも使えるレベルのツールになってきたな、と思います。

謝辞

この試みに関して、翻訳システムの試用を快く提供してくださった株式会社みらい翻訳の皆様、英訳の無料ダウンロードを許可してくださった近代科学社の皆様、それに英訳の改善に力を貸してくださった、Roberto Legaspi、Stuart MacDonald、Mihai Morariuに深く感謝します。