【スポンサーリンク】

ロゼッタのIRを読んで、自動翻訳の今後がどんな感じになるのか予想してみた

一応、自動翻訳は2025年前後に実用化される、と言われています。

 

https://www.rozetta.jp/download/nmpahnrdpan2015111902.pdf

(ロゼッタのIRの資料です。この資料は2025年「目標」としかありませんが。)

 

AIというよりもディープラーニングの手法を用いる方針のようですが、本当にそんなに早く実用化できるのか、ちょっと考えてみたいと思います。

(結論から言うと、限定された環境下では自動翻訳の実用化は近いと思いますが、オールラウンドな自動翻訳はかなりハードルが高いのではないかと思います。また、それで翻訳家が全員職を失うかはまた別の話だと思うのは下記エントリに書いた通りです。むしろ弁護士の仕事の方が危うい業務がたくさんあります。)

 

参考:今後10年の業界変動を考える 〜AIによってごっそり仕事を奪われる層とは

 

まず、自動翻訳のアルゴリズムを分解してみると、

(1)音声認識技術
(2)翻訳技術(現在のgoogle翻訳のようなもの)
(3)音声読み上げ技術

の3つに分けられます。

 

このうち、(3)はもうほとんど実用化されています。というか、(2)の結果をディスプレイ表示してくれれば自動翻訳機として十分実用的(スマホに向けて喋るとリアルタイムでディスプレイに訳が表示されるようなイメージ)なので、ネックになっているのは(1)と(2)の技術ということになります。

 

そしておそらく、(1)の方がハードルが高いように考えられます。

なぜなら、喋る人、場所、周囲の雑音などによって認識対象のサンプルにばらつきがありすぎるからです。

 

ですので、例えば国際会議のように、発話者に一定以上のスピーチ能力があり、かつ、高性能のマイクで話した内容を拾える、というシチュエーションに限っての開発から進めていくのではないかと思います。

あと、この分野では、日本語よりも英語の方が進んでいると思います。アメリカでは、裁判記録(証人、裁判官、弁護人らが法廷で話した内容)はリアルタイムで音声変換され、裁判官、陪審員の手元にあるタブレットにリアルタイムで反映されます(変換結果を聞いて修正をかけている人が多分裏にいるのだとは思いますが)。日本では、裁判員裁判開始のときに一回業者が入って開発したのですが、結局実用化されませんでした。

 

こう考えると、会議向け翻訳の実用化が先で、立食パーティやバーでの会話まで瞬時に音声変換されるような翻訳機の実用化は、結構後になるのではと予想されます。もちろん、精度が低くてもよいのであれば今の技術+αでも行けそうな気がしますが、結局それだと今あるgoogle翻訳レベルのものと大差ないものになってしまうと思います。

 

最低限意思の疎通ができるものであれば今でも無料で使えるわけです。翻訳機を挟んでいるというストレスを限りなくゼロにできるレベルのものがどのくらい先にできるのか、というのが問題で、その辺は投資する人やビジネス導入しようとしている人はシビアに見た方がいいと思います。

 

次に、(2)の翻訳の技術ですが、これも口語の翻訳ということになるとかなりハードルが高いです。google翻訳は、主語と述語を一対一対応にした文章を入力してあげれば、かなり高い精度で翻訳をしてくれますが、喋り慣れていない人の喋りは、てにおはや主語・述語の順番など、結構曖昧なニュアンスが含まれています。そういうレベルの文章も含めて正しく、リアルタイムに翻訳ということになると、かなり高度な翻訳能力が要求されると思います。

 

そして、仕事で使うとなると、基本スタンドアロンなシステムにしないといけないわけです。今のgoogle翻訳のように、入力した内容が外部にだだ漏れでは、ビジネス用途での利用は厳しいわけです。

 

それも含めて、人間の訳者を雇うよりも安価なシステムが本当にできるようになるのはいつなのかというと、そうすんなりとはいかないような気もします。

 

基本の会話くらいはさっさと英語でできるようになっておいた方がてっとり早い気がします。

 

ロゼッタ1社で2500億円規模の市場を総取りするというのはちょっと楽観的かなと思います。個々の翻訳支援ツールのブラッシュアップはもちろん可能だと思いますが。

 

ただ、仮にリアルタイム音声認識が実用化できればいろいろなインターフェイスに応用可能なので、当たればでかいという感じですね。

 

追記:IRにはネット上のデータをビックデータとして活用するとあったのですが、著作権処理はどうしているのかちょっと気になりました。ネット上に転がっている=それをサンプルとして使っても複製に当たらないという解釈だとすると、ちょっとどうなのかなという気もします。