機械通訳システム:声音で意味が変わる音声合成のむずかしさ

 通訳電話における機械翻訳としての機能では、音声認識音声合成も重要である。特定の個人の声を認識できるだけでは、電話としては都合が悪い。誰の声でもきちんと認識してくれなくては困るし、一つの単語でも人によっては訛りもあれば発音の癖もあるが、それも聞きとれなくてはならない。しかも特定の個人の声でも、話の内容しだいで抑揚も変化する。

 また音声合成の段階で、同じ甘葉でもその声質によって意味がまったく変わるので、そのへんも考慮しなくてはならない。「この子ったら行儀の悪い子ね!」と母親が叱る言葉も、ほろ酔い気分でよりかかってきた女性が、流し目で「あなたって、いけない人ネ」というのも、英語に訳せばYOU ARE NAUGHTY BOY.である。音声も抑揚も同じ調子では、いったいなんのことやらわからなくなる。

 文の前後の関係から、合成される声の質も、内容に合致するよう変化する必要がある。もっとも、通訳付きで「いけない人ネ」といわれても、そこから先へは進めないだろうが。

 NECにおける現在の開発は、もちろんそうした段階まではいってないが、基本的な技術はクリアーされて、あとぱ半導体のキャパシティーが増加するのと歩調をあわせてすすむことになりそうだ。

 ただ、ビジネス関係と技術関係に限った内容の通訳電話の実用化は、そう遠くはないだろう。それにポータブルの自動通訳装置の登場は、今後10年以内と見こまれている。これだけでも、人間のコミュニケーションに、劇的な変化をもたらすことは確実だ。海外での取材辛打ち合わせなど、いまから用途を考えたくなる。