音声変換ツールの進化がすごい

通勤時の地下鉄の案内音声が機械音声っぽくなったのが面白くて、最近、AIによる文字→合成音声への変換機能(いわゆる音声読み上げ)でいろいろと遊んでる。
Amazonの「Polly」やMicrosoftの「Azure」など、IT大手も参入している分野だ。
 
これをやっていて今更になって気付いたのだが1つの単語でも、1語のときと複合語になったときではイントネーションやアクセントの位置が違うことがとても多い。
(日本語に限った話じゃないが)
さらには同じ文字で複数の意味がある場合も、それぞれでイントネーションが違ったりする。
その辺をうまく把握してくれないAIでは自然な発音にならない。
(まあ、ひと昔前の無機質なロボットボイスから見れば格段の進化ではあるのだが)
例えば某ツールで(同意の意味での)「そうだね」という言葉を変換してもそのままでは変な発音になる。
そこで、一部をカタカナにしたりアルファベットにしたりして調整した挙句、一番マシだったのが「沿うだね」と入力した場合。
これでは文章を1つ音声に変換するのでもかなり苦労するので、ストレスフルでしょうがない。
 
それで色んなツールを試してみたわけだが、先日教えてもらった「VOICEPEAK」というアプリがかなり良い。
元文章をそのまま変換しただけでもかなり自然な発音になるし、後でイントネーションやアクセントを手動で上げ下げ調整できるので便利。
PollyやAzureなどは外国製なので、おそらく英語には強いのだろうが、日本語の理解はまだまだなのかもしれない。
(ディープラーニング中ということなので将来的には良くなるのだろうが。)
一方、VOICEPEAKは日本の会社が作ったソフト(正式発売は3月なので、今はお試し版)だから日本語の発音が自然なのかも。
 
今度、合成音声でeラーニング教材(うちはこれが本業)を1本作ってみようかな?
改訂するときに、前後で微妙に声が違うなんてことがなくなるし。