合成音声ライブラリの特徴と、使い方の紹介

はじめに

この記事は日本語の合成音声に関して、各ライブラリの特徴や使い方とかを書いてます。
2021年5月18日現在時点で、時間かけて調べ尽くしました。もし、ここに書いてないものがあれば、教えていただけますと幸いです。

各サービスの特徴

使い方

Amazon Polly

公式リファレンス

SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。

google Text-To-Speech

公式リファレンス

SDKが既にあり、これを活用するようです。他にも調べたらたくさん資料が出たので割愛します。

VOICEROID

筆者がGUIしか触ってないため説明を省略します。
調べた限りですと、環境が整っておらず大変そうです。

VOICEROID2で自動読み上げ&保存させてみた2

AquesTalk

公式のダウンロードページの中のAqKanji2KoeとAquesTalk10を使います。
AqKanji2Koeは入力文章を加工し、品詞分解したり、アクセント記号の追加をします。
AquesTalk10は前述のAqKanji2Koeで作成した文章から音声を作成します。

公式のダウンロードページから開発環境に合わせてソフトをダウンロードし、ダウンロードボタンの横にあるマニュアルを読みながらの開発になります。
Linuxで開発していたのですが、公式マニュアルに追加して、以下exportが必要でした。

OpenJTalk

デモページのGetting Open JTalk からのダウンロードになります。
環境構築は調べたら記事がたくさん出て来たため省略します。覚えている限りでは苦戦しなかったです。
環境構築し直す機会があれば追記します。

まとめ

合成音声のアルゴリズム思想は今も昔も変わらず、現実の音波とPC上の特徴量のマッピングをすることが主のようです。そのマッピングをブラックボックス化するアルゴリズムがHMMかneural networkかで流行が変化した。

最近は高品質で安価なものがAPIになっていました。
非オンライン環境での選択肢はそこまで多くないので、お金との相談だと思います。