1. HOME
  2. ブログ
  3. amazon AWSのamazon pollyの音声読み上げサービスをわかりやすく解説!

amazon AWSのamazon pollyの音声読み上げサービスをわかりやすく解説!

amazon AWSとは

aws

アマゾンが提供する、企業向けのクラウドサービスです。サーバー機能からはじまって、アプリ開発、IOTサービス、セキュリティ、VR、動画配信、機械学習系などなど、現在は本当に様々なサービスを提供するようになっています。

アクセスが一気に増えるHPでは、既存の1つのサーバーをレンタルする方法だと、過大なアクセスから処理が追い付かず、HPが閲覧できなくなったりしてしまいますが、AWSでは、突発的な大量のアクセスもクラウドなので、複数のサーバーで自動的に処理能力を拡大して対応が可能です。

自社サービスを提供する場合などでは、こういったクラウド型のホスティングサービスは必須になってきていると言っていいでしょう。

 

amazon pollyとは

amazon pollyは、AWSサービスの中の1つで、文字テキストの音声読み上げを行うものです。

詳しい説明は以下の動画を御覧ください!

 

amazon pollyの料金は?

無料利用枠について

pollyには、無料利用枠があります。

Amazon Polly の標準音声の場合、無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 500 万文字まで、音声または Speech Marks リクエストを利用できます。

Amazon Polly のニューラル音声の場合、無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 100 万文字まで、音声または Speech Marks リクエストを利用できます。

つまり、12ヶ月間、月100万文字までなら、無料で使えるということです!

無料期間後の料金

pollyでは、処理したテキストの文字数に応じて毎月課金されます。

Amazon Polly の標準音声の料金は、音声文字、または Speech Marks のリクエスト 100 万字に対して 4.00 USD です (無料利用枠を超えた場合)。

Amazon Polly のニューラル音声の料金は、音声文字、または Speech Marks のリクエスト 100 万字に対して 16.00 USD です (無料利用枠を超えた場合)。

つまり、無料期間後も、ニューラル音声の場合でも、100万文字あたり16ドル(おおよそ2,080円:1ドル130円計算)となります。

100万文字となると、そうそう使わないですよね。使い方次第では、1度課金して、次の課金が数年後なんて感じになるのではないでしょうか。

ということで、大変お得に使えるのが、アマゾンpollyなんです!

読み上げエンジンによる差

以下の文章を読み上げてもらいました。

「お手数ですが、平日の10時以降に再度おかけ直しくださいませ。
どうぞ、よろしくお願い致します。」

スタンダード Mizukiバージョン

 

スタンダード takumiバージョン

 

ニューラル takumiバージョン

聞き比べると、断然ニューラルエンジンの方が自然ですよね。スタンダードだと、若干、音声が割れる感じがしますね。

 

商用利用は可能?

アマゾンpollyは、商用利用可能です。基本的には有料サービスなので、まったく問題ありません。

 

SSML言語の解説

動画内で解説していますが、イントネーション等、こちらのイメージ通りに読み上げてもらうためには、いくつかSSML言語というプログラムにて指示を出す必要があります。

一時停止

動画でも出てきましたが、<break time=”3s”/>のように入れると、3秒停止します。ほんとに一瞬止めたい場合、<break time=”3ms”/>として、1000分の3秒止めることも可能です。

話す音量、速度調整

prosodyというタグには、2つの設定できる項目があります。

①音量 <prosody volume=”-6dB”>読み上げたい文字</prosody>という記載をすれば、-6db分小声でしゃべります。大きくしたい場合は、マイナスをとればその分大きな声になります。

②速度 <prosody rate=”95%”>読み上げたい文字</prosody>のように記載すれば、5%分ゆっくり読み上げます。速くしたい場合は、120%などを設定してみましょう。

読み方の細かい指定

<phoneme alphabet=”x-amazon-pron-kana” ph=”ヒロカ’ズ”>浩一</phoneme>のように指定します。

この「 ’ 」アポストロフィ記号をつけた場所のトーンを落とす効果があります。上記の事例では、ヒロカのカで音を下げて、ズを読むという設定ですね。

実際の日本語読み上げサンプル音声はこちら↓

また、間にスペースを開けると、アクセントの場所が変わります。

<phoneme alphabet=”x-amazon-pron-kana” ph=”ヒロ カズ”>浩一</phoneme>

実際の日本語読み上げサンプル音声はこちら↓

 

株式会社という言葉もそのまま読ませると変なイントネーションになってしまいます。

こんな感じに設定してもらえると、実際のイントネーションに近いかなと思います。

<phoneme alphabet=”x-amazon-pron-kana” ph=”カブシキガ イ’シャ””>株式会社</phoneme >

アポストロフィの位置を変えたり、増やしたり、スペースを追加したりしてみてください。ある程度希望の読み方に近づけられると思います!

 

まとめ

音声読み上げサービスのamazon pollyをご紹介しました。AWSというと、難しそうな印象があると思いますが、pollyを使うだけならすごく簡単ですよ!

ぜひ活用してみてください!

 

 

 

関連記事

ICTオフィス相談室 最新記事