apice-technologymemorandum

テキストから音声ファイルを生成、格納する

英会話やらインバウンドに関連するビジネス、そのた動画等で情報を発信する機会が多くなってきて、
まずは英会話等であれば、text-to-Speech を使って音声に変換、これを音声でなく音声ファイルに落としたいと思ったので、ちょっと調べてみました。
まずは

text-to-Speech のAPIについて

1.Google Cloud Text-to-Speech: Google Cloud Platformの一部であり、非常に自然な音声を生成することが可能です。多様な言語とアクセントに対応しており、リアルタイムでのテキストから音声への変換が可能です。カスタム音声の調整も可能で、特定の用途に合わせて音声のスピードやピッチを調整できます。

2.Amazon Polly: Amazon Web Servicesの一部であるAmazon Pollyは、テキストをリアルタイムで自然な音声に変換するサービスです。多くの言語と声をサポートしており、SSML(Speech Synthesis Markup Language)を使用して音声の細かい調整が可能です。また、ニュースキャスタースタイルの話し方やウィスパーボイスなど、特殊な話し方もサポートしています。

3.Microsoft Azure Cognitive Services Speech Service: Microsoftの提供するこのサービスは、テキストから自然な音声を生成することができます。多言語対応であり、さまざまな声の選択肢が用意されています。音声のスタイルや感情を調整する機能もあり、例えばニュース読み上げやカジュアルな会話スタイルを選択できます。Azureのこのサービスは、特にエンタープライズレベルのアプリケーションに適しています。

Web制作カテゴリーに戻る

1