apice-technologymemorandum

AIを使った音声認識

語学研修やらまたアプリケーションにおいて、AIと音声で会話をする必要があり、CHATGPTでそのような機能が存在するものかを調べてみました。

そうすると、GOOGLE が持っているAPIで  Speech-to-Text と Text-to-Speech 機能を使えば実現が可能とありました。 従い 語学学習を本格化するにあたって、この機能と CHAT GPT を組み合わせればもんっ代がないことがわかり、英語の語学勉強用に作ることができそうです。


Speech-to-Text には、次のような特徴があります。
音声認識の精度が高い
125 以上の言語や言語変種に対応している
正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができる
会話におけるそれぞれの発話がどちらの話者によるものなのかを自動予測できる
Speech-to-Text を活用すると、ビジネスや学習を効率化させたり、翻訳に使用したりすることができます。プログラミングの知識があれば、独自にカスタマイズして、使用する分野に最適化させることができます。



Google の Text-to-Speech には、次の機能があります。
215 種類の声と 60 種類の言語から選択できる
任意のプログラミング言語を使用することで、サービスにあった声のトーンにできる
自然に聞こえる音声を提供できる

この機能を使用するには、API使用料金がひつよですね。


text to Speech

料金表
特徴 1 か月あたりの無料枠 無料の使用量上限に到達した場合の料金
Neural2 音声 0 ~ 100 万バイト 1 バイトあたり 0.000016 米ドル(100 万バイトあたり 16 米ドル)
多言語音声(プレビュー)音声 0 ~ 100 万バイト 1 バイトあたり 0.000016 米ドル(100 万バイトあたり 16 米ドル)
Studio(プレビュー)の音声 0 ~ 10 万バイト 1 バイトあたり 0.00016 米ドル(100 万バイトあたり 160 米ドル)
標準音声 0〜400 万文字 1 文字あたり 0.000004 米ドル(100 万文字あたり 4 米ドル)
WaveNet 音声 0〜100 万文字 1 文字あたり 0.000016 米ドル(100 万文字あたり 16 米ドル)

Speech-to-Text
カテゴリ モデル 料金
0 ~ 500,000 分 / 月 500,000 ~ 1,000,000 分 / 月 1,000,000 ~ 2,000,000 分 / 月 2,000,000 分以上 / 月
音声認識(デフォルト) 標準 1 $0.016 / 分 ** $0.010 / 分 ** $0.008 / 分 ** $0.004 / 分 **
医療 2 $0.078 / 分 ** $0.078 / 分 ** $0.078 / 分 ** $0.078 / 分 **
動的一括音声認識 標準 1 $0.003 / 分 ** $0.003 / 分 ** $0.003 / 分 ** $0.003 / 分 **

AI関連カテゴリーに戻る

1