Amazon Transcribe で音声の文字起こし
Amazon Transcribeを使って、パソコンのマイクから直接読み上げた内容を、文字起こししてみました。
Transcribeでは、あらかじめ用意した音声ファイルや動画ファイルを入力として、ジョブに流して、文字起こし結果を得ることができますが、今回は直接、AWSマネージメントコンソールから操作して、パソコンに接続したマイクから読み上げた内容を画面で文字起こしとしてゲットしました。
Amazon Transcribeとは?
- 音声ファイル・動画ファイルなどの文字起こしや、会議などでのリアルタイム文字起こしを、高度な機械学習技術を使用して実現しています。
- サポートするすべての言語に句読点を自動的に追加します。また、文字体系で大文字と小文字の区別を使用する言語のために適切に単語を大文字にします。
- 音声ファイルを書き起こす場合、信頼度が最も高い書き起こしが返されますが、信頼度が低い代替え文字も追加で返すように指定できます。
- たとえば、書き起こしをレビューするアプリケーションで、選択して代替文字起こしを提示できます。
- オーディオ入力で認識させたい特別な語句のリストをカスタム語彙として生成し、文字起こしをサポートできます。
- 語彙フィルタリングを使用して、文字起こし結果に表示しない単語をマスクまたは削除できます。語彙フィルタリングを使用して、攻撃的な言葉や冒とく的な言葉の表示を避けることができます。
- 文字起こしジョブの Transcribeへの要求には、一度に実行できるジョブに制限があり、ジョブスロットMAX 100 個に達すると、先入れ先出しキュー(FIFO)によって、待機する必要があります。
Amazon Transcribe の料金
1 か月に文字起こしを行った音声の秒数に基づいて、従量課金制で料金が発生します。
無料利用枠 12 か月間、1 か月あたり 60 分
標準料金(東京リージョンの場合)
階層 | ボリューム (分/月) | ストリーミング/バッチ文字起こし (USD/秒) | ストリーミング/バッチ文字起こし (USD/分) |
T1 | 最初の 250,000 分 | 0.00040USD | 0.0240USD |
T2 | 次の 750,000 分 | 0.00025USD | 0.0150USD |
T3 | 1,000,000 分超え | 0.00018USD | 0.0108USD |
Transcribe Streaming
それでは、AWSマネージメントコンソールから簡単に始めてみます。
ここで、マイクに向かって、読み上げた内容が、Transcription output に表示されました。大体、文字起こしできていましたが、「ラズパイ」としゃべったのが、「なぜバイオ」と表示されました。まあまあの結果ですかね。
ここで、右上のボタンは「Stop streaming」なんですが、これを押すと「Start streaming」に変わって読み取りが一時終了します。
ちなみ、画面下部の「Additional setting」を展開すると、下のように展開されます。
- カスタム語彙 固有の単語やフレーズを認識する精度を向上させます。
- 語彙フィルタリング 語彙フィルターで指定した単語を削除、マスク、またはタグ付けします。
- 話者識別 ストリーム内のさまざまなスピーカーを識別します。話者識別は、言語間で可用性が異なる場合があります。
- 部分的な結果の安定化 連続的な音声は最終場面まで、部分的な結果を生成しますが、処理判定の結果、一部の語句が変化する可能性があります。
文全体が文字起こしされるのを待つ代わりに、部分的な結果の安定化レベルを制御します。
ライブ字幕の使用感改善などに有効。
さらに、文字起こししようと「Start streaming」をクリックすると
「Start a New stream」クリックで、新しいストリームを開始すると、以前のリアルタイムの文字起こしが上書きされます。
「Download full transcript」を選択して、文字起こしのコピーを保存できます。再度ダウンロードすることはできません。
「StreamingTranscriptResults.json」というJSONデータを取得できた。
今度も、「新しめ」が「新しい目」になっていただけでほぼ正解。読み上げた人の活舌の問題かもしれないし・・・