2016年6月30日木曜日

Google Cloud Speech API日記(4日目)

解析結果は、昨日と変わらなかったので、ここまでで分かった範囲の制約をまとめておきます。
<2016/06/30>
音声ファイル
(IVR)はい、オプトエスピーでございます。内線番号を押してください。
ピッ、ポッ、パッ
プルルル(呼び出し音5回)
(私)はい、もしもし、おまたせしました。オプトエスピー上原でございま
※30秒で強制的に音声を切っているため中途半端な状態になっています。

[ 解析結果 ]
{
  "responses": [
    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "ハイ|ハイ 2|ツー,ニ,フタ,フツ,ブタ sp|エスピー で|デ ござい|ゴザイ ます|マス 内線|ナイセン 番号|バンゴー を|オ 教え|オシエ て|テ ください|クダサイ まし|マシ た|タ"
            }
          ],
          "isFinal": true
        }
      ]
    }
  ]
}

[ 制約実行 ]
1. コーデックは可逆圧縮のみ対応。
そのため、ACCは、FLACなどの可逆圧縮コーデックに変換する必要があります。
ちなみに昨日からの解析で使用している音声は、ACCをFLACに変換したものです。

2. FLACの場合、サンプリング周波数を44,100にすると解析に失敗する。
閾値がどこかは、調査して報告します。

3. 録音時間が1分越える音声ファイルを解析しようとすると、以下のエラーメッセージが返却される。
"For audio inputs longer than 1 min, use the 'output_uri' pararameter to specify an output file."

4. 録音時間が45秒以上の音声ファイルを解析しようとすると、サーバーエラー(Error 502 (Server Error))が発生する。
よくよくみると以下のメッセージがレスポンスに含まれているため、実質30秒が現時点の閾値なのでしょう。
"The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds. "

0 件のコメント:

コメントを投稿