2016年7月1日金曜日

Google Cloud Speech API日記(5日目)

解析結果は、昨日と変わらずです。本日は、オプションを指定して解析結果の変化を見ていこうと思います。
<2016/07/01>
・通常時(最低限必要な、エンコード、サンプリング周波数、言語コードのみ指定)
{
  "responses": [
    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "ハイ|ハイ 2|ツー,ニ,フタ,フツ,ブタ sp|エスピー で|デ ござい|ゴザイ ます|マス 内線|ナイセン 番号|バンゴー を|オ 教え|オシエ て|テ ください|クダサイ まし|マシ た|タ"
            }
          ],
          "isFinal": true
        }
      ]
    }
  ]
}

・maxAlternatives(仮説の最大数:結果をいくつまで返却するかだと思う)に0、5を指定
※結果が変わらなかったので、Responnseは割愛

・profanityFilter(汚い言葉をフィルタする)にtrueを指定
※当然、結果は変わらなかったので、Responseは割愛

・continuous(多分、文の切れ目までを1つの結果として返却する)
この結果は、少し面白かったです。
結果としては、指定しないより、意味が通っているように思われます。
ただ、指定前は解析できていた内線番号を支店番号と誤って解析しています。
上記より、文の切れ目を、意識させると解析結果がよくなるのかも知れません。
そのため、今回の音声解析がなかなか改善しないのは、途中で無理やり音声を切っているからかも。
もう少し様子をみて改善しないようであれば、途中で切れずかつ、30秒で収まる音声を作ることも検討します。
{
  "responses": [
    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "アイオプトエスピーでございます支店番号を教えてください",
              "confidence": 1
            }
          ],
          "isFinal": true
        }
      ]
    },
    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "明日でござい",
              "confidence": 1
            }
          ],
          "isFinal": true
        }
      ],
      "resultIndex": 1
    }
  ]
}

明日以降も、引き続き様々なオプションを試してみます。

0 件のコメント:

コメントを投稿