2016年7月7日木曜日

Google Cloud Speech API日記(11日目)

本日は、オプションのspeechContextについて掘り下げてみます。
まず、speechContextは、解析前に、解析エンジンにヒントを教えるものです。
要するに、この音声には、こんな単語が含まれていますを教えるイメージです。
※昨日と同じオプションで解析した場合は、結果が変わらなかったため、割愛します。

[ 音声ファイル ]
※以前、紹介した60秒の音声から無音の箇所や、リング音の一部を除去して30秒に収めたものです。
(IVR)はい、オプトエスピーでございます。内線番号を押してください。
ピッ、
プルルル(呼び出し音1回)
(私)はい、もしもし、おまたせしました。オプトエスピー上原でございます。
(サポート)えー、セールスフォースドットコムサポート担当の西田と申しますが。
(私)はい、お世話になっております。
(サポート)えー、お電話でご質問を頂きました(あっ、はいはい)売上予測のデータを外部出力することができるか(うん)という件なんですけれども(ええ)、今この件で少しお時間頂いても大丈夫ですか。
(私)はい、大丈夫です。

では、早速結果を見ていきます。
前提として、continuousを常に指定しています。

No.指定ワード結果備考
1なしハイ2 sp でございます来店番号を教えてください
2内線番号ハイ2 sp でございます内線番号を教えてくださいきっちり結果に反映
3内線番号、オプトエスピーはいオプトエスピーでございます内線番号を教えてくださいきっちり結果に反映
4なしハイ2 sp でございます来店番号を教えてください学習効果を期待しましたが、改善せず
5内線番号、オプトエスピー、押して下さいはいオプトエスピーでございます内線番号を教えてください文脈も認識しているようで反映されず

この結果で、面白いのは、4と5だと思います。
4は、まぁすぐには、学習してくれないよねということがわかりました。
5については、備考に記載した通り、文脈を認識しているようで、断固として、教えてくださいを変えないです。(ここに人間っぽさを感じませんか?)

最後に皆さん気になっていると思いますが、何で最初のIVR以外解析されないの?
というところですが、私なりに解釈すると、音声の波形が変わる(話している人が変わる)と雑音と認識するのか、それ以降は解析しないようです。
<実際の波形>

明日以降は、この仮説を検証してみようと思います。

0 件のコメント:

コメントを投稿