青い帽子の色々学んで行こう: Google Cloud Speech API日記（11日目）

本日は、オプションのspeechContextについて掘り下げてみます。
まず、speechContextは、解析前に、解析エンジンにヒントを教えるものです。
要するに、この音声には、こんな単語が含まれていますを教えるイメージです。
※昨日と同じオプションで解析した場合は、結果が変わらなかったため、割愛します。

[ 音声ファイル ]
※以前、紹介した60秒の音声から無音の箇所や、リング音の一部を除去して30秒に収めたものです。
(IVR)はい、オプトエスピーでございます。内線番号を押してください。
ピッ、
プルルル（呼び出し音1回）
(私)はい、もしもし、おまたせしました。オプトエスピー上原でございます。
(サポート)えー、セールスフォースドットコムサポート担当の西田と申しますが。
(私)はい、お世話になっております。
(サポート)えー、お電話でご質問を頂きました（あっ、はいはい）売上予測のデータを外部出力することができるか（うん）という件なんですけれども（ええ）、今この件で少しお時間頂いても大丈夫ですか。
(私)はい、大丈夫です。

では、早速結果を見ていきます。
前提として、continuousを常に指定しています。

No.	指定ワード	結果	備考
1	なし	ハイ2 sp でございます来店番号を教えてください
2	内線番号	ハイ2 sp でございます内線番号を教えてください	きっちり結果に反映
3	内線番号、オプトエスピー	はいオプトエスピーでございます内線番号を教えてください	きっちり結果に反映
4	なし	ハイ2 sp でございます来店番号を教えてください	学習効果を期待しましたが、改善せず
5	内線番号、オプトエスピー、押して下さい	はいオプトエスピーでございます内線番号を教えてください	文脈も認識しているようで反映されず

この結果で、面白いのは、4と5だと思います。
4は、まぁすぐには、学習してくれないよねということがわかりました。
5については、備考に記載した通り、文脈を認識しているようで、断固として、教えてくださいを変えないです。（ここに人間っぽさを感じませんか？）

最後に皆さん気になっていると思いますが、何で最初のIVR以外解析されないの？

というところですが、私なりに解釈すると、音声の波形が変わる（話している人が変わる）と雑音と認識するのか、それ以降は解析しないようです。
＜実際の波形＞

明日以降は、この仮説を検証してみようと思います。

青い帽子の色々学んで行こう

2016年7月7日木曜日

Google Cloud Speech API日記（11日目）

0 件のコメント:

コメントを投稿