2016年7月11日月曜日

Google Cloud Speech API日記(12日目)

前日の宣言通り、話し手が変わると、それ以降は認識しなくなるか検証してみました。
最初のIVR部分と呼び出し音を削って、私の会話からスタートしたものに変更しています。
私の音声だけが抜き出されて、解析結果に出たら面白いですよね。

[ 音声ファイル ]
(私)はい、もしもし、おまたせしました。オプトエスピー上原でございます。
(サポート)えー、セールスフォースドットコムサポート担当の西田と申しますが。
(私)はい、お世話になっております。
(サポート)えー、お電話でご質問を頂きました(あっ、はいはい)売上予測のデータを外部出力することができるか(うん)という件なんですけれども(ええ)、今この件で少しお時間頂いても大丈夫ですか。
(私)はい、大丈夫です。

[ 解析結果 ]
・通常時(最低限必要な、エンコード、サンプリング周波数、言語コードのみ指定)
"transcript": "はいもしもしまたしましたお手数 you have でございますと申します"

・continuous(多分、文の切れ目までを1つの結果として返却する)
"transcript": "はいもしもしまたしましたお手数 you have でございますと申します"

うーん、私の会話の後、サポートさんの会話(と申します)がくっついている、なんだろう?
なぞが深まります。
ただ、通常時の結果が前回のように複数候補を挙げるものではなくなっています。

前回の音声を解析してみましょう。

[ 解析結果(前回の音声) ]
・通常時(最低限必要な、エンコード、サンプリング周波数、言語コードのみ指定)
"transcript": "ハイ2 sp でございます内線番号を教えて下さいできるかという間なんですけれど少しお時間いただいても大丈夫ですか"

・continuous(多分、文の切れ目までを1つの結果として返却する)
"transcript": "ハイ2 sp でございます内線番号を教えて下さいできるかという間なんですけれど少しお時間いただいても大丈夫ですか"

なるほど、こちらは、IVRの後に、私の会話がスキップされて、サポートの会話が中途半端にくっついています。
IVRの解析結果は、通常時の結果も含めて良くなっているようです。

これは、解釈が難しい結果になってしまいました。
自己学習しているというよりは、定期的にプログラムが更新されているのかも知れないですね。

可能であれば、バージョンアップの履歴とつき合わせてみようと思います。

次回は、音声ファイルの音量を変えてみるなど、また別な切り口で解析してみようと思います。

0 件のコメント:

コメントを投稿