2016年6月27日月曜日

Google Cloud Speech API日記(1日目)

<なぜこの日記をつけるのか>
先週金曜日(6/24)に実行したCloud Speech API用のcurlコマンドを、学習がてら再実行した結果が衝撃的だっため、1日を経過する毎に同じ音声の解析結果がどのように変遷していくのかが気になり日記をつけることにしました。

その衝撃の結果は、こちら。
[読み込ませた音声ファイルの内容]
「もしもし、こんにちは、上原久幸です。もしもし、もしもし、1,2,3,4,5,6,7,8,9,10」
⇒音声ファイルの解析結果には、正直あまり期待していなかったため、IVRで使うためのせめて数字の認識はできるよねというところを確認するのが目的でした。

[06/24の解析結果]
※日数が経過すると解析精度があがるとはおもっていなかったため、残念ながら証跡は残していないため、あくまで私の記憶だよりです。
 「もしもし|モシモシ・・・・・・・・もしもしもしもし|モシモシモシモシ12345678910|いちにさんしごろくひちはちきゅういちぜろ|ひゃくにじゅうさんおくよんせんごひゃくろくじゅうなな・・・・・・」
・・・・・・・・は、私が結果を記憶できなかった部分です。上原久幸という固有名詞の影響か意味の通らない結果だったと思います。
また、パイプ(|)は、複数の結果が想定される場合にこのような結果を返すようです。

⇒複数の結果候補をあげてくれるため、これでも使いようによっては面白いという感想でした。

[06/27の解析結果]
「もしもしこんにちは上原久幸でもしもしもしもし12345678910」
⇒"上原久幸です"が"上原久幸で"になっている以外すべて正解。文脈の区切りがないところは気になりますが、それでも先週の結果からの解析結果の向上は衝撃です。

経緯は以上です。それでは以下に1日ごとの解析結果の変遷を残していきます。
音声ファイルのエントリーは以下の2種類とします。
1.専門用語なし
「今日は、8時20分頃出勤しました。出勤後、メールのチェックを行い、8時45分から9時まで社内の掃除をしました。」
2.専門用語あり
「Asteriskは、アメリカのDigium社が開発しているオープンソースのIP-PBXソフトウェアです。」

<2016/06/27>
1.専門用語なし
「今日は8時20分頃出勤しました出勤後メールのチェックを行い8時45分から9時まで車内の掃除をしました」
2.専門用語あり
「アスタリスクはアメリカの bgm 社が開発しているオープンソースの ip pbx ソフトウェア」
⇒思いのほか完璧な結果が返ってきてしまいました。(bgmなんて私の発音の問題の気もします)
⇒日々の学習結果向上というよりは、バージョンアップがあったのかもと思わせる初日の結果です。とりあえず、一日に割り当てられる作業時間となったため、今日はここまでとします。

0 件のコメント:

コメントを投稿