2016年6月30日木曜日

Google Cloud Speech API日記(4日目)

解析結果は、昨日と変わらなかったので、ここまでで分かった範囲の制約をまとめておきます。
<2016/06/30>
音声ファイル
(IVR)はい、オプトエスピーでございます。内線番号を押してください。
ピッ、ポッ、パッ
プルルル(呼び出し音5回)
(私)はい、もしもし、おまたせしました。オプトエスピー上原でございま
※30秒で強制的に音声を切っているため中途半端な状態になっています。

[ 解析結果 ]
{
  "responses": [
    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "ハイ|ハイ 2|ツー,ニ,フタ,フツ,ブタ sp|エスピー で|デ ござい|ゴザイ ます|マス 内線|ナイセン 番号|バンゴー を|オ 教え|オシエ て|テ ください|クダサイ まし|マシ た|タ"
            }
          ],
          "isFinal": true
        }
      ]
    }
  ]
}

[ 制約実行 ]
1. コーデックは可逆圧縮のみ対応。
そのため、ACCは、FLACなどの可逆圧縮コーデックに変換する必要があります。
ちなみに昨日からの解析で使用している音声は、ACCをFLACに変換したものです。

2. FLACの場合、サンプリング周波数を44,100にすると解析に失敗する。
閾値がどこかは、調査して報告します。

3. 録音時間が1分越える音声ファイルを解析しようとすると、以下のエラーメッセージが返却される。
"For audio inputs longer than 1 min, use the 'output_uri' pararameter to specify an output file."

4. 録音時間が45秒以上の音声ファイルを解析しようとすると、サーバーエラー(Error 502 (Server Error))が発生する。
よくよくみると以下のメッセージがレスポンスに含まれているため、実質30秒が現時点の閾値なのでしょう。
"The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds. "

2016年6月29日水曜日

Twilioハンズオン Vol.1に参加してきました。

Twilioハンズオン Vol.1に参加してきました。

セミナーの内容は、以下のリンクを見てもらえればと思います。
Twilioハンズオン Vol.1

なので、ここではセミナーの感想を残します。

まず、一番感じたのは、Twilioの売りってここだったのか!ということに使ってみて気づけました。
それは、
「世界中に電話/SMSできる番号をWeb画面からあっという間に使えるようになるところ」
だと思いました。

例えば、
・海外に出張して、使える電話番号が欲しいとか
・社内のCRMから今すぐクリックtoコールしたいとか
・キャンペーン用の電話番号作って、紹介音声流したいとか
他にもTwilioのページにはこんな使い方紹介されています。

では、実際どのくらい簡単かというと、管理画面の以下から番号を購入するだけ。


アメリカの番号を購入するとSMSもできちゃいます。
それも月額150円~(通話料/送信料は別)。


とは、いっても制約も結構ありました。
ざっくりとは、
・着信にも通話料がかかる(1分1円)
・発信時、相手の呼び出しは最大60秒(越えると切れる)
・最大通話時間は、4時間
・アメリカの番号を使ってSMSするため、SMSの到達率は93%など

また、クラウドサービスであるが故のこんな制約も
・1秒間に発信できるのは1アカウントのみ
・SMS送信できるのは、1番号あたり1秒間1発信(複数番号を購入すると1度に送信することも可能)
などなど

また、開発者目線でいくと、実はAsteriskの方が開発しやすいかもとも感じました。
ただ、これについては、これから参加するハンズオン Vol.2、3で考えが変わるかもしれないです。

最後に
手軽に番号払い出しでこんなに有名なサービスになるんだから、IP-PBXって、使い方はまだまだ、無限に広がる!と思いました。

要は自由な発想!!