背景
- 普段、通勤時間に英語のPodcastを聞いている
- でもテキストは無いので耳だけが頼り
- 耳だけを頼りにしてもわからないものはわからない
- 音声ファイルをテキストに変換してくれるAPIがあったので試してみた
やったこと
- IBMの ライト・アカウントを作って、 Speech to Text に登録
- curl -X POST -u "apikey:{apikey}" --header "Content-Type: audio/mpeg" --data-binary @{path_to_file}audio-file.flac "{url}/v1/recognize コマンド実行
- apikeyとurlはアカウント作成後に発行される
- JSONが返ってくるので、それをPythonで整形して完了
結果
- そういえば精度は未検証だったので、少しずつ検証していく予定
- 自分で書いたプログラムが動いて、それっぽい結果が出てたら満足してしまうのいくない
やらなかったこと
- 同種のAPIでGoogleのものもあったが、自分の使い方(ファイル内の音声が15分程度の長さ)だとGoogle Cloud Storageにデータをアップロードする必要があるらしく、それはちょっとしんどいなって思ったので今回はやめておいた
- Amazonでも最近同種のサービスを公開して注目されていた気がするが、正直難しそうだなって思ったのと、無料枠が探せなかったのでちょっと試してみたいだけという自分のニーズには合わず、今回はやめておいた
今後やること
- 毎回コマンドを手動実行する必要があり、ファイル名を都度変更するのが面倒なので、Webサーバー上に置いてもう少し便利にファイルを指定して使えるようにする
- 生成したファイルを好きな場所にDLできるようにする(現在はPythonスクリプトの場所に固定で作成されている)
この記事をシェアする