音声認識は使えるから使い分けへ!
スマホ録音をPythonで文字起こし
夢のような技術でも一旦使えるようになると
- 使い勝手
- 使い分け
と評価の対象になります。
音声認識もその一つです。
音声認識 普段使いの技術!
音声認識を普段使いの技術として利用しています。
きっかけは私の場合、2つのルートがありました。
- ブログの執筆(入力)
- スマホの利用
キーボードだけでしか入力できなかったデータを音声でも入力できる
ことになり負担の軽減になっています。
この記事もGoogle Chrome の拡張機能「VoiceIn」無しでは
入力の効率化をタイピングスキルに頼ることになります。
また、スマホの利用では
- 検索
- メモ
という場面で音声認識を多用しています。
パソコンだけでなくスマホでも「Evernote」を使っているので、
スマホでのメモをとる際にも音声認識を使っています。
音声認識の精度が100%完璧ではないという限界はあります。
ただし、不完全=使用不能ではありません。
使い方次第、使い分けという場合分けが必要なだけです。
音声認識 スマホ録音をPythonで文字起こし
スマホでメモを取る場合、Evernoteを使いますが、
- 長文・長時間には対応しづらい
という限界があります。
単純に音声の録音だけをするという選択肢もありますが、
後処理が音声のままでは不自由です。
テキストデータへの変換に魅力があります。
Googleドキュメントとステレオミキサーを使った自動文字起こし
という選択肢があります。
(動画・録音から自動で文字起こし!)
ツールの組み合わせで音声認識技術で文字起こしをする試みでした。
実行は困難ではありませんでしたが、
- ステレオミキサーの設定が必要
- 繊細な動作環境
と留意事項がひっかかりました。
今回はPythonによる音声認識での文字起こしを試してみます。
- 仕様環境:Google Colaboratory
- ライブラリー:SpeechRecognition
スマホのボイスレコーダーで録音した音声ファイルを利用して、
Python で文字起こしします。
手順は以下の通りです。
- スマホのボイスレコーダーで録音
- 音声ファイルを「flac」ファイルに変換
- Google Colabのプログラミングコードに上記ファイルを投入
「flac」ファイルへの変換はウェブ上で可能です。
(「flac 変換」で検索)
Google Colabでの処理は以下の通りシンプルな流れです。
- SpeechRecognitionライブラリのインストール
- 文字起こしのコードを入力
- 音声ファイル投入
実行状況は以下のように成功しました。
想定した文章(左)と比べてみても悪くない精度です。
「flac」ファイルの変換やPythonといったハードルはありますが、
音声認識による文字起こしの選択肢となります。
音声認識 利用目的・効果>>>技術・ツール
新しい技術やツールを目の当たりにすると、
- 食わず嫌いや忌避感
- 過度な期待
と極端な反応にブレがちです。
利用したことによる実感に効果の検証が置き去りにされがちです。
まず試してみることがおすすめです。
幸い、ICTでの試行錯誤は、
- ウェブサービス
- プログラミング言語
- デジタルデータ
とハード機器をそろえるような負担がかかりません。
後始末の負担の少ない試行錯誤はおすすめです。
サンプルコード
!pip install speechrecognition
import speech_recognition as sr
r = sr.Recognizer()
with sr.AudioFile("音声ファイルパス") as source: #音声ファイル投入
audio = r.record(source)
text = r.recognize_google(audio,language='ja-JP') #日本語で出力
print(text)
蛇足
今回の記事では「Shortcodes Ultimate」の「カラム」を使用しました。
(プラグインShortcodes Ultimate!)
下記のショートコードを挿入後、「カラムコンテ、
「メディアを追加」より画像データを貼り付けました。
入力画面がごちゃごちゃするのは難点かもしれません(笑)。
<ご案内>
■林友範税理士事務所
■災害と税金の情報
■確定申告のご依頼も受付中!