AI文字起こしの対応音声形式と変換方法
m4aで録音したファイルが「非対応形式です」と弾かれた——それを防ぐ確実な方法は、使うツールの対応形式をあらかじめ確認しておくことだ。
2026年時点では、NottaやWhisper APIをはじめとする主要ツールの大半がmp3・wav・m4a・mp4の4形式をカバーしている。この4形式のいずれかであれば、ほぼ変換なしでアップロードできる。
問題が起きやすいのは主に3つのケース。flacやoggといったロスレス・フリー形式を使っている場合、古い録音機器から来たwmaやaifファイルを持っている場合、そしてWhisper APIの25MB制限を超える長時間録音の場合だ。それぞれの対処法も後半で説明する。
主要ツールの対応形式を確認する
まず主要4ツールの対応形式を整理した。「○」は公式に対応表記あり、「△」は一部条件付き、「×」は非対応または確認できなかったもの。
| 形式 | Notta | Whisper API | Google STT | CLOVA Note |
|---|---|---|---|---|
| mp3 | ○ | ○ | ○ | ○ |
| wav | ○ | ○ | ○ | ○ |
| m4a | ○ | ○ | × | ○ |
| mp4(動画) | ○ | ○ | × | △ |
| webm | ○ | ○ | ○ | × |
| flac | × | × | ○ | × |
| ogg | × | × | ○ | × |
| wma | ○ | × | × | × |
ここで少し意外だったのが、Whisper APIのflac非対応だ。Whisper自体はflacを処理できるが、OpenAI APIの仕様上は受け付けない。ローカルでWhisperを動かす場合は問題ない。WhisperをローカルにインストールしてAPIなしで使う方法は別記事で詳しく書いている。
もう一点:Notta単体の話をすると、音声はwav・mp3・m4a・caf・aiff・wmaに対応し、動画はavi・mp4・mov・webm・wmv・flv・3gp・mtsなど非常に幅広い。1GBまたは5時間という上限はあるが、普通の用途で引っかかることはほぼないと思う。
この記事を書いた人
ジンベエ
AIツール活用ライター
Notta・Whisper・Teams文字起こしなど7種のAI文字起こしツールを3年以上業務で使い続けた実体験から発信。月100時間超の音声データを処理してきたノウハウをもとに、ツール選びの本音を書いています。
関連ツール
競合サイトの変更をAIが自動検知
まもなく公開。事前登録受付中。
詳細を見る →比較ツール
AI文字起こしツール比較
Notta・Otter・Whisperなど主要ツールを精度・価格・対応言語で比較
無料で比較する →