← AI文字起こしガイド トップへ

AI文字起こしの精度が悪い時の7つの改善策

具体的な疑問解決

精度が悪い原因、ほぼ間違いなく録音環境にある。ツールを変える前に、この7つを順番に試してほしい。

この記事の結論(優先度順)

①マイクを近づける → ②ノイズ源を排除 → ③話し方を整える → ④ファイル形式を確認 → ⑤AIモデルを見直す → ⑥辞書登録 → ⑦後処理ルーティン構築。上位ほど即効性が高い。

「ツールを変えれば解決するかも」と思いがちだけど、実際に試してみると、多くのケースで元凶は入力音声の品質にある。Notta、Whisper、Google音声認識——どのエンジンを使っても、入力がひどければ出力もひどい。逆に言うと、①〜③を直すだけで体感精度がかなり変わることも珍しくない。

①マイクを発話者に近づける(最優先)

会議室の中央にスマホを1台置いて参加者全員の声を拾おうとするパターン、これが最も多い失敗例。距離が2mを超えると音量が著しく下がり、どれだけ高精度なエンジンでも誤変換が増える。

目安としては口から20〜30cm以内。ヘッドセットマイクやピンマイク(ラベリアマイク)に変えるだけで、精度が10〜20%程度改善したという報告は多い。PC内蔵マイクはファンノイズまで一緒に拾うので、録音専用には使わないほうがいい。

指向性マイクを使う場合は「口の正面に向ける」のが基本。横向きに置いても意味がない。単純なことだけど、見落としやすい。

②録音前にノイズ源を物理的に消す

AIの音声認識は「目的の音声とノイズの比(S/N比)」に敏感だ。周囲が静かなほど精度が上がる。ソフトウェア的なノイズ除去より、物理的にノイズ源を取り除くほうがずっと確実。

  • エアコン・扇風機: 録音中は停止か最弱に切り替える
  • PCのファン音: 外付けマイクにすることで拾いにくくなる
  • キーボードの打鍵音: 録音中はメモを紙で取る、またはサイレントキーボードを使う
  • 窓の外の車や人の声: ドアと窓を閉める(当たり前だが盲点になりやすい)

それでもノイズが除去しきれない場合は、ソフトウェアで補う。NVIDIA RTX Voice(GeForce RTXシリーズのGPU搭載PC向け)やKrisp(月額8ドル程度〜)はリアルタイムでノイズをかなりきれいに消してくれる。Zoomなどのオンライン会議では、ツール内蔵のノイズキャンセリングをオンにするだけでも違う。

なお、後から録音済みファイルに対してノイズ除去をかけることもできる。Audacityは無料で使えるツールで「ノイズリダクション」機能がある。処理後にAI文字起こしにかけると改善することがある——ただし過剰に処理すると音声が歪んで逆効果になるので注意。

③話し方を整える

AIは滑舌が悪い音声に弱い。速く話しすぎたり、語尾をのんだりすると誤変換が増える。

目安は1秒あたり5〜6文字程度。普通の会話は7〜8文字/秒くらいなので、少しゆっくり目に話す意識でちょうどいい。語尾の「〜ます」「〜です」をはっきり発音するだけで認識率がかなり安定する。

固有名詞や専門用語は前後に0.3〜0.5秒程度のポーズを入れると認識されやすくなる。たとえば「今後は(間)アマゾンウェブサービス(間)との連携を〜」のような感じ。慣れると自然にできるようになる。

「えー」「あのー」といったフィラーは後処理が手間なので、意識して減らせるなら減らしたほうがいい。話速とエラー率の正確な相関は自分が試したツールの範囲でしか確認できていないけど、どのツールでもゆっくり話したほうが精度は安定する傾向があると感じている。

④音声ファイルの形式とサンプリングレートを確認する

録音済みファイルをアップロードして文字起こしする場合、ファイル形式も精度に影響する。

推奨はWAVまたはFLAC(非圧縮形式)。MP3でも128kbps以上あれば実用上ほぼ問題ないが、64kbps以下の低ビットレートだと音声が劣化しており、認識精度が落ちる。

形式 圧縮 精度への影響 ファイルサイズ
WAV なし 最良 大きい
FLAC 可逆圧縮 WAVと同等 中程度
MP3(128kbps以上) 非可逆 実用上ほぼ同等 小さい
MP3(64kbps以下) 非可逆・高圧縮 劣化あり 最小

サンプリングレートについては少し意外な話がある。「44kHzにすれば精度が上がる」と思っている人がいるけど、音声認識エンジンの多くは内部で16kHzにダウンサンプリングして処理している。つまり、44kHzで録音しても16kHzと精度は変わらない。ファイルサイズが大きくなるだけで、精度向上には繋がらないことが多い。録音する段階では16kHz以上あれば十分。

Nottaが対応しているファイル形式はWAV、MP3、M4A、CAF、AIFF、WMA、MDAなど。ファイルサイズは1GB・5時間以内が上限。

⑤使っているAIモデルを見直す

同じ音声でもエンジンによって精度は大きく変わる。特に日本語の専門用語や方言は、エンジン間の差が出やすい。

2026年時点で日本語の文字起こし精度が高いモデルとして評価されているのは主に以下の3つ:

  • OpenAI Whisper large-v3: オープンソース。ローカルで動かせるため無料。日本語精度が高く、会議・インタビューどちらにも使える。処理は重めでGPU推奨
  • Notta: Whisperベースで最大98.86%の精度を謳っている。専用アプリとして使いやすく整備されている
  • Google Cloud Speech-to-Text: API形式での利用が主。従量課金だが本格的な統合用途に向いている

使っているツールの設定画面に「モデル選択」がある場合、そこを見直してみる価値がある。「fast」「standard」「enhanced」などの選択肢があれば、精度重視なら上位モデルを選ぶ。処理時間は長くなるが、誤変換の後修正より効率的なことが多い。

⑥専門用語・固有名詞を辞書登録する

誤変換のパターンを観察すると、社内用語・製品名・人名の比率が異常に高いことに気づく。一般的な語彙は学習データが豊富なので認識されやすいが、特定の業界や会社固有の言葉はモデルが知らないことも多い。

Nottaには「カスタムワード」機能がある。事前に登録しておくと、そのワードの認識精度が上がる。登録のコツは「全部いきなり入れようとしない」こと。まず5〜10語から試して効果を確認してから増やすほうが無駄がない。

登録すると効果が出やすいカテゴリ:

  • 会社名・プロダクト名(「AWSオーロラ」「Salesforceオムニチャネル」など)
  • 人名(特に珍しい読み方の名前)
  • 業界特有の略語・英語混じりの用語(「KPI」「PMF」「ウォーターフォール」等)
  • 数字が絡む用語(「Q3」「2Q」など)

この機能はWhisperをローカルで動かす場合にも応用できる。「initial prompt」というパラメータに頻出の固有名詞を入れておくと、認識精度が上がることが知られている。詳しくはカスタム辞書で文字起こし精度を改善する方法でまとめている。

⑦後処理のルーティンを作る

どれだけ入力を最適化しても、ゼロにはならない誤変換がある。残った誤変換を効率よく直す習慣を作っておくと、トータルの作業時間が大幅に減る。

やっていること自体はシンプルで、「誤変換パターンを記録して辞書にフィードバックする」だけ。同じ固有名詞が毎回間違えて書き起こされるなら、それは辞書登録すれば次回から直る。エラーログを1週間溜めて、まとめて登録するのが楽。

もう一つ試す価値があるのは、AIに校正させる方法。ChatGPTやClaudeなどに「以下の文字起こしテキストで、文脈から明らかに誤変換されている部分を修正して」と投げると、固有名詞の誤変換をかなりの精度で直してくれる。完璧ではないが、人手で全部見直すよりは速い。

なお、方言を含む音声の後処理については、自分がまだ十分に試せていない。標準語との混在が多いケースは比較的うまく処理できているが、純粋な方言音声(特に東北・九州)は精度にかなりばらつきがある印象で、そこは正直なところ調べきれていない。

後処理フローの例

①文字起こし完了 → ②AIに誤変換チェックを依頼 → ③手動で最終確認 → ④繰り返し出た誤変換パターンを辞書登録 → ⑤次回の精度が上がる

それでも精度が改善しないなら、ツール自体を見直す

ここまで7つの改善策を試してもまだ誤変換が多い場合、そもそも使っているツールが日本語の専門用語対応に弱い可能性がある。

この記事で繰り返し名前が出ているNottaは、無料プランから使い始められるのが大きい。カスタム辞書・話者識別・Zoom/Teams連携など、実務で必要な機能がひとまとめになっている。58言語対応で、英語会議の文字起こしにも使えるのはおまけ的なメリット。

有料プランでも月額1,800円程度(年払い時)から使えるので、文字起こしの工数削減効果と比較してコストは小さい方だと思う。まず無料で試して、精度と使い勝手を確認してから有料移行を判断するのが堅実。

Notta を無料で試す →

精度改善の手順を振り返ると——録音環境の改善(①②)が最も効果が大きく、次に話し方(③)、ファイル形式(④)はすぐ変えられるので早めに確認する。モデル選択(⑤)と辞書登録(⑥)は一度やれば継続的に効いてくる。後処理(⑦)はルーティン化すれば徐々に楽になる。この順番で取り組めば、大抵のケースで体感精度はかなり上がるはず。

最終更新: 2026年4月12日

関連ツール

競合サイトの変更をAIが自動検知

まもなく公開。事前登録受付中。

詳細を見る →

比較ツール

AI文字起こしツール比較

Notta・Otter・Whisperなど主要ツールを精度・価格・対応言語で比較

無料で比較する →