方言や訛りに対応したAI文字起こしの設定 — 関西弁・東北弁で何が起きるか
方言音声のAI文字起こし、「思ったより使える」が正直な感想だ。ただし、「使える」と「完璧」はまったく別の話なんですよね。
関西弁で「やけど」と言うと「火傷」と誤認識される——これはAmiVoice社が公式ブログで認めている実例。アクセントやイントネーションの違いにはかなり強くなっているが、語彙レベルで標準語と異なる表現になると、認識エンジンの辞書にその単語が登録されていないため精度が落ちる。この二層構造を理解しておくと、対策も立てやすくなる。
この記事でわかること
方言の種類別の認識精度の傾向、辞書登録・話速調整・モデル選択という3つの改善手法、そして「これは現時点では諦めるしかない」という限界ラインについて整理する。
アクセントと語彙は別問題 — 方言認識の二層構造
AI音声認識が方言でつまずく理由は、大きく2種類に分けられる。
ひとつはアクセント・イントネーションの違い。「橋」と「端」のような同音異義語を文脈で判断する部分が崩れたり、語尾の上がり下がりがエンジンの想定と合わなかったりするケース。これは近年のディープラーニングベースのエンジンでかなり改善されていて、2026年時点ではWhisperやNottaなど主要ツールであれば、関西弁のアクセントでも標準語話者と同等に近い精度が出ることが多い。
もうひとつは語彙レベルの差異。標準語とは別の単語・語形を使う表現——「ほんまに」「なんでやねん」「めんこい」「しゃっこい」「がんじょう」などは、そもそも認識辞書に登録されていないかもしれない。登録されていなければ、音響的に似た別の単語に変換される。「やけど」→「火傷」はその典型例。
この二層を意識すると、「アクセントは気にしなくていい、語彙だけ対策しよう」という判断ができる。結論からいえば、対策が有効なのは語彙レベルの問題のほうだ。
方言別 — 何がどれくらい通るのか
全国の方言を網羅的に検証したデータは自分では持っていない。ただ、公開されている情報と実際の使用感から傾向は見えてくる。
関西弁(大阪・京都・神戸)
メディア露出が多い分、学習データも豊富。アクセントの違いはほぼ吸収されるし、「そうやで」「あかんやん」程度の表現なら認識されることが多い。ただし「ほかす(捨てる)」「なおす(片付ける)」のように意味が標準語と異なる単語は要注意で、認識はできても意味がズレる。
東北弁(青森・秋田・山形)
ここは現時点でも難易度が高い。特に青森・津軽地方の方言は、発音・イントネーション・語彙のすべてが標準語から大きく乖離しているため、主要AIツールでも認識精度が大幅に落ちるケースがある。「じゃ(だ)」「さ(に)」「べ(だろう)」といった語尾変化は比較的対応されているが、母音の変化(例:「e」が「i」に近くなる)が絡むと誤認識が増える。
九州弁・沖縄弁
九州弁はメディア露出が多い博多弁であれば比較的認識されやすい。ただし沖縄方言(ウチナーグチ)は、音韻体系自体が標準語と大きく異なるため、現状のAIツールでは正確な文字起こしが難しい。純粋な沖縄方言の音声を扱う業務用途なら、専門業者への依頼かAI+人力校正の組み合わせを前提にするべきだと思う。
精度を上げる3つの手法
1. 辞書登録(カスタムワード機能)
最も効果が出やすい方法。主要ツールの多くが独自の単語登録機能を持っていて、「読み(発音)」と「表記(出力したい文字)」をペアで登録できる。
- Notta:「用語集」機能から単語を追加。読み仮名と表記を設定できる
- Whisper(ローカル運用):
initial_promptパラメータに方言フレーズを含めることで、認識候補を誘導できる - AmiVoice:単語登録機能で読みと表記を登録。APIユーザーはコーパス追加も可能
登録の優先順位としては、頻出する方言固有名詞や地名を先に入れるのが効率的。「ほんまに」より「○○やさかい(○○だから)」のような複合表現のほうが誤認識の影響が大きいため、実際に文字起こしを走らせて誤認識された箇所から逆算して登録していくやり方が現実的だ。
| ツール | 辞書登録機能 | 登録上限 | 対応プラン |
|---|---|---|---|
| Notta | 用語集機能あり | 有料プランで拡張 | Pro以上推奨 |
| AmiVoice API | 単語登録+コーパス | プランによる | API契約が必要 |
| Whisper(ローカル) | initial_promptで誘導 | 実質制限なし | 技術知識が必要 |
| Google Speech-to-Text | Speech Adaptation機能 | フレーズ数に上限あり | API利用が前提 |
表を補足すると、Whisperのinitial_promptは「辞書登録」というより「文脈ヒント」に近い仕組み。たとえば "この音声は関西弁で話されています。方言表現が含まれます。" と入力するだけで、認識の傾向が変わることがある。完全な解決策ではないが、試す価値はあると思う。
2. 話速の調整と録音環境の改善
方言特有の速いテンポや省略が重なると、AIが音素を正確に切り分けられなくなる。意識的にゆっくり話してもらうだけで精度が大きく変わるケースがある——特に関西弁のようにテンポが速い方言では効果的だ。
ただ、インタビューや会議の録音では「ゆっくり話して」と依頼するのが難しい場面もある。その場合はマイクとの距離と背景雑音の低減が次の手。ノイズが乗ると音素認識がさらに不安定になるため、方言×ノイズの組み合わせは精度劣化の二重打撃になる。ノイズ対策の詳細はノイズのある音声の精度改善にまとめている。
3. モデル選択 — Whisperのモデルサイズと方言精度
Whisperをローカル運用する場合、モデルサイズが精度に直結する。
- tiny / base:処理は速いが方言への耐性が低い。標準語でも精度が落ちる
- small / medium:バランス型。ある程度の方言アクセントは吸収できる
- large-v3:最高精度。方言音声にも最も強い。ただしGPUメモリ10GB以上が目安
large-v3の方言対応は、smallと比べると体感的に精度差がわかる。東北弁の音声でlarge-v3を使うと、smallでは取りこぼしていた語尾変化が正確に拾えることがある。ただし処理時間は3〜5倍になるので、リアルタイム性が必要な用途には向かない。
クラウドサービスを使う場合、バックエンドのモデルはユーザーが直接選べないことが多い。ただNottaのようなサービスは内部的にWhisper large相当のモデルを使っているとされていて、精度という意味では個人がローカルでlarge-v3を動かすのと大きな差はないと思う——正直ここは自分も完全には把握できていない。
現実的なワークフロー — 方言音声をどう扱うか
方言対応で現実的な運用フローを組むなら、次のような順序になる。
ステップ1:まずそのまま文字起こしを走らせる。精度がどの程度かを把握してから対策を考えるほうが効率的。関西弁程度であれば、辞書登録なしでも8〜9割は使えるケースが多い。
ステップ2:誤認識パターンを記録する。同じ話者の音声を繰り返し扱うなら、「どの表現が何に誤認識されるか」のリストを作っておくと後の辞書登録が楽になる。
ステップ3:頻出の誤認識から辞書登録。全部登録しようとすると終わらない。影響の大きい単語から優先する。
ステップ4:それでも残る誤認識は人力校正。特定の方言表現、感情の込もった語尾、早口の省略形は、現状のAIでは完全に対応できないと考えておくほうがいい。AIの文字起こしは「8割の精度を無料で出す」ツールで、残り2割の正確性を求めるなら人力との組み合わせになる。
意外だった発見
方言の音声認識で最も難しいのは、単語そのものではなく「速い方言+専門用語の組み合わせ」だった。例えば関西弁で医療用語が飛び出す場面は、二重の不確定要素が重なるため精度が大幅に落ちる。方言対策と専門用語対策は別々に考えず、セットで辞書登録する必要がある。
よく聞かれる疑問に直接答える
Q. 関西弁の会議音声を文字起こしするのに向いているツールは?
Notta、Otter.ai、Whisperベースのサービスであれば、関西弁の会議音声は概ね問題なく扱える。アクセントの差は吸収されるし、「〜やん」「〜やろ」程度の語尾変化も認識されることが多い。辞書登録機能があるNottaは、固有名詞や業界用語と合わせて方言表現も登録できる点で使いやすい。
Q. 津軽弁・秋田弁の音声はAIで文字起こしできるか?
正直、現時点では「できる」と断言するのは難しい。試してみて7〜8割取れれば御の字、というスタンスで臨むほうが精神的に楽だと思う。特に高齢者の津軽弁は母音変化が強く、AIが標準語の音と全く異なる音として判断してしまうことがある。民俗学的な資料作成や方言保存の用途なら、専門のテープ起こし業者との併用が現実的かもしれない。
Q. 方言を標準語に「変換」しながら文字起こしする機能はあるか?
これは2026年現在でも一般的な文字起こしツールには実装されていない。音声認識(音→テキスト)と方言変換(テキスト→標準語テキスト)は別の処理で、両方を統合したワークフローを組むなら、文字起こし後にChatGPTのような言語モデルに「以下を標準語に直して」と渡す二段階処理が現実的だ。ただしニュアンスが失われるリスクは残る。
Q. Whisperのinitial_promptに方言フレーズを入れると本当に効果があるか?
効果がある場合とない場合がある、というのが正直なところ。「この音声は大阪弁で話されています」と入力することで認識エンジンが方言の可能性を考慮する傾向はあるが、劇的な改善というよりはマージナルな改善。それでも試すコストはゼロなので、Whisperをローカル運用するなら設定しておいて損はない。Whisperのローカル環境の構築方法についてはWhisperのローカルインストール方法を参照してほしい。
方言対応と普段使いを両立するなら
方言音声の文字起こし、という特化した用途だけでなく、日常業務の文字起こしも同じツールでカバーしたいなら、Nottaが使いやすい選択肢だと思う。無料プランでも月120分の文字起こしが使えるし、用語集機能で方言固有表現を登録できる点は方言対応としても実用的だ。
精度は98.86%という数字が出ているが、これは標準語の場合。方言音声では当然下がる。ただ辞書登録と組み合わせれば、関西弁程度であれば実務に耐えられる精度まで持っていける。文字起こしの精度をどう評価するかについては精度改善の7つのコツも合わせて読んでみてほしい。
方言文字起こしは「完璧を目指す」より「どこまで自動化して、どこから人力を使うか」のラインを決めることのほうが大事だと思う。ツールの性能は上がり続けているが、地域固有の方言の完全対応にはまだ時間がかかりそうだ。