ホーム » JOB » AI・生成AI » 外国語放送をリアルタイムで日本語翻訳——Faster Whisper × GPT-4o-miniで低コスト多言語翻訳アプリを作った

外国語放送をリアルタイムで日本語翻訳——Faster Whisper × GPT-4o-miniで低コスト多言語翻訳アプリを作った

AI・生成AI

はじめに:きっかけと概要

オリンピックの中継を見ていて、ふと不満を感じたことがあります。日本語解説のない外国語放送が流れるとき、内容がまったく追えません。字幕のない外国語動画を見るときも同じです。「音声をそのままリアルタイムで日本語に変換できたら」——そのシンプルな動機から、このアプリの開発が始まりました。

作ってみると、思いのほか低コストで実現できることがわかりました。最近は月額数千円〜数万円の市販リアルタイム翻訳ツールも登場していますが、本アプリはOpenAI APIの従量課金のみで動作し、1時間フル稼働させても数十円程度のコストに収まります。音声認識(ASR)はローカル処理のため、GPUなしのPC1台で動きます。精度も商用ツールと比べて大きくは劣りません。

動作環境:本記事の実装はWindows環境を前提としています(VB-CableがWindows向けのインストール手順になっている)。sounddevice・faster-whisper・tkinterはクロスプラットフォーム対応のためMac/Linuxでも動作すると考えられるが、VB-Cableに相当する仮想オーディオデバイスの設定は別途必要になります。

推奨スペック目安:CPU:Core i5相当以上(baseモデルをリアルタイム処理できる程度)、RAM:8GB以上、ストレージ:500MB程度の空き容量(baseモデル約140MB+依存ライブラリ)。GPUは不要。

このアプリでできること

  • マイク入力の音声をリアルタイムで日本語翻訳して画面に表示
  • VB-CableなどのバーチャルオーディオデバイスをPC内部音源に接続することで、ZoomやYouTubeの音声もそのままキャプチャして翻訳可能
  • Faster Whisper(Whisperモデル)が対応する約99言語の音声を認識・翻訳可能
  • スペイン語・フランス語・ドイツ語・ロシア語・アラビア語・スウェーデン語など主要言語ではテキスト解析による言語判定の強化も実装済み
  • 「この言語だけ認識してほしい」という優先言語の指定にも対応

アプリの動作画面
NASAの航空開発動画(英語)を再生しながらリアルタイム翻訳している様子。左がブラウザ、右が翻訳ウィンドウ。青字が原文、緑字が日本語訳。

使用技術スタック

役割ライブラリ/サービス
音声入力キャプチャsounddevice(Pythonライブラリ)
音声認識(ASR)faster-whisper(ローカル実行)
翻訳OpenAI GPT-4o-mini API
GUItkinter(Python標準)
音声処理NumPy(ノイズ除去・正規化)

sounddeviceとは、PythonからOSのオーディオデバイスを操作するライブラリです。マイクなどの物理デバイスだけでなく、VB-Cableのような仮想オーディオデバイスも「入力デバイス」として扱えるため、TVerやYouTubeで再生中の音声をそのままPythonで受け取ることができます。

処理は「音声キャプチャ → 音声認識 → 翻訳」の3段パイプラインで構成されており、各ステージが独立したスレッドで並列動作することで低遅延を実現しています。マイクからの収音だけでなく、ブラウザで再生中の動画音声もキャプチャ対象にできるのが、このアーキテクチャの強みです。


システム全体アーキテクチャ

アプリの処理は、独立した3本のワーカースレッドが「キュー」でつながるパイプライン構造になっています。

[音声ソース]
マイク / VB-Cable(TVerやYouTubeの音声)
         │
         ▼
  [record_worker]  ── 発話を検出してチャンクに切り出す
         │
    audio_queue
         │
         ▼
   [asr_worker]   ── Faster Whisperで音声→テキストに変換
         │
    text_queue
         │
         ▼
[translation_worker] ── GPT-4o-miniで日本語に翻訳
         │
     ui_queue
         │
         ▼
    [GUI表示]    ── 原文と訳文をリアルタイムに表示

なぜスレッドを3つに分けるのか

各処理の「時間的性質」が異なるからです。録音は音声が続く限り連続して動き続ける必要があり、ASRは数秒の処理時間がかかり、翻訳はAPIレイテンシが加わります。これを1本のループで順番に処理すると、翻訳が終わるまで次の音声を受け取れず、大きな遅延が生じます。

スレッドを分けてキューでつなぐことで、録音・認識・翻訳がオーバーラップして動き、遅延を最小限に抑えられます。

キューの役割とリアルタイム優先設計

スレッド間のデータのやり取りにはPython標準のQueueを使っています。audio_queueにチャンクが2件以上溜まった場合は古いものを捨てて最新だけを処理します。翻訳が追いつかない状況でも、常に「今聞こえている音声」を優先するためです。

GUIのスレッドセーフ更新

tkinterはスレッドセーフでないため、ワーカースレッドから直接画面を更新できません。そこで全ワーカーは結果をui_queueに入れるだけにし、GUIスレッドが50msごとにキューを確認して画面に反映する設計にしました。

GUIにtkinterを選んだのは、Python標準ライブラリのため追加インストールが不要で手軽に使える点と、翻訳結果ウィンドウを動画プレイヤーの隣に並べて表示しやすいサイズ・レイアウトに調整しやすい点が理由です。あくまでプロトタイプとしての選択であり、本格的なUIへの移行は今後の課題と考えています。


技術選定の理由と特徴

Faster Whisper(音声認識)

音声認識にはOpenAIが開発した「Whisper」モデルをベースとする faster-whisper ライブラリを使っています。ローカル実行のためAPIキーは不要で、音声データが外部に送信されることもありません。

公式のWhisperライブラリと比べ、CTranslate2というC++推論エンジンで最適化されており、同等の精度を2〜4倍速く処理できます。リアルタイム翻訳では認識速度が遅延に直結するため、この差は大きいです。

モデルはtinymediumの4サイズから選べます。

サイズ速度精度用途
tiny最速低め低遅延優先
base速い標準バランス重視(デフォルト)
small普通高め精度重視
medium遅い最高高精度・高負荷

なお「なぜOpenAIのSpeech-to-Text APIを使わないのか」という疑問もあるかもしれません。理由は2つで、①音声ファイルをアップロードするレイテンシがリアルタイム用途には不向きなこと、②API呼び出しコストがかさむことです。Faster Whisperならこの両方を解決できます。

pip install faster-whisper

初回起動時にモデルファイルが自動ダウンロードされます(baseで約140MB)。


VB-Cable(仮想オーディオデバイス)

VB-Cableは、PCで再生中の音声を「入力デバイス」として他のアプリに流し込む仮想のオーディオケーブルです。Windowsには標準搭載されていないため、別途インストールが必要になります。

インストール方法(Windows)

  1. VB-Audio公式サイト から「VBCABLE_Driver_Pack43.zip」をダウンロード
  2. ZIPを展開し、VBCABLE_Setup_x64.exe右クリック→管理者として実行
  3. 「Install Driver」をクリックしてインストール、PC再起動
  4. Windowsの「サウンド設定」→「再生」タブで CABLE Input をデフォルトデバイスに設定
  5. 「録音」タブで CABLE Output が認識されていることを確認

VB-Cableは無料で使えるツール(寄付ウェア)です。

文字起こしの強い味方 VB-Cableをインストール – ライフ&ジョブブログ

注意:手順4でCABLE Inputをデフォルト再生デバイスに設定すると、PCのスピーカー・ヘッドホンから音が出なくなります。動画を見ながら翻訳する場合は、再生デバイスをCABLE InputとスピーカーでWASAPIミックスする方法もあるが、設定が複雑になります。使用後は再生デバイスを元のスピーカーに戻すのを忘れないようにしましょう。設定が正しくできているかは、アプリを起動してYouTubeで動画を再生し、GUIに文字が流れてくれば成功です。

なぜVB-Cableが必要か

TVerやYouTubeの音声はブラウザが再生しており、通常のPythonアプリからは直接アクセスできません。VB-CableはOSの「スピーカーに流れる音」を「マイク入力」として見せかけることで、sounddeviceが受け取れるようにします。仕組みとしては、ブラウザの再生音声がVB-Cableを経由してsounddeviceに届き、そのままFaster Whisperに渡されるイメージです。

ブラウザ(TVer・YouTube)
    │ 再生音声
    ▼
CABLE Input(仮想スピーカー)
    │ VB-Cable内部で折り返し
    ▼
CABLE Output(仮想マイク)
    │ sounddeviceが受け取る
    ▼
Faster Whisper → 翻訳

GPT-4o-mini(翻訳)

翻訳にはOpenAIの GPT-4o-mini を使っており、OpenAI APIキーが必要です。OpenAIのプラットフォーム でアカウントを作成し、APIキーを発行して環境変数に設定します。

# 環境変数にAPIキーを設定(Windowsの場合)
setx OPENAI_API_KEY_NT "sk-..."

なぜGPT-4oでなくGPT-4o-miniか

翻訳タスクにおける精度差はほとんどなく、コストは約15分の1に抑えられます。音声翻訳のような大量の短文処理には、GPT-4o-miniが最もコスパに優れた選択です。

なぜローカル翻訳モデルでなくAPIか

日本語翻訳の精度は、現時点ではローカルモデルよりAPIのほうが明確に高いです。またAPIであればGPUが不要で、Faster Whisperと組み合わせてもCPUのみで動作します。

ASR誤認識を補正するプロンプト設計

Faster Whisperの出力は完全ではなく、音が似た単語の誤認識が起きます。そこでGPT-4o-miniへの翻訳指示に「音声認識の誤りを文脈から補完して翻訳してほしい」という旨を含め、ASRの限界をLLMの文脈推論で補う設計にしました。さらにロシア語・アラビア語など文法構造が複雑な言語には、言語固有の補足指示を追加して精度を底上げしています。


音声処理パイプライン

生の音声をそのままFaster Whisperに渡すと、背景ノイズや音量のばらつきで認識精度が大きく落ちます。そこでASRの前処理として、以下の3ステップを順に適用しています。

生音声 → [1] スペクトルゲーティング → [2] 無音除去 → [3] 正規化 → Faster Whisper

ステップ1:スペクトルゲーティング(ノイズ除去)

エアコンや環境音など「常に鳴り続けているノイズ」を取り除く処理です。FFT(高速フーリエ変換)で音声を周波数成分に分解し、ノイズレベルを下回る周波数帯のゲイン(音量)を0.1に下げてから元の波形に戻します。

def spectral_gate_noise(audio, sr=16000, fft_size=2048, hop_length=512, threshold_db=-30):
    # フレームごとにFFTを適用
    stft = np.array([np.fft.rfft(frame * np.hanning(fft_size)) for frame in frames])
    magnitude = np.abs(stft)

    # 全フレームの平均パワーからノイズプロファイルを推定
    mean_power = np.mean(magnitude ** 2, axis=0)
    threshold_linear = np.max(mean_power) * (10 ** (threshold_db / 10))

    # 閾値を下回る周波数ビンのゲインを0.1に下げる(ゲートをかける)
    gate = np.where(mean_power > threshold_linear, 1.0, 0.1)
    gated_stft = stft * gate

    # iFFTで時間波形に戻す(オーバーラップ加算で再構成)
    ...

threshold_db=-30 がデフォルト値で、ノイジーな環境では -20dB に上げることで除去を強化できます。ノイズ除去後もRMSが入力と一致するよう音量を補正することで、後段の処理への影響を抑えています。

ステップ2:無音除去

20msフレーム単位でエネルギー(音量)を計算し、発話とみなせないフレームを切り捨てます。これによりFaster Whisperに渡すデータ量が減り、処理が高速化します。

def remove_silence(audio, sr=16000, threshold_db=-40, min_duration_ms=100):
    frame_ms = 20
    frame_samples = int(sr * frame_ms / 1000)

    # 各フレームのエネルギーをdBで計算
    energies = [10 * np.log10(np.mean(frame**2) + 1e-10) for frame in frames]

    # 最大エネルギーからの相対閾値で動的に判定
    speech_threshold = np.max(energies) + threshold_db  # 例:-20dB + (-40dB) = -60dB

    # 閾値を下回るフレームは無音として除去
    ...

閾値を固定値でなく「最大エネルギーからの相対値」にしているのがポイントです。音量が小さい音源でも適切に動作します。また、100ms以内に次の有声フレームが来る場合は無音フレームを保持し、自然な発話のリズムを壊さないようにしています。

ステップ3:正規化

音源によって音量がバラバラでも認識精度が安定するよう、RMSが0.1になるよう音量を揃えます。

RMS(Root Mean Square)とは、音声の「実効音量」を表す指標です。波形の全サンプルを二乗して平均し、平方根をとった値で、人間が感じる「平均的な音の大きさ」に近いです。ピーク値(瞬間最大音量)より安定した指標のため、音量正規化の基準としてよく使われます。

def normalize_audio(audio):
    rms = np.sqrt(np.mean(audio ** 2))
    target_rms = 0.1
    audio_normalized = audio * (target_rms / rms)

    # クリッピング防止:急激な音量変化をtanhで非線形に圧縮
    if np.max(np.abs(audio_normalized)) > 1.0:
        audio_normalized = np.tanh(audio_normalized)

    return audio_normalized

np.tanh は入力が大きくなるほど出力の増加が緩やかになる関数で、波形を滑らかに抑制できます。単純な clip と違い、波形が急激に切れないため音質劣化が少ないです。

プリセットによる切り替え

音声処理の強弱は4つのプリセットから選べます。

プリセットノイズ除去閾値無音除去向いている場面
Balanced(デフォルト)-35dB有効一般的な環境
Low latencyスキップスキップとにかく速度優先
Noisy environment-20dB有効騒がしい環境
High accuracy-35dB有効精度優先・負荷許容

Low latency について:音声処理には計算コストがかかるため、「Low latency」プリセットではノイズ除去・無音除去を丸ごとスキップする。精度より翻訳の速さを優先したい場面向けです。VB-Cable経由の動画音声のようにすでにクリーンな音源を扱う場合は、このプリセットや「Balanced」で十分なことが多いです。マイクで収音する場合は周囲の環境音に応じて「Noisy environment」を検討してみてください。

-20dBと-35dBの違いについて:dB(デシベル)は対数スケールの単位で、0に近いほど「音が大きい状態」を閾値とすることを意味する。つまり -20dB の閾値は -35dB より高く設定されており、より大きな音でないとゲートが開かない=より積極的にノイズを除去する設定です。騒がしい環境では -20dB にすることで、小さなノイズをより強力に取り除けます。


多層言語検出の仕組み

なぜ言語検出が難しいのか

音声認識モデルは、長い発話ほど言語を正確に判定しやすいです。十分な単語数があれば語彙・文法・音韻パターンから言語を特定しやすいからです。

しかしリアルタイム翻訳では、長い発話を待ってから処理するわけにはいかありません。音声は「無音が一定時間続いたタイミング」でチャンクに切り出して送るため、短い相槌・単語・フレーズなど数秒以下の発話が頻繁に発生します。このような短い音声ではWhisper単体の言語判定が不安定になりやすく、似た音韻を持つ言語(スペイン語とポルトガル語、スウェーデン語とノルウェー語など)の誤検出が起きます。

この問題に対応するため、3層の言語検出を組み合わせています。

層1: Whisper確率    ── モデルが判定した言語
    ↓ 補正
層2: テキスト解析   ── 転写テキストの文字・単語パターンから判定
    ↓ 安定化
層3: 履歴統計       ── 直近10回の検出結果の多数決

層1:Whisper確率

model.transcribe() の戻り値 info.language からWhisperが判定した言語コードを取得します。ただしこれだけに頼ると、短い発話での誤検出がそのまま翻訳言語の誤りにつながります。

層2:テキストベース言語判定

転写されたテキスト自体を解析して言語を推定します。音声より文字のほうが言語の特徴が明確に出るケースが多いため、テキスト判定の結果はWhisperの確率より優先して使います。

文字コードによる判定(日本語・中国語・韓国語・アラビア語・ロシア語など)

def get_language_from_text(text):
    if re.search(r'[\u3040-\u309F\u30A0-\u30FF]', text):
        return 'ja'   # ひらがな・カタカナ
    if re.search(r'[\u4E00-\u9FFF]', text):
        return 'zh'   # CJK漢字
    if re.search(r'[\uAC00-\uD7AF]', text):
        return 'ko'   # ハングル
    if re.search(r'[\u0600-\u06FF]', text):
        return 'ar'   # アラビア文字
    if re.search(r'[\u0400-\u04FF]', text):
        return 'ru'   # キリル文字
    ...

日本語・中国語・韓国語・アラビア語・ロシア語は専用の文字セットを持つため、1文字でも含まれていれば高精度で判定できます。

なお、Whisperモデル自体は約99言語の音声認識に対応しており、テキスト解析による強化判定が実装されていない言語でも、層1のWhisper確率と層3の履歴統計で対応できます。テキスト解析はあくまで判定精度を上乗せするための補助です。

頻出単語スコアリング(ラテン文字系言語)

スペイン語・フランス語・スウェーデン語などは同じラテン文字を使うため、文字コードでは区別できません。そこで主要言語について、冠詞・代名詞・前置詞といった頻出語をリストアップし、テキスト中に何語マッチするかをスコアリングして判定します。

sv_patterns = {
    'common_verbs': ['är', 'var', 'att', 'ska', 'kan'],  # スウェーデン語の頻出語
    'pronouns':     ['jag', 'du', 'han', 'hon', 'vi'],
    'adverbs':      ['ju', 'väl', 'bara', 'inte', 'så'],
}

sv_score = sum(
    1 for words in sv_patterns.values()
    for word in words
    if re.search(rf'\b{word}\b', text_lower)
)

threshold = 2 if len(text) < 20 else 3  # 短いテキストは閾値を下げる
if sv_score >= threshold:
    return 'sv'

テキストが短いほど閾値を下げて検出しやすくする工夫も入れています。

層3:言語履歴による安定化

直近10回の検出言語を collections.Counter で集計し、最頻言語をフォールバックとして使います。

detected_languages_history = []  # 直近10回分を保持

def update_language_history(lang):
    detected_languages_history.append(lang)
    if len(detected_languages_history) > 10:
        detected_languages_history.pop(0)

    counter = Counter(detected_languages_history)
    return counter.most_common(1)[0][0]  # 最も多く検出された言語を返す

たとえばスペイン語の会話中に1回だけ英語と誤検出されても、履歴の多数決で「スペイン語」が維持されます。1回の誤検出では翻訳言語が切り替わらず、安定した出力が続きます。


優先言語制御(strict / soft モード)

なぜ優先言語の指定が必要か

多層言語検出で安定性はかなり改善できますが、それでも対処が難しい場面があります。たとえば「スペイン語の放送を聴いているとき、話者が短いフレーズだけ英語を混ぜる」といったケースです。Whisperはこの英語フレーズを正直に英語と判定してしまい、翻訳も一瞬英語→日本語に切り替わります。ユーザーにとっては「スペイン語だとわかっているのだから、ずっとスペイン語として翻訳してほしい」という場面です。

この問題を解決するのが優先言語制御です。GUIの「優先言語」欄に言語コードを入力しておくことで、Whisperの判定結果を上書きできます。

strictモード:常に指定言語で固定

strictモードでは、Whisperがなんと判定しようと常に指定した言語で音声認識を行います。

def determine_asr_language(detected_lang, preferred_langs_list, priority_mode, ...):

    # 優先度1: strict モード → 常に先頭言語を固定
    if priority_mode == "strict" and preferred_langs_list:
        return preferred_langs_list[0]  # 例:['es'] → 常に 'es' を返す
    ...

返された言語コードは model.transcribe(audio, language="es") のように直接Whisperに渡されます。Whisperは言語推定をスキップして「スペイン語として認識する」モードで動作するため、英語フレーズが混じっていても誤検出しなくなります。

向いている場面:言語が1種類に固定されている放送・動画を翻訳するとき。

softモード:Whisperの判定を参考にしつつ補正

softモードでは、Whisperの判定が優先言語リストの中に含まれていればそれを採用し、リスト外の言語が検出された場合は優先言語リストの先頭にフォールバックします。

    # 優先度2: soft モード → Whisper判定が優先言語内にあれば採用
    if priority_mode == "soft" and preferred_langs_list and detected_lang:
        if detected_lang.lower() in preferred_langs_list:
            return detected_lang   # リスト内ならそのまま採用
        # リスト外 → 後続の優先度(LANGUAGE_HINT → 履歴 → デフォルト)に委ねる

向いている場面:英語とフランス語が交互に話されるような多言語会議。en,fr と指定しておけば、スペイン語などの誤検出が起きても英語またはフランス語として翻訳されます。

言語決定の全優先度

determine_asr_language() 関数が処理全体の言語決定を担っており、次の優先度で言語を決めます。

優先度条件採用される言語
1strictモード+優先言語指定あり優先言語リストの先頭を強制
2softモード+Whisper判定がリスト内Whisperの判定結果
3LANGUAGE_HINT(環境変数)が設定済み環境変数の言語
4テキスト解析で言語を特定できたテキスト判定の結果
5履歴に十分なデータがある直近10回の最頻言語
6いずれも該当しない英語(デフォルト)

具体的なユースケース

ケース1:オリンピックのスペイン語放送を翻訳する
→ 優先言語に es、モードを strict に設定。実況が英語のフレーズを挟んでも常にスペイン語として認識・翻訳されます。

ケース2:英仏混在の国際会議を翻訳する
→ 優先言語に en,fr、モードを soft に設定。英語・フランス語の切り替わりに追随しつつ、他言語への誤検出はブロックされます。

ケース3:スウェーデン語の動画(日本語字幕なし)を翻訳する
→ 優先言語に sv、モードを strict に設定。スウェーデン語はノルウェー語と混同されやすいが、strictで固定することで安定します。

HuggingFace特化モデルとの組み合わせ(実験的機能)

特定言語の認識精度をさらに高めたい場合、HuggingFace Hub上の言語特化Whisperモデルを使う実験的オプションも実装しています。たとえばスウェーデン語特化の KBLab/kb-whisper-small を指定すると、標準のWhisperより高精度なスウェーデン語認識が期待できます。

ただし、HuggingFace上のカスタムモデルはダウンロード失敗や互換性の問題が多く、現時点では標準モデル(base/small)+優先言語制御の組み合わせのほうが安定しています。HuggingFaceモデルはあくまで実験的な拡張として位置づけています。


やってみてわかったこと・課題

実際の動作デモ

下の画面は、NASAの航空開発動画(英語)をブラウザで再生しながら本アプリで翻訳している様子です。左にブラウザ、右に翻訳ウィンドウを並べています。

青字が音声認識した原文(英語)、緑字がGPT-4o-miniによる日本語訳です。「建物や航空機の場合、プロセスは確実に行われなければなりません」「訓練された、慎重で意図的なプロセスが随所に見られます」といった技術的な内容もかなり自然に翻訳されています。

うまくいったこと

翻訳精度は想定以上でした。NASAの航空技術に関する専門的な内容でも、GPT-4o-miniが文脈を補いながら自然な日本語に仕上げてくれます。ASRが多少誤認識しても翻訳段階で補正されることが多く、「ASRの誤りをLLMで補う」という設計は効果的だと感じました。

動画と並べて使えるのも実用的です。tkinterウィンドウを動画の横に置くだけで字幕的に使え、VB-Cableさえ設定すればブラウザ上のどんな動画にも対応できます。

コストは確かに安い。GPT-4o-miniのAPI料金は入力 $0.15・出力 $0.60(いずれも100万トークンあたり)で、1回の翻訳あたりのコストは約0.003円です。Faster Whisperはローカル実行のためAPI費用ゼロ。使用頻度別の年間コスト試算は以下のとおりです。

シナリオ使用頻度月額年額
軽度週1時間約0.3円約4円
日常週5時間1〜5円12〜60円
ビジネス毎日1時間10〜20円120〜240円
大規模毎日8時間50〜100円600〜1,200円

日常的な動画視聴用途であれば年間数十円で収まる計算です。市販の翻訳ツールの月額料金と比べると、文字どおり桁が違います。

課題と限界

初回起動に時間がかかる。Whisperモデルの初回ダウンロードと読み込みで、起動から翻訳開始まで数十秒待つ必要があります。2回目以降はキャッシュされるため速くなりますが、「すぐ使いたい」場面でのストレスは残ります。

遅延はゼロにできない。音声のチャンク切り出し→ASR→翻訳API呼び出しという3段の処理を経るため、話した言葉が画面に出るまで数秒の遅延があります。ライブ会話のリアルタイム応答には向きませんが、動画視聴のような「少し遅れても流れがわかればいい」用途では十分許容できます。

短い発話・相槌は精度が落ちる。「OK」「Yeah」「Right」といった短い応答はASRが誤認識しやすく、言語検出も不安定になりやすい。優先言語をstrictで固定することでかなり改善できますが、完全には解消しません。

VB-Cableの設定が初心者には難しい。インストール自体は難しくないが、サウンド設定で「再生デバイス」をCABLE Inputに切り替えると、PCのスピーカーから音が出なくなります。翻訳後に元の再生デバイスに戻し忘れると「なんで音が出ないの?」となります。この手順を簡略化できると使い勝手が上がると感じました。

ラテン文字系言語の判定はまだ不安定。スペイン語・ポルトガル語・フランス語など似た語彙を持つ言語は、短い発話での誤検出が残っています。strictモードで固定する運用が現状ではベストです。


おわりに:改善アイデア募集

低コストでここまで動くとわかったのは収穫でしたが、まだプロトタイプの域を出ていない部分も多いです。今後取り組みたいと考えているのは以下の点です。

  • UIの改善:tkinterからElectronやWebUIへの移行。字幕を動画に重ねて表示できると理想的
  • 遅延のさらなる短縮:チャンクサイズの調整、ストリーミングASRの検討
  • VB-Cable設定の自動化:起動時に仮想デバイスを自動切り替えし、終了時に元に戻す
  • 翻訳履歴の保存:セッション中の翻訳ログをテキストファイルに書き出す機能
  • モバイル対応:スマートフォンのマイクや動画音声に対応できると用途が広がる

ぜひコメントで教えてほしいこと:

このアーキテクチャや技術選定について「こうしたほうがいい」「自分はこう実装した」というアイデアがあればぜひ聞かせてください。特に以下の点について知見をお持ちの方がいれば:

  • リアルタイムASRの遅延をさらに減らす方法
  • VB-Cableを使わずにPC内部音声をキャプチャする方法(Windows Loopback等)
  • Faster Whisperより精度の高いローカルASR手法
  • tkinter以外のシンプルなGUIフレームワーク

コードはご希望がありましたら、公開することも可能です。改善コメントも歓迎します。


コメント

タイトルとURLをコピーしました