Qwen3-TTSをローカルで動かすWeb UI完全ガイド:コード不要でボイスクローン

Qwen3-TTSをローカルで動かすWeb UI完全ガイド:コード不要でボイスクローン

Qwen3-TTSはWebインターフェースを備えており、録音をアップロードするだけでボイスクローンが可能。コードを書く必要がありません。Mac(Mシリーズチップ)、Windows(NVIDIA GPU)の設定をサポートしています。

Qwen3-TTSをローカルで動かすWeb UI完全ガイド:コード不要でボイスクローン

アリババが出したQwen3-TTSはかなりすごいです——自分の録音をアップロードすると、あなたの話し方を「学習」して話してくれます。あるいは「低くて磁力のある男性の声」とテキストで説明すると、その声を作り出してくれます。さらに嬉しいことに、Webインターフェースが内蔵されているので、ブラウザを開いてクリックするだけで使えます。コードは一行も触る必要がありません。

このガイドは私が**Mac mini M4(Mシリーズ)**で実際に動かして確認したもので、私がハマった落とし穴をすべてマークしてあります。


まず、自分がどの状況かを把握する

ローカルインストール(デプロイ)ガイド:

https://lingflux.com/ja/articles/ai/qwen3-tts-mac-mini-m4-complete-guide/

慌ててコマンドをコピーする前に、まず自分のPCの設定を見て、どのルートを選ぶか確認しましょう:

あなたのPCどのルートを選ぶか
Mac、M1/M2/M3/M4チップmpsアクセラレーション、Macルートへ
Windows、NVIDIA GPU搭載cudaアクセラレーション、Windowsルートへ
独立GPUなし、CPUのみ動くけど遅い——お茶を淹れて待つ

3つの使い方、1つを選んで始める

起動時に異なるモデルを選ぶと、それぞれ異なる使い方になります。簡単に言うと:

ボイスクローン → 自分の録音をアップロード、あなたの声を学習 モデル名:Qwen/Qwen3-TTS-12Hz-1.7B-Base

プリセット音声 → 内蔵の音声から選択、「悲しいトーンで言って」のような命令も追加可能 モデル名:Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

カスタム音声デザイン → 望む声をテキストで説明、それを作り出してくれる モデル名:Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign

以下のコマンドは**Baseモデル(ボイスクローン)**を例にしています。モデル名を変えるだけで、他の使い方に切り替えられます。


ステップ1:インターフェースを起動

Mac(Mシリーズチップ)

ターミナルを開いて、このコマンドをペースト:

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --device mps \
  --dtype bfloat16 \
  --no-flash-attn

3つのパラメータの意味:

  • --device mps:AppleチップのGPUを使用、純粋なCPUよりかなり速い。MacがMシリーズでない旧型の場合、ここをcpuに変更
  • --dtype bfloat16:モデル精度フォーマット、Mシリーズでよくサポートされているのでそのまま使えばOK
  • --no-flash-attnこれを忘れないで! MacはFlashAttention機能をサポートしていないので、このパラメータなしで起動するとエラーになります

Windows(NVIDIA GPU)

コマンドプロンプト(CMD)を開いて、ペースト:

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base ^
  --device cuda:0 ^
  --dtype bfloat16 ^
  --flash-attn

パラメータ説明:

  • --device cuda:0:最初のNVIDIA GPUを使用(通常は1つしかないので0で十分)
  • --dtype bfloat16:RTX 30シリーズ以上はこれをサポート、推奨
  • --flash-attn:Windows + CUDA環境ではこのアクセラレーションが有効、かなり速くなる

小技:Windowsのコマンドでは改行に^(CMD)またはバッククォート(PowerShell)を使用、Macの\とは違うので混同しないでください。


GPUなし、CPUのみ?

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --device cpu \
  --dtype float32

動きますが、遅いです。1つの文を生成するのに数分待つこともあるので、覚悟してください。


ステップ2:ブラウザを開く

コマンドが動き出した後、ターミナルにこの行が表示されます:

Running on local URL: http://0.0.0.0:8000

ブラウザで**http://localhost:8000**にアクセスすると、インターフェースが表示されます。あとはクリックするだけです。

ローカルネットワーク内のスマホや他のデバイスで使いたい?localhostをこのPCのIPアドレスに置き換えてください。 IP確認:Macはifconfig | grep "inet "、Windowsはipconfig


エラーが出ても慌てない、照らし合わせて確認

Macで起動時にFlashAttentionエラーが出る 十中八九、--no-flash-attnを忘れています。追加して再実行。


WindowsでCUDAが使えないと言われる まずこれを実行して確認:

python -c "import torch; print(torch.cuda.is_available())"

Trueが出れば問題なし。Falseが出ればPyTorchのバージョンが間違っています。CUDAサポート付きで再インストール:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

cu121はCUDA 12.1に対応。自分のCUDAバージョンに合わせて変更してください。CUDA 11.8ならcu118に変更。


VRAM不足、OOM(Out of Memory)エラー --dtype bfloat16--dtype float16に変更。精度が下がりますが、VRAMを節約できます。


モデルダウンロードが遅い、または失敗(中国国内ネットワーク) コマンド実行前にミラーを設定:

Mac / Linux:

export HF_ENDPOINT=https://hf-mirror.com

Windows:

set HF_ENDPOINT=https://hf-mirror.com

ローカルで動かしたくない?先にオンラインで試す

モデルと環境の設定は結構ハマるので、まず公式のオンラインデモで数分遊んでみて、本当に興味があると確認してからローカルに挑戦しても遅くはありません:


どこかで行き詰まった?ターミナルのエラーメッセージを丸ごとコピーして、検索エンジンかAIに投げれば、たぶん数分で解決できます。