ai tutorial macwindows 2026年3月19日

本機跑 Qwen3-TTS 啟動 Web UI 完全手冊：不會程式也能玩聲音複製

Qwen3-TTS 自帶網頁介面，上傳錄音就能複製聲音，完全不需要寫程式。本文支援 Mac（M 系列晶片）、Windows（NVIDIA 顯卡）設定。

qwen3 ttsqwen tts web uiqwen voice cloneQwen3-TTS Web 介面Qwen 聲音複製Qwen TTS 教學

本機跑 Qwen3-TTS 啟動Web UI完全手冊：不會程式也能玩聲音複製

阿裡這次出的 Qwen3-TTS 真的有點東西——上傳一段自己的錄音，它就能「學」你說話；或者用文字描述「低沉磁性男聲」，它就給你造一個出來。更香的是，它自帶網頁介面，打開瀏覽器點點點就能用，不用碰一行程式碼。

這篇手冊是我在 Mac mini M4（M 系列） 上親自跑通的，踩過的坑都幫你標出來了。

本機安裝（部署）指南：

別急著複製指令，先看看自己的電腦是什麼設定，走哪條路：

啟動的時候選不同的模型，就對應不同的玩法。簡單說：

聲音複製 → 上傳你自己的錄音，它學你說話模型名：Qwen/Qwen3-TTS-12Hz-1.7B-Base

預設音色 → 從內建音色裡選，還能加「用悲傷的語氣說」這種指令模型名：Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

自訂音色設計 → 用文字描述你想要的聲音，它幫你造出來模型名：Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign

下面的指令以 Base 模型（聲音複製） 為例，把模型名換掉就能切換其他玩法。

打開終端機，貼上這條指令：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --device mps \
  --dtype bfloat16 \
  --no-flash-attn

三個參數是什麼意思：

打開命令提示字元（CMD），貼上：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base ^
  --device cuda:0 ^
  --dtype bfloat16 ^
  --flash-attn

參數說明：

小提示：Windows 指令裡換行用 ^（CMD）或反引號（PowerShell），和 Mac 的 \ 不一樣，別搞混。

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --device cpu \
  --dtype float32

能跑，就是慢。生成一段話可能要等個幾分鐘，有心理準備。

指令跑起來之後，終端機會出現這樣一行：

Running on local URL: http://0.0.0.0:8000

想在區域網路裡的手機或其他裝置上用？把 localhost 換成這台電腦的 IP 位址。查 IP：Mac 跑 ifconfig | grep "inet "，Windows 跑 ipconfig。

Mac 啟動就報 FlashAttention 錯誤 十有八九是忘加 --no-flash-attn 了，補上重跑。

Windows 提示 CUDA 不可用 先跑這行檢查一下：

python -c "import torch; print(torch.cuda.is_available())"

輸出 True 沒問題；輸出 False 說明 PyTorch 裝的版本不對，重裝一個帶 CUDA 支援的：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

cu121 對應 CUDA 12.1，根據自己的 CUDA 版本改，CUDA 11.8 就換成 cu118。

顯存不夠，報 OOM（記憶體溢位） 把 --dtype bfloat16 改成 --dtype float16，精確度低一檔，顯存能省一些。

模型下載慢或失敗（國內網路） 跑指令之前先設定鏡像：

Mac / Linux：

export HF_ENDPOINT=https://hf-mirror.com

Windows：

set HF_ENDPOINT=https://hf-mirror.com

裝模型和環境比較折騰，可以先去官方的線上體驗頁玩幾分鐘，確認自己真的有興趣再折騰本機也不遲：

卡在某一步了？把終端機裡的報錯資訊完整複製出來，丟給搜尋引擎或者 AI，大概率幾分鐘就能解決。