ai tutorial macwindows 2026年3月19日

Guia completa para ejecutar Qwen3-TTS con Web UI en local | Clona voces sin saber programar

Qwen3-TTS viene con una interfaz web integrada: sube una grabacion y clona tu voz, sin escribir ni una linea de codigo. Esta guia cubre la configuracion tanto para Mac (chip de la serie M) como para Windows (GPU NVIDIA).

qwen3 ttsqwen tts interfaz webqwen clonar vozQwen3-TTS interfaz WebQwen clonacion de vozQwen TTS tutorial

Guia completa para ejecutar Qwen3-TTS con Web UI en local: clona voces sin saber programar

El Qwen3-TTS que ha sacado Alibaba tiene bastante miga: subes una grabacion de tu propia voz y es capaz de “aprender” a hablar como tu; o si le describes por texto “voz masculina grave y profunda”, te genera una desde cero. Y lo mejor de todo: trae interfaz web, asi que abres el navegador, haces clic clic clic y listo, sin tocar ni una linea de codigo.

Esta guia la he probado personalmente en un Mac mini M4 (serie M). Todos los errores en los que me tropece ya estan marcados para que tu no pises los mismos.

Aclara primero que caso es el tuyo

Guia de instalacion local (despliegue):

https://lingflux.com/zh-cn/articles/ai/qwen3-tts-mac-mini-m4-complete-guide/

Antes de lanzarte a copiar comandos, mira que configuracion tienes y por donde ir:

Tu ordenador	Por donde ir
Mac, chip M1/M2/M3/M4	Aceleracion con `mps`, sigue la ruta de Mac
Windows, con GPU NVIDIA	Aceleracion con `cuda`, sigue la ruta de Windows
Sin GPU dedicada, solo CPU	Tambien funciona, pero es lento. Preparate un te mientras esperas

Tres modos de uso, elige uno para empezar

Al iniciar, eliges un modelo distinto y eso corresponde a un modo de uso distinto. En resumen:

Clonacion de voz → Subes tu propia grabacion y aprende a hablar como tu Modelo: Qwen/Qwen3-TTS-12Hz-1.7B-Base

Voces predefinidas → Eliges entre las voces que vienen integradas, y ademas puedes anadir instrucciones como “di esto con tono triste” Modelo: Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

Diseno de voz personalizada → Describes con texto como quieres que suene la voz, y te la genera Modelo: Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign

Los comandos de abajo usan el modelo Base (clonacion de voz) como ejemplo. Cambia el nombre del modelo para activar los otros modos.

Paso 1: Iniciar la interfaz

Mac (chip de la serie M)

Abre la Terminal y pega este comando:

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --device mps \
  --dtype bfloat16 \
  --no-flash-attn

Que significan los tres parametros:

--device mps: Usa la GPU del chip de Apple, bastante mas rapido que CPU solo. Si tu Mac no es de la serie M (un modelo antiguo), cambia esto a cpu
--dtype bfloat16: Formato de precision del modelo, la serie M lo soporta de maravilla, usalo tal cual
--no-flash-attn: Este no te lo puedes olvidar! Mac no soporta FlashAttention, sin este parametro falla al arrancar

Windows (GPU NVIDIA)

Abre el Simbolo del sistema (CMD) y pega:

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base ^
  --device cuda:0 ^
  --dtype bfloat16 ^
  --flash-attn

Explicacion de los parametros:

--device cuda:0: Usa la primera GPU NVIDIA (normalmente solo tienes una, asi que 0 basta)
--dtype bfloat16: Las tarjetas RTX serie 30 en adelante lo soportan, es lo recomendado
--flash-attn: En Windows + CUDA esta aceleracion si se puede activar, y nota la diferencia

Pequeno consejo: En Windows, para saltar de linea en comandos se usa ^ (en CMD) o la comilla invertida (en PowerShell). Es distinto al \ de Mac, no los mezcles.

Sin GPU, solo CPU?

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --device cpu \
  --dtype float32

Funciona, pero es lento. Generar un parrafo puede tardar varios minutos. Ve preparandote mentalmente.

Paso 2: Abrir el navegador

Cuando el comando arranque, la Terminal mostrara algo asi:

Running on local URL: http://0.0.0.0:8000

Abre el navegador y ve a http://localhost:8000, la interfaz aparecera y lo demas es ir haciendo clic.

Quieres usarlo desde el movil u otro dispositivo en la misma red? Cambia localhost por la direccion IP de este ordenador. Para ver la IP: en Mac ejecuta ifconfig | grep "inet ", en Windows ejecuta ipconfig.

Si te da un error, no te asustes, mira aqui

Al arrancar en Mac da error de FlashAttention Nueve de cada diez veces es que te olvidaste de poner --no-flash-attn. Anadelo y vuelve a ejecutar.

Windows dice que CUDA no esta disponible Primero ejecuta esto para comprobar:

python -c "import torch; print(torch.cuda.is_available())"

Si muestra True, todo bien; si muestra False, es que la version de PyTorch no es la correcta. Reinstala una con soporte CUDA:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

cu121 corresponde a CUDA 12.1. Cambialo segun tu version de CUDA; por ejemplo, si tienes CUDA 11.8, pon cu118.

Sin suficiente VRAM, error OOM (desbordamiento de memoria) Cambia --dtype bfloat16 por --dtype float16. Bajas un nivel de precision y te ahorras algo de memoria.

Descarga del modelo lenta o fallida (red en China) Configura el mirror antes de ejecutar el comando:

Mac / Linux:

export HF_ENDPOINT=https://hf-mirror.com

Windows:

set HF_ENDPOINT=https://hf-mirror.com

No quieres instalarlo en local? Prueba primero online

Instalar modelos y entornos es un poco lioso. Puedes ir antes a la pagina de prueba oficial y jugar unos minutos, para confirmar que de verdad te interesa antes de meterte con la instalacion local:

Hugging Face: https://huggingface.co/spaces/Qwen/Qwen3-TTS
ModelScope (mas rapido desde China): https://modelscope.cn/studios/Qwen/Qwen3-TTS

Te has quedado atascado en algun paso? Copia el mensaje de error completo de la Terminal, pegalo en un buscador o en una IA, y lo mas probable es que lo soluciones en un par de minutos.