第021章:ComfyUI文生音频Qwen3-TTS模型数字人音色设计(二)

📅 2026/7/5 6:02:47
第021章:ComfyUI文生音频Qwen3-TTS模型数字人音色设计(二)
在上一章我把Qwen3-TTS音色设计工作流所需要的插件和模型都已经准备好了这一章我们将从零开始去搭建一个音色设计的工作流。打开你的ComfyUI一键启动新建一个空白的工作流1、在空白处 双击鼠标左键搜索“tts model”选择下图框起来的插件,先加载模型。2、选择里面的“1.7B-VoiceDesign”,剩下的保持默认。3、搜索“tts 声音”选择下面的插件。4、参数保持默认就行以下几个需要注意1两个输入框上面的框是我们输入文字转音频的文字内容的下面的框是我们用来输入控制音色的指令的。2自动卸载模型【是】生成完成后立刻从显存释放 Qwen3-TTS 模型节省显存适合显存小、偶尔用一次 TTS 的场景【否】模型常驻显存连续多次生成不用重复加载速度更快适合批量配音。3max_mew_tokens(最大令牌数)可以理解为字节1个汉字大概2个tokens,你如果输入的文字太多的话就把这个改大大点不过音色设计的话要求是3-15s我们一般生成一个10s左右的音频就OK了。就算是后面声音克隆我也不建议弄得太长一是生成太长的语音稳定性容易出问题再一个万一需要修改等待的时间也太长。4seed(种子)我个人习惯fixed(固定)你也可以不不改这是我的个人习惯。5语速1.0标准正常语速小于1.0慢速0.7 适合旁白、温柔配音大于1.0快速1.2~1.5 适合短视频快节奏解说。6批量模式【True】单词输入一段文本生成一条音频【False】支持批量文本数组输入一次生成多条音频。---------下面的平时保持默认就行几乎不用变-----------7Top_P0.8数置越高【0.9-0.95】朗读停顿、语气变化更多、更自然但容易出现奇怪断句。数字越低【0.6-0.7】朗读更规整稳定适合旁白、新闻配音。8Top_K50限制单词可选词汇数量默认不用改数字越小发音越规整数字越大语气越丰富。9Temperature0.8创意随机度数值越低【0.4-0.6】语气越死板、断句统一几乎无情绪波动数值越高【0.8-1.0】语气轻重变化越明显真人感更强10Repetition_penalty1.1重复惩罚系数解决长文本重复读同一个词、卡顿复读默认值1.1一般不需要变动【1.05-1.15】是最优区间1代表不做限制长句容易重复读词。11启用高级采样配置【关闭】普通配音用不到只有一些高级专业调音时会需要。5、接下来我们继续鼠标左键双击工作流的空白处搜索”Save audio”。参数默认V0就OK意思类似智能无损音质比下面的128K音质好同音质比320K文件小。6、至此音色设计所需要的组件都添加完成了把他们练级起来就OK了。简单吧音色设计就是这么的简单可以自己玩一玩。7、还有最后一个问题就是音色控制的提示词怎么写大家可以从图片中看到我就写了个“成熟的御姐嗓音、声音充满诱惑”。我i们再看看Qwen3_TTS的官方的示例是怎么写的如下图我写的这个和人家这个一比那瞬间高下立判那类似这样的提示词应该如何写呢我给大家分享一个提示词的SKill,如下图这个大家不用去记等这篇文章发表后我会和工作流文件一起分享到群里。用法和前面Z-Image里面的人物生成的SKill一样丢给DeepSeek或豆包都行让AI帮我们写。这里有个小技巧大家了解一下其实输入音色设计的提示词时英文的准确性更高翻译成中文只是方便我们自己修改大家平时再使用的时候尽量都用英文。------------------------------至此我们的音色设计的工作流就完成了大家可以自己随便的试试玩一玩。今天文章发表以后我会在群里分享两个文件1、西安老张AIGC音色SKill2、音色设计与克隆的工作流【010西安老张AIGCQwen3-TTS-音色设计与克隆】在这个工作流我把音色克隆的工作流也一块搭好了这两个工作流都比较简单就放在一起了。