各参数附使用说明,关键参数提取方便调整~
工作流基于 IndexTTS2 的 音色 + 情绪克隆 的语音合成系统,支持 单人/双人对话模式灵活切换,并可通过 文本或音频 控制情绪。整体功能非常强大,适合用于多角色对话、有声书、剧情配音等场景。
📌工作流亮点
1.双模式灵活切换
· 单人模式:输入普通文本即可,音色+情绪参考音频可选。
· 双人模式:文本需用 [S1] 和 [S2] 标记说话人,每个说话人可独立设置音色、情绪参考、情绪强度。
· 示例:[S1] 你在干嘛呢?
[S2] 我正在研究这个节点呢~
📌 情绪控制方式多样
01.音频情绪参考(上传一段情绪饱满的音频,系统会提取情绪特征 )
02.文本情绪参考 (入如「哭哭...」「怒吼!」等文本,系统会模拟对应情绪 )
03.情绪强度调节 (用 emo_alpha 参数控制情绪强度(0~1) )
04.情绪向量(支持输入 8 维情绪向量(如 [0,0,0,0,0,0,0.45,0] ),实现精细情绪混合 )
📌 使用建议
01.单人旁白(单人模式 + 上传音色音频 + 情绪音频可选)
02.双人剧情对话 (双人模式 + 分别上传音色/情绪音频 + 用 [S1]/[S2] 标记文本)
03.情绪模拟(不上传情绪音频时,开启 use_emo_text 并输入情绪文本)
04.长文本合成(增大 max_mel_tokens ,开启 custom_cuda_kernel )