各参数附使用说明,关键参数提取方便调整~

工作流基于 IndexTTS2 的 音色 + 情绪克隆 的语音合成系统,支持 单人/双人对话模式灵活切换,并可通过 文本或音频 控制情绪。整体功能非常强大,适合用于多角色对话、有声书、剧情配音等场景。

数字人工作流跳转链接: ****s://****liblib.art/modelinfo/ec310f27e31347af9d8fa27eab24d95a?mine=1&from=personal_page&versionUuid=a6d2b0cec7ee47e9b81b5b8fb6afd18b

📌工作流亮点

1.双模式灵活切换

·  单人模式:输入普通文本即可,音色+情绪参考音频可选。

·  双人模式:文本需用  [S1]  和  [S2]  标记说话人,每个说话人可独立设置音色、情绪参考、情绪强度。

·  示例:[S1] 你在干嘛呢?

             [S2] 我正在研究这个节点呢~

📌 情绪控制方式多样

01.音频情绪参考(上传一段情绪饱满的音频,系统会提取情绪特征 )

02.文本情绪参考 (入如「哭哭...」「怒吼!」等文本,系统会模拟对应情绪 )

03.情绪强度调节 (用  emo_alpha  参数控制情绪强度(0~1) )

04.情绪向量(支持输入 8 维情绪向量(如  [0,0,0,0,0,0,0.45,0] ),实现精细情绪混合 )

📌 使用建议

01.单人旁白(单人模式 + 上传音色音频 + 情绪音频可选)

02.双人剧情对话 (双人模式 + 分别上传音色/情绪音频 + 用  [S1]/[S2]  标记文本)

03.情绪模拟(不上传情绪音频时,开启  use_emo_text  并输入情绪文本)

04.长文本合成(增大  max_mel_tokens ,开启  custom_cuda_kernel )