关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1371人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

委内瑞拉:逮捕一批"掌握美情报机构直接信息"的雇佣兵

红星新闻 浏览 13407

“苏超”MVP范厚泰:感恩亚泰,感恩泰州,感恩“苏超”平台

懂球帝 浏览 3476

疯狂推新,营收大涨27%!小熊电器“翻身”

侃见财经 浏览 4222

8.88万起终身质保 威麟R08把皮卡玩成“理财产品”

网易汽车 浏览 5076

《我的山与海》遭受痛批,年代剧要的是接地气

娱乐圈笔娱君 浏览 2332

岚图泰山将于11月上市 4颗激光雷达加持/还有后轮转向

网易汽车 浏览 4285

向太曝古天乐曾坐过牢:初次见面头都不敢抬

科学发掘 浏览 262

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 22049

特朗普:美舰向伊朗货船开火炸出个洞

新华社 浏览 1311

LV高管空降泡泡玛特,年薪300万港元

YOUNG财经 浏览 3510

美报告罕见承认中国电子战有优势

北京日报 浏览 2449

喊球迷别卖票自己却缺阵?76人0-2落后,大帝G3出战成疑

仰卧撑FTUer 浏览 925

纳因戈兰:比利时必须晋级世界杯,我们拥有众多优秀年轻球员

懂球帝 浏览 4229

荷兰被中美欧同时施压急疯 高官致电北京恳请解决问题

南权先生 浏览 7460

万元损失仅补两千?国投瑞银的补偿,没能让大额投资者“和解”

拾盐士 浏览 2584

推荐两款顶配车型 长安启源A06购车指南

车质网 浏览 3575

男子取170万元现金 在银行门口遭抢劫致重伤左眼失明

扬子晚报 浏览 17934

董秘也“打短工”?道通科技董秘上任5个月即离任

华夏时报 浏览 4118

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

LinkFashion 浏览 2598

小米现车选购争议:提车等半年 转头卖现车?

网易汽车 浏览 3560

马卡:多家英超俱乐部有意阿布德,巴萨仍有其部分所有权

懂球帝 浏览 3238
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1