爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

媒体：中东欧...

赛力斯闯关港...

志愿军＂冷枪...

陈思诚新作《...

创新推出AC...

江铃旗下羿驰...

北约建＂无人机墙＂彻底激怒俄罗斯俄方强硬回应

她被推上C位，这次谁也没料到

44岁的宋慧乔面相变了！她的变美思路普通人也可以借鉴

委内瑞拉:逮捕一批＂掌握美情报机构直接信息＂的雇佣兵

“苏超”MVP范厚泰：感恩亚泰，感恩泰州，感恩“苏超”平台

疯狂推新，营收大涨27%！小熊电器“翻身”

8.88万起终身质保威麟R08把皮卡玩成“理财产品”

《我的山与海》遭受痛批，年代剧要的是接地气

岚图泰山将于11月上市 4颗激光雷达加持/还有后轮转向

向太曝古天乐曾坐过牢：初次见面头都不敢抬

台＂馆长＂称＂把赖清德狗头斩下来＂遭民进党当局约谈

特朗普:美舰向伊朗货船开火炸出个洞

LV高管空降泡泡玛特，年薪300万港元

美报告罕见承认中国电子战有优势

喊球迷别卖票自己却缺阵？76人0-2落后，大帝G3出战成疑

纳因戈兰：比利时必须晋级世界杯，我们拥有众多优秀年轻球员

荷兰被中美欧同时施压急疯高官致电北京恳请解决问题

万元损失仅补两千？国投瑞银的补偿，没能让大额投资者“和解”

推荐两款顶配车型长安启源A06购车指南

男子取170万元现金在银行门口遭抢劫致重伤左眼失明

董秘也“打短工”？道通科技董秘上任5个月即离任

蓝色+灰色、红色+棕色，这4组配色怎么搭都好看！

小米现车选购争议:提车等半年转头卖现车?

马卡：多家英超俱乐部有意阿布德，巴萨仍有其部分所有权