爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

美伊和谈再度...

最近很火的5...

上海一业主去...

从文淇被堵看...

上新|| 穿...

46岁董璇被...

哀悼，西班牙足球史上第一位女性主席阿米莉亚去世，享年82岁

陌生人上门讨说法 18岁女孩独自在家起冲突被认定互殴

蔡依林演唱会被举报＂搞邪教仪式＂ 30米机械蛇等引争议

这款来自千年前的“扎染盲盒”你拆过吗？

突发！万科郁亮辞任

支持家乡球队，网球球员吴易昺来黄龙体育场观战浙江vs山东

前纽卡球员海登：很同情斯特林和迪萨西，我也遭遇过类似情况

纯度更高的致敬尚界Z7预告图发布

专家：高市早苗跟台湾关系较密切会让大陆比较担忧

内塔尼亚胡：加沙非军事化前不会允许重建

俄三防部队司令遇袭身亡案调查结束细节披露

黄金白银暴跌，让媒体都想不出标题了

韩庚晒卢靖姗官宣生子！一家四口同框照好幸福

「冰雪+温泉」模式：山地文旅地产如何重构冬季休闲生活？

权力重构？泽连斯基亲信部队高层遭反腐

AI 接管手机这事儿，豆包能干成么？

小米SU7成都事故惨烈＂打不开的门＂问题在哪儿

疯狂推新，营收大涨27%！小熊电器“翻身”

《堡垒之夜》放弃日本iOS，Epic硬刚苹果指控违法

33岁的张一山惊艳亮相，杨紫这次真得避嫌了？

五到十二：财务管理不善如何将狼队置于危险境地

双11链接合集 || 一键查缺补漏，这些宝藏别错过！

异构系统实现大模型推理加速与成本优化能力提升

奇瑞QQ3纯电版要来了轴距2700mm