爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

娃哈哈精密机...

伊土两国外长...

险企投资收益...

惊现哈基米！...

中国社会科学...

包贝尔老婆包...

亚历山大20分，火箭末节哑火！雷霆111-91大胜20分迎5连胜

东方甄选人事地震：俞敏洪的意志，新高管的刀

杨紫，值得一个肯定！

美团、京东外卖、淘宝闪购：自愿执行《外卖平台服务管理基本要求》国家标准

爱优腾芒长剧阵地战

Meta实验室革命性并行推理技术：让AI模型思考速度提升50%

不好看的普通女生，如何让人误以为是美女?

拖欠WTO的会费美国已悄悄补缴

冲刺第一股，中国最大独立模型厂商的成色、能力与野心

淘宝闪购换CEO：“老将”雷雁群接棒，曾为阿里“中供铁军”成员

东方财富实控人其实的妻子和父亲近期套现约93亿

新款小鹏G9申报图曝光自研图灵芯片上车

齐沃：意大利足球不以进球多著称；恩里克和迪乌夫终会迎来闪耀时刻

两部门：不得变相强制网络交易平台内经营者承担退款不退货等售后责任

鲁内眼中，那个让他敬畏的辛纳是如何炼成的

冬天的毛衣，越“大”越好看！

约10米高吊罐掉落砸伤3名路人 40岁驾驶员被警察带走

英伟达正式发布LPU，CPU重磅更新：GPU不再是GTC唯一主角

明年上半年上市奇瑞风云实车A9 EV亮相

沈腾携好友强势回归《飞驰人生3》成春节档首选

原来最适合亚洲人的单品之一，是它

其实李亚鹏只离了两次婚！过往前任太知名，每段感情都是女方受伤

鸿蒙智行顶流！百万级新旗舰，尊界MPV最新谍照曝光，实力剑指丰田埃尔法

利润暴跌99％，保时捷赚不到钱了？