关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1373人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美团、京东外卖、淘宝闪购:自愿执行《外卖平台服务管理基本要求》国家标准

澎湃新闻 浏览 3747

爱优腾芒长剧阵地战

海克财经 浏览 2985

Meta实验室革命性并行推理技术:让AI模型思考速度提升50%

科技行者 浏览 3288

不好看的普通女生,如何让人误以为是美女?

Yuki女人故事 浏览 4477

拖欠WTO的会费 美国已悄悄补缴

上观新闻 浏览 9560

冲刺第一股,中国最大独立模型厂商的成色、能力与野心

晚点LatePost 浏览 3427

淘宝闪购换CEO:“老将”雷雁群接棒,曾为阿里“中供铁军”成员

时代周报 浏览 1604

东方财富实控人其实的妻子和父亲近期套现约93亿

YOUNG财经 浏览 4317

新款小鹏G9申报图曝光 自研图灵芯片上车

网易汽车 浏览 4253

齐沃:意大利足球不以进球多著称;恩里克和迪乌夫终会迎来闪耀时刻

懂球帝 浏览 4275

两部门:不得变相强制网络交易平台内经营者承担退款不退货等售后责任

YOUNG财经 浏览 3187

鲁内眼中,那个让他敬畏的辛纳是如何炼成的

网球之家 浏览 3208

冬天的毛衣,越“大”越好看!

LinkFashion 浏览 2966

约10米高吊罐掉落砸伤3名路人 40岁驾驶员被警察带走

大风新闻 浏览 9516

英伟达正式发布LPU,CPU重磅更新:GPU不再是GTC唯一主角

半导体行业观察 浏览 2199

明年上半年上市 奇瑞风云实车A9 EV亮相

车质网 浏览 3783

沈腾携好友强势回归 《飞驰人生3》成春节档首选

石坝村村长 浏览 2976

原来最适合亚洲人的单品之一,是它

黎贝卡的异想世界 浏览 3640

其实李亚鹏只离了两次婚!过往前任太知名,每段感情都是女方受伤

萌神木木 浏览 4353

鸿蒙智行顶流!百万级新旗舰,尊界MPV最新谍照曝光,实力剑指丰田埃尔法

隔壁说车老王 浏览 2619

利润暴跌99%,保时捷赚不到钱了?

汽车公社 浏览 3285
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1