关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1771人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这款来自千年前的“扎染盲盒”你拆过吗?

时尚COSMO 浏览 771

突发!万科郁亮辞任

财通社 浏览 3626

支持家乡球队,网球球员吴易昺来黄龙体育场观战浙江vs山东

懂球帝 浏览 4595

前纽卡球员海登:很同情斯特林和迪萨西,我也遭遇过类似情况

懂球帝 浏览 5116

纯度更高的致敬 尚界Z7预告图发布

网易汽车 浏览 3589

专家:高市早苗跟台湾关系较密切 会让大陆比较担忧

澎湃新闻 浏览 7645

内塔尼亚胡:加沙非军事化前 不会允许重建

新京报 浏览 3393

俄三防部队司令遇袭身亡案调查结束 细节披露

每日经济新闻 浏览 4689

黄金白银暴跌,让媒体都想不出标题了

深蓝财经 浏览 3315

韩庚晒卢靖姗官宣生子!一家四口同框照好幸福

一只番茄鱼 浏览 4515

「冰雪+温泉」模式:山地文旅地产如何重构冬季休闲生活?

豹变 浏览 3802

权力重构?泽连斯基亲信部队高层遭反腐

浏览 7404

AI 接管手机这事儿,豆包能干成么?

钛媒体APP 浏览 4043

小米SU7成都事故惨烈 "打不开的门"问题在哪儿

网易汽车 浏览 4844

疯狂推新,营收大涨27%!小熊电器“翻身”

侃见财经 浏览 4576

《堡垒之夜》放弃日本iOS,Epic硬刚苹果指控违法

环球网资讯 浏览 3870

33岁的张一山惊艳亮相,杨紫这次真得避嫌了?

探长影视解说 浏览 4348

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 3467

双11链接合集 || 一键查缺补漏,这些宝藏别错过!

黎贝卡的异想世界 浏览 4476

异构系统实现大模型推理加速与成本优化能力提升

科技行者 浏览 1933

奇瑞QQ3纯电版要来了 轴距2700mm

网易汽车 浏览 3673
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1