关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro766人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体披露:U23国足主帅禁止球员在驻地点外卖

环球网资讯 浏览 19837

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

参考消息 浏览 120518

伊姐周六热推:《长安二十四计》;电视剧《唐诡奇谭》......

伊周潮流 浏览 2426

美拉德过时了?今年冬天最火的4个颜色竟然是它们

LinkFashion 浏览 2620

迪亚曼蒂:曾有机会加盟国米,但因穆里尼奥没去成

懂球帝 浏览 4208

《小城大事》大结局:李秋萍和杜涛的缘,在月海续写上且圆满

肆季娱乐 浏览 2675

东方港湾董事长但斌:致敬白酒投资者,这两年其他的人都吃香的喝辣的

红星资本局 浏览 2998

金银同创历史新高,国内金饰克价突破1180元,现在还是追高时机吗?

澎湃新闻 浏览 3836

美军称在东太平洋打击一“贩毒船” 致4人死亡

极目新闻 浏览 3028

埃迪-豪联赛对前东家伯恩茅斯7场不胜,并列英超最长纪录

懂球帝 浏览 4499

阿尔及利亚非洲杯名单:马赫雷斯、努里领衔,卢卡-齐达内入选

懂球帝 浏览 2963

停不下来,肯扬-马丁继续怼追梦:没有库里和克莱你只是队内第12人

懂球帝 浏览 3175

万科董事长辛杰辞职!年薪0元、原定明年退休,曾多次代表深铁力挺万科

时代周报 浏览 3916

德央行行长妄言:若报复中国是最后一招 那就干票大的

澎湃新闻 浏览 9339

加兰:本希望在场上帮助马竞更多,会找一天回去告别

懂球帝 浏览 2744

补时绝平,曼联终结各项赛事对阵热刺四连败

懂球帝 浏览 3392

普京即将访印之际 印俄敲定价值20亿美元核动力潜艇租赁协议

环球网资讯 浏览 3111

智能早报丨黄仁勋造访台积电3nm产线索取产能;万华化学突破机器人“仿生皮肤”材料

观察者网 浏览 3458

和马蓉离婚9年后,自己的一双儿女开始为他争光了

TVB的四小花 浏览 4548

斯诺克英格兰公开赛决赛第一阶段:周跃龙2-6落后于马克-艾伦

直播吧 浏览 4477

介绍一个如果你用了,你就看不到这篇文章的产品

时尚COSMO 浏览 2930
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1