关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3549人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 3374

职场“关系户”还值得羡慕吗?

识局 浏览 4627

商竣程击败阿古特排名重返TOP300,袁悦输球后笑容被指输也是赢

网球之家 浏览 3528

记者:罗马与格林伍德达成协议,球员本人也同意加盟罗马

懂球帝 浏览 160

戴尔推入门游戏显示器SE2426HG、SE2726HG:FHD 240Hz Fast IPS

IT之家 浏览 3945

98版沙僧刘大刚去世,最后露面曝光

科学发掘 浏览 4350

奥迪A6L直降20.18万!网友:这个优惠力度谁不心动?

汽车网评 浏览 3372

柏林联合主帅埃塔期待与前帅菲舍尔重逢

绿茵情报局 浏览 1256

慧与上季营收暴增40%、盈利远超预期,大幅上调本财年指引,盘后一度涨近40%

华尔街见闻官方 浏览 605

特朗普"带货"后 丰田澄清:没承诺在美投资100亿美元

环球时报国际 浏览 10887

尘埃落定!全部划归国资!许家印的“御用包工头”被掏空家底

壹只灰鸽子 浏览 4707

万宁突然关闭内地线上线下全部门店,连锁巨头这是怎么了?

江瀚视野 浏览 3832

美国团队研发新型机器人:可变换数百种形状,还能征服复杂地形

IT之家 浏览 4687

砍树?佩杜拉:马特塔与AC米兰渐行渐远了

懂球帝 浏览 3500

高盛顶级交易员:美股临近CTA卖盘触发位,市场企稳看政府开门

华尔街见闻官方 浏览 4376

人类史上最大抄家案?华人受害,美国却狂揽1070亿

大猫财经Pro 浏览 4102

特朗普高喊和平,以色列悄悄磨刀:巴勒斯坦的血腥噩梦结束了?

宋鸿兵 浏览 4552

英国证实参与美国北大西洋扣押油轮行动

澎湃新闻 浏览 3103

对话比亚迪路天:王朝的真正对手 是"未来的自己"

网易汽车 浏览 4200

陕西夫妇在赞比亚遇害被发现 所雇当地员工有重大嫌疑

极目新闻 浏览 32869

从一家超市的开业,看大卖场的终章

新零售财经 浏览 4629
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1