关闭广告

东南大学突破:AI学会情境化拒绝能力

科技行者899人阅读


由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队,最近在人工智能领域取得了一项重要突破。这项研究发表于2025年,论文编号为arXiv:2509.23371v1,提出了一种名为MetaAPO(Meta-Weighted Adaptive Preference Optimization)的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性,我们先来看一个生活中的例子。假设你正在教孩子学习做饭,你有两种教学资源:一套经典的家传菜谱(就像AI训练中的离线数据),还有让孩子实际动手练习的机会(就像在线生成的数据)。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习,而东南大学团队的新方法则像是配备了一位智慧的厨艺老师,这位老师能够根据孩子当前的水平,灵活决定什么时候该参考菜谱,什么时候该放手让孩子实践,从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战:如何让AI既能从人类已有的经验中学习,又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据,导致AI无法适应新情况;要么完全

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中方打出组合拳 美舆论:中国国庆后进入全面反击模式

看看新闻Knews 浏览 3787

男子同时筹备"2场婚礼" 被抓正与"未来岳父母"谈婚房

鲁中晨报 浏览 7027

曾经最厉害君王,竟被活活饿死,尸体两个月才被发现,却不值得同情

趣看热点 浏览 26092

俄反对派人士之死引发轩然大波 英法德元首纷纷发声

环球网资讯 浏览 82418

津媒:女足面对韩国有强大心理优势;右后卫刘艳秋身体不适

懂球帝 浏览 13750

拜登智力缺陷引关注,他可能都无法够独立应对记者

趣看热点 浏览 538017

单反绝唱:优雅技艺在职业网坛的黄昏

网球之家 浏览 656

袭击莫斯科的无人机来自哪里?

参考消息 浏览 16859

伊朗警告美英停止袭击也门胡塞武装

环球网资讯 浏览 12741

哈利波特将拍剧集,原著粉丝表示期待

趣看热点 浏览 25632

夫妻带走无人照看的狗获刑 当公务员的妻子被停发工资

封面新闻 浏览 111319

辛巴糖水燕窝事件是怎么回事?职业打假人王海:粉丝都被忽悠了

趣看热点 浏览 26281

父母先后失联兄弟流浪4岁弟弟又失踪 36年后母子团圆

红星新闻 浏览 5148

《一路繁花2》首波口碑,一针见血!

崽下愚乐圈 浏览 908

周雨彤穿"真空蝴蝶结" 巴掌腰抢镜

学霸知识局 浏览 19654

跌麻了!21个一字跌停,27万股东踩雷

中国基金报 浏览 10945

借助配饰的力量,穿搭瞬间点睛

瑞丽伊人风尚 浏览 19814

"2年被家暴16次"女子再见丈夫:不敢看他的脸 全程发抖

封面新闻 浏览 75167

小马、文远回港上市 但自动驾驶还没赢家

虎嗅APP 浏览 677

雷军、余承东等车圈顶流热议破卷 玩流量的高手在乎的不只流量

道哥说车 浏览 11193

请准备好钱!成都车展重磅豪华SUV都在这

车市红点 浏览 20299
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1