关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2989人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

租电版本售15.79万 乐道L60紫罗兰限定版上市

网易汽车 浏览 3472

摩托罗拉Edge 70 Ultra现身Geekbench,处理器或有新情况

IT之家 浏览 3899

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

澎湃新闻 浏览 9083

政务大模型部署,重磅文件印发

智东西 浏览 3527

内塔尼亚胡遭遇“全球孤立” 联大发言多国代表离席

环球网资讯 浏览 4817

SU7失控起火致1死 小米官方和雷军始终未直接回应

第一财经资讯 浏览 8398

伊朗外长:就伊朗核问题达成协议的唯一途径是外交

国际在线 浏览 2574

跨境网赌大佬佘智江将被引渡回中国 被指曾参与KK投资

红星新闻 浏览 33853

马杜罗被指遭"发小"出卖 委"二号人物"疑与美接触数月

扬子晚报 浏览 7279

千亿豪赌,甲骨文会成“甲骨文”?

每日资本论 浏览 3526

拼多多“千亿扶持”落地半年,“包邮区”持续扩大,更多地区享受便利网购服务

雷峰网 浏览 3972

10月工信部新车申报:小鹏/奥迪/吉利等多款车型在列!

百姓评车 浏览 4341

马德兴:张瑷晖因脚踝受伤没参加U23国足第二日的合练

懂球帝 浏览 3273

跟队:纽卡vs巴萨赛前发布会上加泰记者很放松,还有人接电话

懂球帝 浏览 2316

针对“美式讹诈”:中国为何率先发动反制?

浏览 7842

日本官宣美将在日部署中导系统

极目新闻 浏览 248

晚点独家丨千问 app,阿里要怎么做中国的 “ChatGPT”

晚点LatePost 浏览 3881

媒体:特朗普最新表态后 岛内绿营慌了担心其"卖台"

新民周刊 浏览 7181

《双轨》空降逻辑混乱,赛车泰拳伪骨科叠加,虞书欣演技难撑人设

不八卦会死星人 浏览 3545

预售11.28万起 狐全新阿尔法S5标配宁德时代

网易汽车 浏览 2508

特朗普涉俄乌冲突再次表态:有时候必须让他们打到底

鲁中晨报 浏览 9041
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1