关闭广告

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

智东西896人阅读

智东西
编译高远瞩
编辑程茜

智东西5月8日报道，Anthropic于5月7日推出了一种名为自然语言自动编码器（Natural Language Autoencoders，简称NLA）的全新方法，能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本，让用户可以直接阅读Claude在生成回答之前的思考过程。

当用户与大语言模型对话时，用户的输入是自然语言，模型的回答也是自然语言。但在模型内部，整个过程却是高维数字向量的运算，这些向量被称为“激活值”，承载着模型在每一个计算步骤中的“想法”。然而，激活值就像一串串脑电波，人类无法直接阅读。

在正式发布前的安全审计中

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

突发！特斯拉美国要求禁用中国产零部件；离谱！曝多益网络创始人有300个孩子，公司回应；苹果CEO库克被曝或于明年卸任丨雷峰早报

雷峰网浏览 3948

“一个杯子开15次会”？小米徐洁云：至少开了16次

三言科技浏览 3340

美媒：大批美军机突然飞往欧洲

环球时报国际浏览 3166

王家卫事件再次升级，可怜了这些明星

阿伧说事浏览 3897

已获海港等队邀约，茹子楠表态站好梅州这班岗：拼到最后一秒

懂球帝浏览 3851

一天两枚火箭发射失利中国航天科技集团发文回应

每日经济新闻浏览 7370

利润暴跌99％，保时捷赚不到钱了？

汽车公社浏览 3284

英伟达CES亮出新牌

北京商报浏览 3276

硬核揭秘！福建舰“一马当先”底气何在

环球网资讯浏览 2637

太阳报：奥利塞帮助埃泽适应枪手新生活，二人经常会在线下棋

懂球帝浏览 3610

活塞125-107大胜篮网豪取5连胜，坎宁安34+10，杜伦30分

懂球帝浏览 4004

马杜罗纽约＂首秀＂神态轻松比＂V字剪刀手＂遭多方解读

红星新闻浏览 9025

微软亚研院突破：强化学习赋予语言模型规划能力

科技行者浏览 4130

国家互联网应急中心提示“龙虾”风险

澎湃新闻浏览 2252

沪电股份：前三季度净利润同比增长47.03%

网易财经浏览 4058

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？

宋鸿兵浏览 4160

日本在台附近部署进攻性武器中方回应

环球网浏览 3752

德云社董事长王惠凌晨发文，郭汾阳长大，触景生情

动物奇奇怪怪浏览 4227

媒体：高市涉台言论后又蹬鼻子上脸野田佳彦在放鱼饵

新民周刊浏览 18393

再遭失利，内马尔不满自己被换下并直接返回更衣室

懂球帝浏览 3934

晕了晕了！机构大动作调仓，55只行业主题ETF被疯狂扫货，而热门的半导体竟被悄然抛售

每经牛眼浏览 3874

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

Verita...

美方在公海海...

澳网公布创纪...

魅族Flym...

董明珠的言语...

福建舰、山东...

美政府“停摆”持续，特朗普命令美防长动用“所有可用资金”保军饷

特朗普：美军在与伊朗冲突中可能还会出现更多伤亡

全球连线｜权威访谈：携手迈进更加美好的“数智未来”——访世界互联网大会副理事长高锐

突发！特斯拉美国要求禁用中国产零部件；离谱！曝多益网络创始人有300个孩子，公司回应；苹果CEO库克被曝或于明年卸任丨雷峰早报

“一个杯子开15次会”？小米徐洁云：至少开了16次

美媒：大批美军机突然飞往欧洲

王家卫事件再次升级，可怜了这些明星

已获海港等队邀约，茹子楠表态站好梅州这班岗：拼到最后一秒

一天两枚火箭发射失利中国航天科技集团发文回应

利润暴跌99％，保时捷赚不到钱了？

英伟达CES亮出新牌

硬核揭秘！福建舰“一马当先”底气何在

太阳报：奥利塞帮助埃泽适应枪手新生活，二人经常会在线下棋

活塞125-107大胜篮网豪取5连胜，坎宁安34+10，杜伦30分

马杜罗纽约＂首秀＂神态轻松比＂V字剪刀手＂遭多方解读

微软亚研院突破：强化学习赋予语言模型规划能力

国家互联网应急中心提示“龙虾”风险

沪电股份：前三季度净利润同比增长47.03%

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？

日本在台附近部署进攻性武器中方回应

德云社董事长王惠凌晨发文，郭汾阳长大，触景生情

媒体：高市涉台言论后又蹬鼻子上脸野田佳彦在放鱼饵

再遭失利，内马尔不满自己被换下并直接返回更衣室

晕了晕了！机构大动作调仓，55只行业主题ETF被疯狂扫货，而热门的半导体竟被悄然抛售

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

Verita...

美方在公海海...

澳网公布创纪...

魅族Flym...

董明珠的言语...

福建舰、山东...

美政府“停摆”持续，特朗普命令美防长动用“所有可用资金”保军饷

特朗普：美军在与伊朗冲突中可能还会出现更多伤亡

全球连线｜权威访谈：携手迈进更加美好的“数智未来”——访世界互联网大会副理事长高锐

突发！特斯拉美国要求禁用中国产零部件；离谱！曝多益网络创始人有300个孩子，公司回应；苹果CEO库克被曝或于明年卸任丨雷峰早报

“一个杯子开15次会”？小米徐洁云：至少开了16次

美媒：大批美军机突然飞往欧洲

王家卫事件再次升级，可怜了这些明星

已获海港等队邀约，茹子楠表态站好梅州这班岗：拼到最后一秒

一天两枚火箭发射失利 中国航天科技集团发文回应

利润暴跌99％，保时捷赚不到钱了？

英伟达CES亮出新牌

硬核揭秘！福建舰“一马当先”底气何在

太阳报：奥利塞帮助埃泽适应枪手新生活，二人经常会在线下棋

活塞125-107大胜篮网豪取5连胜，坎宁安34+10，杜伦30分

马杜罗纽约＂首秀＂神态轻松 比＂V字剪刀手＂遭多方解读

微软亚研院突破：强化学习赋予语言模型规划能力

国家互联网应急中心提示“龙虾”风险

沪电股份：前三季度净利润同比增长47.03%

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？

日本在台附近部署进攻性武器 中方回应

德云社董事长王惠凌晨发文，郭汾阳长大，触景生情

媒体：高市涉台言论后又蹬鼻子上脸 野田佳彦在放鱼饵

再遭失利，内马尔不满自己被换下并直接返回更衣室

晕了晕了！机构大动作调仓，55只行业主题ETF被疯狂扫货，而热门的半导体竟被悄然抛售

一天两枚火箭发射失利中国航天科技集团发文回应

马杜罗纽约＂首秀＂神态轻松比＂V字剪刀手＂遭多方解读

日本在台附近部署进攻性武器中方回应

媒体：高市涉台言论后又蹬鼻子上脸野田佳彦在放鱼饵