J9·九游会「中国」官方网站_j9九游会国际站-官方网站_J9九游|旧版幸福宝|AGI幻灭LeCun观点得证？哈佛研究实锤AI不懂因果世界

J9九游|旧版幸福宝|AGI幻灭LeCun观点得证？哈佛研究实锤AI不懂因果世界

发布时间：2025-06-17 19:41:40

　　【新智元导读】尽管LLM看似能够进行流畅推理和问题解答★✿◈，但它们背后的思维链其实只是复杂的统计模式匹配★✿◈，而非真正的推理能力★✿◈。AI模型仅仅通过海量数据和经验法则来生成响应★✿◈，而不是通过深刻的世界模型和逻辑推理来做决策★✿◈。

　　如果你问OpenAI★✿◈、AnthropicJ9九游★✿◈、Google等顶尖AI公司的CEO★✿◈，他们肯定是信心满满★✿◈，认为就在眼前★✿◈。

　　AI本质上是通过学习海量的经验规则★✿◈，然后把这些规则套用到它们所接触到的信息上★✿◈，进而模拟智能★✿◈。

　　然而★✿◈，近期的一些研究让我们可以从内部窥探一些模型的运行机制★✿◈，结果让人怀疑我们是否真的在接近AGI★✿◈。

　　「关于这些模型到底在干什么★✿◈，以及人们用来描述它们的那些拟人化说法（比如『学习』★✿◈、『理解』之类的）j9九游会真人游戏第一品牌★✿◈，★✿◈，现在争议挺大的★✿◈。」Santa Fe研究所研究AI的教授Melanie Mitchell说★✿◈。

　　Mitchell认为★✿◈，越来越多的研究表明★✿◈，这些模型似乎发展出了海量的「经验法则」★✿◈，而不是构建更高效的心理模型来理解情境★✿◈，然后通过推理完成任务★✿◈。

　　哈佛大学的AI研究员Keyon Vafa首次听到「一堆经验法则」这个提法时表示「感觉一下子点醒了我——这就是我们一直想描述的东西★✿◈。」

　　Vafa的研究试图搞清楚★✿◈：当AI被输入数百万条类似谷歌地图的逐步导航指令后★✿◈，会构建出怎样的认知地图★✿◈。他和团队以曼哈顿错综复杂的街道网络作为测试样本★✿◈。

　　仔细检查发现★✿◈，AI竟然推演出各种离谱路线——比如横穿中央公园的直线★✿◈，或者斜着连跨好几个街区★✿◈。

　　Vafa解释说★✿◈，虽然这张乱七八糟的地图能让司机崩溃★✿◈，但AI本质上是从所有可能的起点出发★✿◈，为各种路况学了一大堆独立的导航规则★✿◈。

　　有些研究表明★✿◈，模型会为不同数字范围（比如200到210）专门学一套乘法规则★✿◈。你觉得这种方法做数学不太靠谱？没错★✿◈，你想对了★✿◈。

　　现在的AI本质上是一堆复杂★✿◈、拼凑的「奇葩机器」★✿◈，充满了各种临时凑合的解决方案来应对我们的指令★✿◈。

　　这也解释了为什么模型需要那么大★✿◈：它们得记住一大堆经验法则★✿◈，没法像人类一样把知识压缩成一个心理模型★✿◈。

　　为了推导出那些零散的规则★✿◈，AI得看到所有可能的单词★✿◈、图像★✿◈、棋盘位置等组合★✿◈。而且为了训练得更好旧版幸福宝★✿◈，它们得反复看这些组合无数次★✿◈。

　　或许这也能解释★✿◈：为什么不同公司的AI「思考」方式如出一辙★✿◈，连性能表现都趋于接近——而这种性能★✿◈，可能已经触顶了★✿◈。

　　由此★✿◈，我们不再需要通过分析外部行为来猜测★✿◈，而是可以窥视LLM黑盒中发生的推理过程★✿◈，并检查LLM在多大程度上可解释★✿◈。

　　内部发生的事情看起来不像人类进行推理时所采取的步骤j9九游会官网★✿◈！★✿◈，而且★✿◈，当模型告诉我们它们如何推理时★✿◈，这完全是捏造的★✿◈。这与我们观察到的它们内部正在做的事情并不相符★✿◈。

　　所有LLM在AGI方面取得的所谓「进展」★✿◈，实际上都归功于构建了规模极其庞大的统计模型★✿◈，这些模型制造出了一种智能的假象★✿◈。

　　每一次性能的提升并没有让它们变得更聪明★✿◈；它只是让它们在输入机器的数据范围内J9九游★✿◈，成为了更好的启发式预测器★✿◈。

　　智能和大型统计模型之间的能力差异通常难以察觉★✿◈，但它仍然是一个重要的本质区别★✿◈，因为它将显著改变可实现的应用场景★✿◈。

　　统计模型没法完全复制智能的所有功能旧版幸福宝旧版幸福宝居家办公趋势★✿◈！★✿◈。即使在看似重叠的领域★✿◈，统计模型的效率也低得离谱★✿◈，还不靠谱★✿◈。

　　统计模型就像信息的静态快照★✿◈，基于现实的规则生成★✿◈，但它不是现象本身★✿◈，所以没法从基本原理创造新信息★✿◈。

　　所谓模型的「涌现行为」★✿◈，其实就是各种模式的组合★✿◈。模型越大★✿◈，找到的模式越多★✿◈，组合出的模式也越多★✿◈。归根结底旧版幸福宝★✿◈，一切都是模式★✿◈。

　　Anthropic等机构的研究进一步表明★✿◈，LLM确实能通过统计分析得出正确答案★✿◈，但它的推理方式跟智能推理完全不同★✿◈。

　　我们现在重现算式36+59=的归因图★✿◈。「接近57的数相加」这一低精度特征九游会J9真人游戏第一品牌官网★✿◈，★✿◈，被用于查询「接近36的数与接近60的数相加」的查找表特征★✿◈，而这个查找表特征又影响着「和接近92」这一特征★✿◈。这种低精度路径★✿◈，补充了右侧的高精度模块化特征（「左操作数以9结尾」影响「加上一个以9结尾的数」★✿◈，后者又影响「以6结尾的数加上以9结尾的数」★✿◈，最终影响「和以5结尾」）★✿◈。这些特征组合在一起★✿◈，最终给出了正确的和95★✿◈。

　　这个过程代表了一系列启发式方法和记忆模式的查找表J9九游★✿◈。因此★✿◈，当要求LLM描述它用来解决计算的方法时★✿◈，它会这样回答★✿◈：

　　我将个位数相加 (6+9=15)★✿◈，进位1★✿◈，然后将十位数相加 (3+5+1=9)j9九游会国际站-官方网站★✿◈，★✿◈，结果为95★✿◈。

　　Anthropic的Claude 3.7系统卡也得出结论★✿◈，模型产生的思维链在描述构建输出的过程时并不可靠★✿◈。

　　这些结果表明★✿◈，模型利用了提示★✿◈，但没有在思维链中明确说明★✿◈，这表明CoT可能无法可靠地揭示模型的真实推理过程★✿◈。

　　……模型可以从人类文本的预训练或监督微调中学习表达他们的推理J9九游会★✿◈！★✿◈，这些人类文本阐明了人类的思维链★✿◈。

　　这些结果表明★✿◈，思维链要么主要是在思维链训练中学习到的模式★✿◈，要么是RLHF教会了模型如何迎合我们的期望★✿◈。

　　它看似符合推理步骤★✿◈，但这只是因为它匹配了我们期待的模式★✿◈，而不是因为它能真正理解或感知自己的行为★✿◈。

　　在OpenAI的o3模型预发布测试期间★✿◈，我们发现o3经常捏造它为满足用户请求而采取的操作★✿◈，并在用户质问时详细地为这些捏造辩解★✿◈。

　　……o系列模型（o3★✿◈、o1和o3-mini）比GPT系列模型（GPT-4.1和GPT-4o）更频繁地错误声称使用代码工具★✿◈。

　　……o3声称通过在编码环境中运行Python代码来满足用户的请求★✿◈。鉴于o3无法访问代码工具J9九游★✿◈，因此所有此类操作都是由模型捏造的★✿◈。

　　如果LLM产生幻觉★✿◈，那么整个工具流程基本上都被污染了★✿◈。只要LLM是信息处理流程的一部分★✿◈，这个问题就无法解决★✿◈。

　　它可以在任何步骤中产生幻觉★✿◈。这包括不运行工具★✿◈、运行不应运行的工具★✿◈、捏造工具的参数或虚构工具的结果★✿◈。

　　从本质上讲★✿◈，对模型的许多这些「改进」可能会在某种程度上互不兼容★✿◈，因为它们会引入副作用J9九游★✿◈，从而削弱模型在其他领域的表现旧版幸福宝★✿◈。

　　它们无法判断什么是对★✿◈，什么是错★✿◈。只能通过启发式方法来判断什么可能是对的★✿◈，什么可能是错的★✿◈。因此★✿◈，无法通过推理来构建世界的客观规律★✿◈。

　　这种区别很重要★✿◈，因为徒有智能表象★✿◈，而缺乏真正理解的系统★✿◈，总是会遭受不可预测的失败★✿◈，这使得它们不适合用于可信赖的系统★✿◈。

　　高级的模式匹配本质上有点像算法★✿◈，但它还是靠统计数据堆出来的算法★✿◈，只能处理训练数据里的关联★✿◈，永远没法在专门的训练集和测试基准之外表现得特别优秀★✿◈。

　　这意味着LLM将继续改进基准测量和其他抽样测试J9九游会网址★✿◈，★✿◈，与此同时★✿◈，「AGI已经到来」的说法会越来越多★✿◈。

　　当LLM实际上并不像我们以为的那样「理解」世界时★✿◈，现实环境对它来说★✿◈，到处都是坑——稍不留神★✿◈，它就会犯错★✿◈。

　　与此同时旧版幸福宝★✿◈，人脑以12 ~ 20瓦的功率运行★✿◈，但在产生新颖的语义数据方面★✿◈，仍然没有AI可以与之竞争★✿◈。

　　功耗和数据需求与能力的比率可能是一个更有价值的启发式方法旧版幸福宝★✿◈，可以用来确定我们是否正在走向真正的智能★✿◈。

上一篇 : 九游会j9官方|都会网|从辅助到自主：AI决策力如何重塑未来商业格局
下一篇 : j9九游会 - 真人游戏第一品牌登录协和医院联合浙江大学大学共建“AI大模型联合

J9·九游会「中国」官方网站 http://www.laser-resolution.com