AI·新世界

苹果研究人员的一项新研究揭示了大语言模型在“推理”能力方面的深层次缺陷

2024年10月15日

文章目录[隐藏]

研究内容
研究方法
研究结果
研究结论
专家观点
研究意义

尽管像OpenAI和谷歌这样的公司一直在宣传他们最新的AI模型拥有先进的“推理”能力，但苹果工程师的一项新研究显示，这些高级大语言模型（LLM）在面对常见基准问题的微小变化时，表现出的数学“推理”能力可能非常脆弱且不可靠。

研究内容

这项研究名为“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”，由六位苹果工程师进行。他们从GSM8K的标准化集合开始，该集合包含超过8,000个小学水平的数学文字问题，常被用作现代LLM复杂推理能力的基准。研究团队采用了一种新颖的方法，动态替换测试集中的某些名称和数字为新值，以避免数据污染，并保持数学推理的实际难度。

论文地址：https://arxiv.org/pdf/2410.05229

研究方法

研究人员使用了 GSM8K 数据集，这是一个包含超过 8,000 个小学水平数学问题的标准集合，常用于评估 LLM 的推理能力。他们开发了一个新的测试集 GSM-Symbolic，通过对 GSM8K 中的问题进行动态修改，替换某些名称和数字，以避免“数据污染”并保持问题的数学难度不变。

研究结果

准确率下降：在 GSM-Symbolic 上测试的 20 多个最先进的 LLM 中，几乎所有模型的平均准确率都有所下降，降幅在 0.3% 到 9.2% 之间。个别模型的最佳和最差运行之间的准确率差异高达 15%。
数字变化的影响：与名称变化相比，数字变化对模型性能的影响更大，这表明模型在处理数字时的脆弱性。
无关信息的影响：研究人员进一步创建了 GSM-NoOp 数据集，通过在问题中添加无关的细节来测试模型。结果显示，这些无关信息导致了“灾难性的性能下降”，准确率下降从 17.5% 到 65.7% 不等。

研究结论

缺乏正式推理：研究人员假设，当前的 LLM 缺乏正式的逻辑推理能力，而是依赖于训练数据中的概率模式匹配。这种模式匹配在面对微小变化时容易失效。
理解的幻觉：尽管 LLM 在某些基准测试中表现优异，但这些模型的“理解”实际上是基于大量训练数据的表面模式匹配，而不是对问题的深层理解。

专家观点

AI 专家 Gary Marcus 认为，AI 能力的下一个重大飞跃需要这些神经网络能够整合真正的符号操作，即以变量和这些变量上的操作为基础的抽象表示，类似于代数和传统计算机编程中的概念。在此之前，我们可能会继续看到这种脆弱的“推理”能力。

研究意义

这项研究的结果并不完全新颖，但它突显了当提示将模型推向与任何训练数据不完全匹配的方向时，这种模仿可能有多么脆弱。它还突显了在没有底层逻辑或世界模型的情况下尝试进行高级推理的固有限制。AI专家Gary Marcus认为，AI能力的下一个重大飞跃只有在这些神经网络能够整合真正的“符号操作”时才能实现。

这项研究提醒我们，尽管AI模型可能在处理大量数据时表现出色，但它们在理解和推理方面的能力仍然有限。在追求更高级的AI技术时，我们需要对这些模型的能力和局限有更深入的理解。