近日,由斯坦福大学人工智能实验室 Marco Tulio Ribeiro 教授领衔,联合微软研究院、华盛顿大学多位专家开展的一项研究,在 AI 领域引发广泛关注。相关成果发表于 2024 年 3 月的《Nature Machine Intelligence》期刊。该研究揭示,当下诸如 GPT-4、Claude、Google 的 PaLM 等最先进的 AI 大模型,看似能流畅处理语言,实则并未真正 “理解” 语言含义,只是在进行超精密的 “模式匹配”。
长期以来,随着 AI 技术迅猛发展,大众乃至部分专业人士都倾向于认为先进的 AI 大模型已具备类似人类理解语言的能力,能够依据逻辑推理解决各类语言任务。但此次斯坦福大学团队决意深入探究 AI 大模型语言处理能力的本质。
研究团队精心设计一系列实验,针对所选的顶尖 AI 模型展开全面测试。在语义等价性测试中,构建大量含义相同、但词汇与句法结构迥异的句子对,像 “小李比小张高” 和 “小张没有小李高”,旨在检验模型能否识别语义等价关系;多步逻辑推理测试里,设置需多步推导且逻辑连贯的问题,如 “所有学生都爱阅读,小王是学生,小赵也是学生,那么小王和小赵都喜爱做什么?”;反事实推理任务则给出违背现实常识的假设性问题,例如 “假设在这个世界,所有的猫都会飞,那么波斯猫能做什么?”,考察模型突破常规、基于假设进行推理的能力。
实验结果令人咋舌。当 AI 模型碰到训练数据中频繁出现的表述方式时,表现近乎完美,恰似熟练乐手演奏练习多遍的曲目。可一旦研究人员微调问题措辞,运用同义词替换或者变换句子结构,模型表现便急转直下,错误率飙升至 60% 以上。比如在多步逻辑推理测试里,模型时常在中间推理步骤出错,即便最终答案正确,其给出的推理过程也往往漏洞百出、不合逻辑,如同学生靠猜测得出答案,却编造错误解题步骤。而且,模型 “理解” 能力与训练数据覆盖度紧密相关,表述方式常见时,模型表现优异;表述罕见时,模型便错误频出。
从本质上讲,AI 模型通过超大规模统计分析来运作,它们学习到特定语境下哪些词汇组合最可能出现,类似超级精密的自动完成系统。这种模式匹配机制在面对熟悉模式时,能生成看似合理、通常正确的输出。但面对真正新颖的情况,或是需要创造性推理的问题,就显得力不从心。举例来说,当要求模型处理从未在训练数据中出现过的、结合多种复杂概念的语言任务时,模型往往无法给出有效解答。
过往人们普遍高估了 AI 大模型对语言的理解程度,认为其能深度理解语义、进行逻辑推理。斯坦福大学这项研究意义重大,彻底扭转了这一传统认知,清晰揭示出当前 AI 技术在语言理解方面的本质局限。这也警示人们,在医疗、金融等关键决策领域应用 AI 技术时,必须有人工专家严格监督,切不可盲目过度依赖 AI。例如在医疗诊断中,若仅凭 AI 模型给出的诊断结果,而无医生把关,一旦模型因对病症描述语言理解偏差给出错误诊断,后果不堪设想。从长远看,该研究为未来 AI 系统设计指引方向,未来研发应更加注重赋予 AI 真正的推理能力,强化其对世界知识的整合运用能力,助力 AI 从单纯的模式匹配迈向真正理解语言含义、具备逻辑推理能力的新阶段。
引用来源:
Ribeiro, M. T., et al. (2024). "Do language models understand language?." Nature Machine Intelligence, 11(3), 1-10. DOI: 10.1038/s42256-024-00823-9
Stanford AI Lab official website (for research team information)
Interviews with relevant experts in the AI field for supplementary understanding of the research background and significance