许多人工智能研究者常把游戏视为人工智能领域的“一级方程式”。在这样的环境中,规则清晰、胜负标准明确,研究者可以在一个可控的框架内检验算法的能力。借助这种思路,一项研究选择了一个极其简单却具有代表性的游戏——Nim。这个经典的火柴游戏常见于儿童游戏中,但它的最优策略早已被数学完全解析,因此每一个局面都存在确定的最佳走法。
正因为所有局面的正确策略都已知,研究人员得以精确评估人工智能代理的表现:只要将其每一步的选择与理论最优解进行对比,就能判断它是否真正做出了最优决策。实验结果显示,在规模较小的棋盘上,这类算法往往能够表现良好,看起来似乎已经“掌握”了游戏。然而,当局面变得稍微复杂一些时,情况就开始发生变化。即使经过严格训练,这些代理仍然会出现明显的盲点,在某些关键局面中错过最佳走法。
随着棋盘规模进一步扩大,这种问题变得更加突出。系统的表现不再接近最优策略,而是逐渐滑向近似随机的选择。这一结果暗示,在像Nim这样的公平博弈中,仅依靠对局面模式的学习可能远远不够。游戏的本质其实依赖于一种抽象的数学结构,而不是简单的图像或局面模式。因此,如果人工智能缺乏对这种结构的理解,它在更大规模的问题上就容易失去方向。
那么,这一发现对人工智能玩游戏的研究意味着什么?自我对弈训练的AI已经在许多复杂棋类游戏中展现出惊人的能力,但在某些特殊类型的游戏里,问题会显现出来。尤其是那些双方共享棋子、胜负由抽象算术规则决定的博弈,仅凭从原始局面中学习模式,可能无法稳定地找到真正的最佳策略。
从更广泛的角度来看,这项研究并不是要否定自我对弈人工智能在国际象棋或围棋中的巨大成功。相反,它提供了一种更细致的视角,帮助我们理解这些方法在什么情况下可能遇到困难。研究者认为,如果在学习过程中引入更加抽象的表征方式,或者将不同方法进行混合,或许能够弥补这些弱点,让系统在复杂问题中减少盲区。
伦敦玛丽皇后大学计算机科学讲师Søren Riis博士对此表示,Nim只是一个儿童游戏,而且它的数学解法早已完全明确,但即便如此,类似AlphaZero的自我对弈方法仍然可能在某些局面中失去最佳走法,同时又能保持相当强的竞争力。
他认为,这个现象传达了一个重要信息:在未来的人工智能研究中,仅仅依靠系统在测试中的优秀表现,并不足以证明它已经真正理解了问题背后的基本原理。如果希望减少这些隐藏的盲点,研究人员可能需要发展能够捕捉抽象结构的学习方法,让人工智能不仅会“做题”,还能够理解题目的逻辑。
封面图片:unsplash/Igor Omilaev