人类天生能够推理周围环境中不同物理对象的行为。这些物理推理技能对于解决日常问题非常有价值,因为它们可以帮助我们选择更有效的行动来实现特定目标。
一些计算机科学家一直试图在人工智能(AI)代理中复制这些推理能力,以提高他们在特定任务上的表现。然而,到目前为止,一直缺乏一种可靠的方法来训练和评估人工智能算法的物理推理能力。
Cheng Xue,Vimukthini Pinto,Chathura Gamage及其同事,澳大利亚国立大学的一组研究人员最近推出了Phy-Q,这是一种旨在填补文献空白的新测试平台。他们的测试平台在《自然机器智能》(Nature Machine Intelligence)的一篇论文中介绍,包括一系列专门评估AI代理物理推理能力的场景。
“物理推理是人工智能代理在现实世界中运行的重要能力,我们意识到没有全面的测试平台和评估人工智能代理物理推理智能的措施,”平托告诉Tech Xplore。“我们的主要目标是引入一个代理友好的测试平台以及物理推理智能措施,评估最先进的AI代理以及人类的物理推理能力,并为AIBIRDS竞赛中的代理提供指导,AIBIRDS竞赛是在IJCAI举行的由Jochen Renz教授组织的长期物理推理竞赛。
Phy-Q 测试平台由 15 种不同的物理推理场景组成,这些场景从婴儿获得身体推理能力的情况和机器人可能需要使用这些能力的真实实例中汲取灵感。对于每种情况,研究人员都创建了几个所谓的“任务模板”,这些模块使他们能够在本地和更广泛的环境中衡量AI代理技能的普遍性。他们的测试平台总共包括 75 个任务模板。
“通过局部泛化,我们评估代理在给定任务模板内泛化的能力,通过广泛泛化,我们评估代理在给定场景中不同任务模板之间泛化的能力,”Gamage 解释道。“此外,结合15个物理场景中的广泛泛化性能,我们测量了Phy-Q,即物理推理商,这是受人类智商启发的衡量标准。
研究人员通过使用测试平台运行一系列AI代理评估来证明其测试平台的有效性。这些测试的结果表明,人工智能代理的物理推理技能仍然远不如人类能力进化,因此在这方面仍有很大的改进空间。
“从这项研究中,我们看到人工智能系统的物理推理能力远远低于人类的能力水平,”薛说。“此外,我们的评估表明,具有良好局部泛化能力的代理难以学习潜在的物理推理规则,并且无法广泛泛化。我们现在邀请其他研究人员使用Phy-Q测试平台来开发他们的物理推理AI系统。
Phy-Q测试平台很快就会被世界各地的研究人员用来系统地评估他们的人工智能模型在一系列物理场景中的物理推理能力。这反过来可以帮助开发人员确定其模型的优势和劣势,以便他们可以相应地改进它们。
在接下来的研究中,作者计划将他们的物理推理测试平台与开放世界的学习方法相结合。后者是一个新兴的研究领域,专注于提高人工智能代理和机器人适应新情况的能力。
“在现实世界中,我们不断遇到我们以前从未遇到过的新情况,作为人类,我们有能力成功地适应这些新情况,”作者补充说。“同样,对于在现实世界中运作的代理来说,除了物理推理能力外,拥有检测和适应新情况的能力至关重要。因此,我们未来的研究将侧重于促进人工智能代理的发展,这些代理可以在不同的新情况下执行物理推理任务。