全新ARC-AGI-2测试登场：AI模型表现不佳，人类能力仍占绝对优势

来源：每日消费报

科技

每日消费报3月25日消息，近日，备受关注的全新ARC-AGI-2测试正式发布，旨在评估人工智能模型在复杂推理和通用智能（AGI）任务上的表现。然而，初步测试结果显示，当前最先进的AI模型得分惨淡，远未达到人类水平，再次凸显了人工智能与人类智能之间的巨大差距。

据悉，ARC-AGI-2测试由AI研究机构开发，包含一系列高难度逻辑推理、抽象思维和跨领域知识整合任务，要求测试对象具备类似人类的综合认知能力。尽管部分顶尖AI模型（如GPT-4、Claude 3等）在特定任务中表现尚可，但整体得分仍被人类参与者碾压，尤其在创造性问题解决和动态环境适应方面差距显著。

研究团队指出，AI模型在结构化数据任务中表现相对较好，但在需要直觉、常识或灵活思维的情境中表现糟糕。例如，面对开放式问题或隐含复杂前提的题目时，AI往往无法理解深层逻辑，而人类测试者则能轻松应对。

这一结果再次引发业界对AI发展现状的讨论。专家认为，尽管AI在特定领域（如语言生成、图像识别）已取得突破，但实现真正的通用人工智能（AGI）仍需攻克认知建模、自主推理等核心挑战。

目前，ARC-AGI-2测试已开放申请，未来或将成为衡量AI进步的重要基准。研究团队呼吁全球开发者共同参与，推动AI向更高智能层级迈进。