人类终极考验的艰巨性：一项多维度剖析

I. 引言：解构“人类最后的测试”

核心问题在于，这些终极挑战为何如此艰巨？此疑问触及的不仅是技术层面的复杂性，更牵涉到深层次的哲学、伦理乃至精神维度。将人类面临的严峻局面比喻为一场“最后的测试”，这一隐喻本身便蕴含着多重解读，每一种解读都揭示了其艰巨性的不同侧面。

多元隐喻的探索：神学、哲学与当代技术框架

神学诠释

“最后测试”的概念常带有末世论的色彩，关乎人类的终极命运和神圣审判 ¹。末世论（eschatology）被定义为对“最终事物”的研究，包括最后的审判和上帝对造物目标的实现 ¹。相关主题涵盖审判日、弥赛亚的期望以及苦难作为信仰的考验等 ²。

一种独特的神学观点认为，氢弹的出现是宇宙对人类偏离精神轨道的“纠偏”，堪比《圣经》中洪水或巴别塔式的神之介入；而人工智能（AI）则可能代表人类宇宙重新校准的下一阶段，成为“最后的测试或最后的导师” ³。这种观点将重大的技术里程碑重新定义为神学事件，标志着人类能力与绝对后果的交汇点 ³。

这些神学诠释凸显了人类一种根深蒂固的倾向，即从终极意义和道德责任的视角来构建对深刻挑战的理解。在此框架下，“测试”的艰巨性源于在物种层面上进行精神或道德层面彻底革新的感知需求。

哲学探究

哲学家们致力于探索人类未知的未来以及我们应对未来的能力。例如，贝尔纳多·卡斯特鲁普（Bernardo Kastrup）指出，西方主流哲学中将自我凌驾于自然之上、视其为个体副产品的贫乏观念，是人类面临的核心挑战之一 ⁴。因此，这场“测试”变成了重新理解人类在宇宙中位置的考验。其艰巨性在于，这种当前流行的“贫乏哲学”已根深蒂固。

亨利·柏格森（Henri Bergson）曾言：“人类呻吟着，被自身进步的重负压得半死。人们没有充分认识到，他们的未来掌握在自己手中” ⁴。这精辟地概括了哲学层面“测试”的内涵——在自我造成的挑战面前，人类能动性和责任感的考验。其艰巨性在于有效认识并运用这种能动性。

此外，“总体工作”（total work）将人异化为纯粹“工人”的观点，揭示了另一重哲学挑战：在功利之外重拾生命意义，考验人类能否摆脱一种将意义等同于无休止的活动与生产的自我施加的生存焦虑 ³。

哲学视角将“测试”构建为对自我意识、智慧以及直面固有范式缺陷的勇气的考验。其艰巨性内在于集体反思和范式转换的挑战本身。

当代技术框架（例如，作为“人类最后考试”的AI）

“人类最后考试”（Humanity's Last Exam, HLE）是一项真实存在且雄心勃勃的AI基准测试，旨在评判AI能否达到或超越人类水平的推理、创造力和伦理判断能力 ⁶。它被描述为“同类中最终的封闭式学术基准测试” ⁷。

这项针对AI的“测试”难度极大：目前顶尖的AI模型得分仅为个位数或较低的两位数，在深度推理、多模态理解和处理新颖问题方面表现不佳，这与它们在旧有基准测试中超过90%的准确率形成鲜明对比 ⁶。HLE旨在通过隐藏部分难题和侧重真实专家级问题解决（而非记忆复述）来减少被“应试”的可能性 ⁶。它还要求模型给出置信度，以惩罚“幻觉”式的回答 ⁹。

虽然HLE是针对AI的测试，但其名称和目标反映了社会对AI发展轨迹的广泛忧虑。如果AI代表着对人类的“最后测试”（正如一些观点所推测 ³），那么HLE在评估AI真实能力方面的困难，则突显了人类在理解、管理和引导这项强大技术方面面临的深刻挑战。对人类而言，其艰巨性在于设计出能够真正衡量关键能力的“测试”，并坦然面对测试结果——无论结果是AI超越人类，还是其发展速度超出我们的掌控。

“最后测试”隐喻的局限性

尽管“最后测试”这一隐喻富有启发性，但也可能造成误导。复杂的全球性挑战通常并非具有明确“通过/失败”结果的单一事件，而是需要持续适应的长期过程 ¹⁰。隐喻能够塑造理解，但也可能催生“想当然且应受质疑的假设” ¹⁰。例如，“测试”可能暗示存在外部评判者或明确的终点，这或许不适用于自我引发的存在风险或持续的地球管理。

因此，批判性地使用此隐喻至关重要。如果我们通过过度简化的框架来错误描述人类挑战的本质，其“艰巨性”将进一步加剧。本报告将以此隐喻为起点，但会进一步探讨更为精细的理解框架。

从不同角度审视“人类最后的测试”，可以发现神学、哲学和技术层面的诠释，虽各有侧重，却共同指向一个人类文明的关键转折点，要求深刻的变革或适应。其“艰巨性”因此是多层次的，分别源于精神失调（神学层面）、错误的自我认知（哲学层面）以及新兴工具的空前力量（技术层面）。将当前全球挑战构建为“最后测试”的倾向，本身也反映了社会对其未来以及管理复杂系统和强大技术能力的深层焦虑，这种焦虑感亦会放大挑战的难度。更进一步，此隐喻是一把双刃剑：它既能警示世人，强调紧迫性，但也可能因其过度简化（如“通过/失败”的二元论，或预设明确终点）而妨碍我们采用更适宜的、长期的、适应性的管理策略来应对持续演变的复杂全球问题 ¹⁰。因此，挑战的艰巨性部分源于我们如何构建和理解这些挑战。

表1： “人类最后的测试”的不同诠释

解读视角	核心理念/案例	此视角下“艰巨性”的主要来源
神学诠释	神圣纠偏/AI作为导师 ³；末世论、最终审判 ¹	实现物种层面的精神与道德重校的需求
技术基准测试	HLE AI基准测试 ⁶	AI在复杂推理、伦理判断上达到或超越人类水平的难度；人类理解、控制和引导AI的挑战
存在风险的隐喻	气候变化、AI、流行病等构成对人类生存的考验 ¹¹	威胁的空前规模、复杂性和潜在的不可逆转性
哲学挑战	在自然中重新认识自我 ⁴；克服自身进步带来的重负，实现能动性 ⁴；摆脱“总体工作”的异化，重拾生命意义 ⁵	克服根深蒂固的错误哲学前提；实现集体性的深刻自省和范式转换

此表格清晰地展示了“最后测试”概念的多面性，为后续深入探讨奠定了基础。它表明，对于“人类最后的测试为何如此艰难”这一问题，并不存在单一答案，因为“测试”本身在不同语境下具有迥异的含义。

II. 内在困境：21世纪全球挑战的本质

人类“测试”之所以如此艰难，一个重要原因在于这些挑战本身的固有特性——它们在性质上与许多历史性危机存在显著差异，且更为严峻。

A. 空前的规模、复杂性与相互关联性

存在风险与全球灾难性风险（GCRs）的界定

存在风险（Existential risks）是指可能导致人类过早灭绝，或永久性、灾难性地摧毁人类未来理想发展潜力的威胁 ¹²。此定义意味着，即使人类得以幸存，但若发展潜力遭到不可逆转的重创，亦属存在灾难。未来所系之重，使得降低此类风险具有无可估量的价值 ¹²。全球灾难性风险（Global Catastrophic Risks, GCRs）则指可能导致全球相当一部分人口（例如十分之一）死亡或造成同等规模损害的风险 ¹⁶。

与历史上人类遭遇的自然灾害相比，这些风险往往是人为造成的（anthropogenic），这是一个相对较新的现象 ¹²。例如，核武器的发明首次赋予了人类自我毁灭的实际能力 ¹³。存在风险的巨大规模和终极性使其应对起来异常困难。一旦失误导致灭绝，便没有“试错学习”的机会。其艰巨性在于，人类需要理解并采取行动来应对可能终结一切的威胁。

“棘手问题”的概念

许多全球性挑战属于“棘手问题”（wicked problems）：由于信息不完整、要求相互矛盾且不断变化（这些要求往往难以识别），导致此类问题极难甚至无法解决 ¹⁷。它们抗拒传统的、线性的、按部就班的解决方案 ¹⁸。

其特征包括 ¹⁷：

问题没有明确的表述方式；往往在提出解决方案之后才能理解问题本身。
没有“停止规则”（即问题永远无法被明确地“解决”）。
解决方案只有“更好或更差”之分，而非“正确或错误”。
对解决方案没有即时或最终的检验标准。
每一个解决方案都是“一次性操作”；每一次尝试都至关重要。
不存在可枚举的或可详尽描述的潜在解决方案集。
每一个棘手问题本质上都是独特的。
每一个棘手问题都可能是另一个问题的表征。
利益相关者持有截然不同的世界观和问题框架。
约束条件和可用资源随时间而变化。

气候变化、大规模流行病、核武器、社会不公等均为此类问题的实例 ¹⁷。可持续性挑战是典型的棘手问题 ¹⁸。“超级棘手问题”（super wicked problems），如气候变化，还具有额外的特征：解决问题的时间期限严格；缺乏中央权威机构；造成问题的人同时也是试图解决问题的人；以及某些政策会非理性地阻碍未来进展 ¹⁷。

这意味着这些“测试”没有标准答案。其艰巨性在于它们对解决方案的固有抗拒性、目标不断变化以及无法明确判断所选路径是否“正确”。

系统性风险与相互关联性

现代全球风险通常具有系统性，跨越多个国家、经济部门以及自然、技术和社会系统 ¹⁹。由于“指数级加速、多系统、全球互联的风险”，我们的文明正走向系统性失稳 ¹⁹。这些风险的特征是高度相互关联、具有级联效应、可能产生意外后果、因非线性而存在巨大不确定性、具有路径依赖和惯性 ¹⁶。

“复合型危机”（polycrisis）的概念指出，多个全球系统中的危机相互交织，其造成的危害大于单个危机危害的总和 ¹⁹。“过度消耗”（overshoot），即人类对地球再生能力的需求超出了其承载力，是复合型危机的根源之一 ¹⁹。

这种相互关联性意味着，试图解决问题的某一部分可能无意中使另一部分恶化。其“艰巨性”在于管理一个紧密耦合的全球系统，其中局部行动可能产生遥远且不可预见的全球性后果，不存在孤立的“测试对象”。

B. 新颖性、不确定性与速度带来的挑战

快速的技术演进与不可预见的冲击

人工智能和生物技术等技术正以前所未有的速度发展，其发展速度往往超越了治理能力和对其长期后果的理解 ¹¹。历史上，新兴技术的风险通常小于其益处，但“情况已不再如此” ¹⁵。例如，人工智能可能失控，对人类造成不可预见的灾难性后果 ²¹。兰德公司的分析表明，人工智能确实可能通过设计病原体或利用强效温室气体改变极端气候而导致人类灭绝，尽管这需要AI克服诸多重大限制，如获得对物理系统的控制权和说服人类提供协助 ¹¹。

我们正受到自身创造但尚未完全理解或控制的力量的“考验”。其艰巨性源于这种固有的不可预测性，以及我们自身的创造物可能构成存在威胁的潜力。

普遍存在的科学未知与建模困境

许多新兴风险涉及重大的“科学未知”（包括“已知的未知”和“未知的未知”），这阻碍了对可能性和影响的准确评估 ²⁰。气候或大规模流行病等复杂系统尚未被完全理解，使得精确建模和预测变得困难 ¹⁶，对于史无前例的人为风险尤其如此。

围绕AI风险的“注意力分散假说”之争（即关注存在风险是否会分散对当前具体危害的注意力）²¹，本身就凸显了专家之间就风险性质和优先级的意见分歧（存在风险vs.即时风险）。尽管存在风险叙事未必会分散对AI即时危害的关注，但这场争论本身就突出了不确定性。

我们正在参加一场许多问题模棱两可、“评分标准”未知的“测试”。其艰巨性在于，在充满深刻不确定性和专家意见分歧的条件下做出关键决策。

综合来看，棘手问题的特性（模糊性、无明确解决方案、相互关联）在应用于存在风险时，其危险性会呈指数级增长。如果解决存在性棘手问题的“一次性操作”失败，则没有挽回的余地。这意味着其难度不仅在于找到一个解决方案，更在于对一个事先无法完全了解其参数的问题，几乎不可能要求一次性成功的解决方案。

此外，许多现代全球灾难性风险是人为造成的，这一事实造成了心理和伦理上的双重困境：我们既是自身潜在毁灭的设计者，也是唯一能够避免毁灭的人。这种自我牵连使得“测试”更加艰难，因为它涉及到直面我们自身的缺陷、偏见和系统性功能障碍，而非应对一个外部的、公正的威胁。这与第一部分中关于人类偏离精神轨道 ³ 或哲学上对自我认知的缺陷 ⁴ 的观点相呼应。

最后，技术变革的加速（如 ¹⁵ 所述）持续超越社会适应和治理的步伐。这并非某个单一技术的问题，而是21世纪的一个系统性特征，使得任何由技术驱动的“测试”都天然困难，因为我们总是准备不足。这意味着一种根本性的、结构性的困难：我们的创新系统比我们的智慧/治理系统更快、更敏捷。因此，新的“测试”将不断涌现，而我们尚未充分准备或理解它们。这种艰巨性已融入我们当前文明的新陈代谢之中。

III. 人为因素：我们为何难以有效应对

本部分将焦点从挑战的本质转向人类自身及其系统的本质，论证许多困难是自我施加的，或是由于我们固有的局限性和集体行为而加剧的。

A. 认知结构与心理障碍

短期主义的普遍影响与长期战略思维的必要性之间的矛盾

短期主义（short-termism）优先考虑即时财务回报和季度业绩，而非长期增长、可持续性和创新 ²⁵。这受到投资者压力和技术放大的即时满足文化的驱动 ²⁵。它导致研发投入减少、以牺牲可持续性为代价削减成本以及市场不稳定 ²⁵。在个体、组织和制度层面，短期主义和不确定性规避导致对气候变化等长期问题的不作为 ²⁶。组织推迟解决长期利益问题，转而寻求立竿见影的成果 ²⁶。

存在风险本质上是长期问题。我们认知和系统上对短期的偏好，使得为缓解这些遥远但巨大的威胁投入足够资源变得异常困难。“测试”要求我们运用难以实践的远见。

固有认知偏见对判断的蒙蔽

诸如缺乏显著性（低估史无前例的威胁）、范围忽视（对巨大数字麻木不仁）和可得性启发（根据回忆的难易程度判断重要性）等认知偏见，导致对存在风险的低估 ¹²。在危机（许多全球挑战即是危机）中，高风险、有限资源和认知负荷会放大认知偏见。确认偏误（寻找证实先前信念的信息）尤为突出，导致依赖有偏见的数据并抵制纠正性信息 ²⁷。

我们的大脑并非天生就能准确感知和应对低概率、高影响、史无前例的全球威胁。其“艰巨性”在于，我们进化而来的认知工具包在这些“测试”中往往是障碍而非助力。

对存在威胁的复杂心理反应：焦虑、否认、道德困境与行动呼吁

气候变化等存在威胁在青年群体中引发了紧迫感、道德责任感和焦虑感，从而激励了集体行动 ²⁸。恐怖管理理论（Terror Management Theory, TMT）认为，对死亡的警觉（来自恐怖主义、流行病等）会触发世界观防御和与自尊相关的行为 ²⁹，这可能导致不容忍度增加、偏见以及各种行为反应。生态焦虑（eco-anxiety）和生态悲痛（ecological grief）是对环境危机的反应，可能导致行动、悲伤或疏远（否认/回避）等应对机制 ³⁰。不当地强调灾难性影响会引发对死亡的警觉，反而可能导致破坏环境的防御行为 ³⁰。

“测试”本身会产生可能不利于解决问题的心理反应。恐惧和焦虑可以激励行动，但也可能导致否认、瘫痪或非理性行为，使集体、理性的问题解决更加困难。

B. 伦理迷宫与价值冲突

在全球伦理共识和价值观统一方面存在的深层困难

关于终极人类价值观存在深刻而持久的分歧，这使得为人工智能的价值对齐 ³¹ 或更广泛的全球政策确定这些价值观变得困难。不同社会对透明度、问责制和隐私等问题的看法各异，这些看法受到其独特的历史和信仰体系的影响，从而使全球人工智能治理复杂化 ³²。人工智能伦理框架在环境影响、人类心理、不平等、民主和金融体系影响等方面存在差距 ³³，这些差距阻碍了负责任的发展和全球治理。一项研究 ²¹ 表明，即使关于存在风险的叙事没有分散对人工智能即时危害的注意力，关于人工智能风险的性质和范围仍然存在重大争议，这表明缺乏共识。

许多全球性“测试”需要协调一致的全球行动，而没有一定程度的共同伦理理解或至少是商定的操作原则，这几乎是不可能的。其艰巨性在于弥合这些根本性的价值鸿沟。

代际伦理的重负：对未来无声世代的道德义务

代际伦理（intergenerational ethics）考虑到鉴于气候变化等问题的长期性，当代人对后代在环境可持续性方面的道德义务 ³⁴。当代人对未来的不对称影响产生了这种责任 ³⁴。挑战包括“非同一性问题”、未来需求的不确定性、义务范围的界定以及平衡当前需求与未来福祉 ³⁴。一些人甚至怀疑代际关系是否可以用道德术语来评价 ³⁴。汉斯·乔纳斯（Hans Jonas）提出的责任条件（能动性、控制力、预见性）与此相关 ³⁵。

这场“测试”不仅关乎我们自身的生存，也关乎无数后代的生存和繁荣。其艰巨性在于，为那些无法为自己辩护的人的利益而激励代价高昂的当前行动。

利益冲突、“非道德漂移”以及人工智能等关键领域公益使命的侵蚀

来自逐利“超级利益相关者”（如员工、大型科技投资者）的压力可能导致人工智能发展出现“非道德漂移”（amoral drift），优先考虑快速部署而非安全和伦理 ³⁶。这侵蚀了公益使命，削弱了内部制衡，使人工智能成为更严峻的全球挑战 ³⁶。国家政府、地方政府和企业之间的利益冲突也阻碍了政策执行，例如在环境监管方面 ³⁷。

管理强大技术或全球公域的“测试”，因开发或利用者受到与更广泛的社会福祉或长期安全相冲突的狭隘自身利益或利润动机的驱动而变得更加艰难。

C. 系统惯性与制度缺陷

“公地悲剧”在地球范围内的放大

个体出于自身利益行事，耗尽共享资源（例如咖啡、渔业、地下水、交通拥堵造成的清洁空气）³⁸。当短期个人目标与集体长期利益冲突时，就会发生这种情况 ³⁹。解决方案包括寻找可持续的替代方案，通过激励/惩罚措施防止过度消费，以及制度安排 ³⁸。哈丁（Hardin）指出这是一个“没有技术解决方案”的问题，需要道德变革 ³⁹。

许多全球性“测试”涉及管理共享的全球资源（如大气、生物多样性）。其艰巨性在于克服那种即使导致集体毁灭也激励个体过度开发的内在逻辑。

全球治理、国际合作和执行机制的长期失灵

全球社会往往缺乏有效管理系统性风险所需的凝聚力、长期承诺、结构和能力 ¹⁹。弱点包括政策僵局、目标模糊、规划不足、目标冲突和资金依赖 ¹⁹。在人工智能治理方面的国际合作面临着来自不同国家目标、文化视角和人工智能快速发展步伐的挑战 ³²。统一监管可能不如尊重多样性的可互操作框架有效 ⁴⁰。气候变化和全球健康合作的障碍包括协议执行不力、其他危机优先以及可感知的经济成本 ⁴¹。当前的治理结构往往不适应存在风险，它们行动迟缓、被动应对，并且侧重于具体的、短期的国家问题，而不是广泛的、长期的全球风险 ¹⁵。

全球问题需要全球解决方案。其“艰巨性”在于我们的全球合作机制往往不足、支离破碎，并且无法有效执行集体行动。

持续存在的“执行鸿沟”：知晓解决方案与有效实施之间的鸿沟

气候变化方面存在“执行赤字”（implementation deficit），即国家自主贡献（NDCs）不足，尽管有《巴黎协定》的目标，排放量仍在继续上升 ⁴²。这与主流经济框架优先考虑增长和低估生态极限有关。在冲突/脆弱地区，气候行动的执行鸿沟是由于社会基础薄弱、发展赤字和冲突动态造成的 ⁴³。对于微生物威胁（例如在伊朗），政策执行受到治理碎片化、缺乏透明度、利益相关者参与薄弱、利益冲突以及行政官僚机构和资源问题等各种系统性障碍的阻碍 ⁴⁴。

即使解决方案或路径已知，“测试”仍然困难，因为存在将知识付诸有效实践的系统性障碍。困难往往不在于知识鸿沟，而在于行动鸿沟。

认知、伦理和制度因素并非孤立存在，而是相互作用，形成了一张阻碍行动或导致行动无效的强大网络。例如，短期主义（认知层面）受到关注选举周期的政治体制（制度层面）和优先考虑季度利润的经济模式（系统/伦理层面）的强化，这使得解决长期的代际伦理义务变得异常困难。这种协同失能（synergistic dysfunction）是造成当前困境的一个重要原因。

一个反复出现的主题并非必然缺乏对问题或潜在解决方案的认知，而是在有效实施这些方案方面的严重失败（即“执行鸿沟”或“行动赤字”）。这表明，“测试”更多地关乎集体意愿、协调能力以及克服既得利益和系统惯性的能力，而非智力水平。

对存在威胁的心理反应（焦虑、恐惧）既可能成为行动的催化剂 ²⁸，但也可能触发适应不良的应对机制，如否认、世界观防御，甚至在死亡警觉未能得到妥善管理时导致对环境有害的行为 ²⁹。这使得“测试”更加艰难，因为对风险本身的意识就可能削弱理性应对。

表2：使“人类最后的测试”复杂化的关键人为和系统性因素

因素类别	具体因素	对解决全球挑战的典型影响	相关文献片段
认知与心理	短期主义；范围忽视；认知偏见；对存在威胁的复杂心理反应（焦虑、否认等）	对长期风险投资不足；无法把握威胁规模；非理性决策；应对机制可能适得其反	¹²
伦理与价值观	缺乏伦理共识；代际不平等；利益冲突；“非道德漂移”	因价值观冲突导致政策瘫痪；漠视后代福祉；利润优先于安全；公益使命受侵蚀	²¹
系统与制度	公地悲剧；治理赤字；国际合作失灵；执行鸿沟	共享资源过度开发；国际协调不力；已知解决方案无法有效实施	¹⁹

此表格系统地归纳了导致这些重大挑战如此艰巨的各种以人为中心的因素，将具体的心理、伦理和制度缺陷与其对我们解决全球问题能力的负面影响直接联系起来，从而从多个人为中心角度回答了“为何如此艰难”的问题。

IV. 案例研究：人工智能——人类“测试”的缩影

本部分将以人工智能（AI）为例，具体阐释前述诸多抽象困境，使“测试”更具象化。

AI的双重性：巨大的潜能与严峻的存在风险并存

AI被视为潜在的“人类宇宙重新校准的下一阶段”，一种用于洞察而非统治的工具，但也可能成为人类的“最后测试” ³。它既有加速混乱（偏见、分裂、监控）的潜力，若与良知结合，亦有助人类重新对齐秩序 ³。学界普遍认同AI带来重大风险，但在风险的性质和范围上（存在风险抑或即时风险）存在激烈争议 ²¹。数百名AI研究人员视人类灭绝为AI发展的可能后果，并呼吁将缓解此风险列为与防范大规模流行病和核战争同等级别的全球优先事项 ¹¹。兰德公司的分析指出，AI可能通过工程病原体或极端气候改造导致人类灭绝，尽管这需要AI克服获取物理系统控制权和说服人类协助等重大障碍 ¹¹。

AI集中体现了强大新兴技术的两用性高风险特征。“测试”在于人类能否在利用其益处的同时规避灾难性弊端，而AI快速、自主发展的潜力则放大了这一难度。

“人类最后考试”（HLE）基准：对AI能力的严格检验，揭示其在复杂推理和伦理判断方面的局限

HLE是一个多模态（文本和图像）基准测试，包含横跨众多学科的3000个专家级问题，被设计为“同类中最终的封闭式学术基准测试” ⁶。其问题由全球近千名专家众包提供，旨在模拟真实的专家级问题解决，而非简单的事实复述 ⁶。最难的问题对公众数据集保密，以防止通过针对性训练模型来“应试” ⁶。

目前领先的AI模型（如GPT-4o, Grok-2）在HLE上表现不佳（得分低于4%或仅为较低的两位数），在深度推理、多模态理解、数学问题和抽象概念方面存在困难，这与它们在MMLU等旧基准测试中超过90%的准确率形成鲜明对比 ⁶。HLE要求AI为每个答案提供置信度（0-100%），以评估其校准水平并惩罚自信的“幻觉” ⁹。

HLE对AI的难度，凸显了当前AI与真正专家级人类水平之间的差距。这反过来强调了人类在开发真正智能、可靠且值得信赖的AI（尤其是在高风险领域）方面面临的挑战。如果我们甚至无法可靠地衡量AI的真实能力和局限性，那么创造有益AI的“测试”就更加艰难。HLE旨在为AI发展设定一个新的、更负责任的标准 ⁶。

AI带来的错综复杂的伦理与治理挑战：对齐、偏见、控制、责任及“非道德漂移”风险

对齐（Alignment）：一个核心问题是“AI对齐”，即确保AI的价值观与人类价值观一致 ³¹。其困难在于：明确人类价值观（存在深刻分歧）；确保AI习得这些价值观（难以验证）；以及意外后果（AI以有害方式追求善意目标）³¹。
偏见（Bias）：AI可能从训练数据中学习并反映人类的种族和性别偏见 ³⁶。偏见的来源包括输入数据、处理算法和输出部署 ³¹。
控制与存在风险（Control & Existential Risk）：先进AI可能脱离人类控制，导致灾难性后果 ²¹。机器学习研究者对“p(doom)”（AI导致灾难的概率）的估计凸显了这种担忧 ²¹。
责任与问责（Responsibility & Accountability）：AI对现有的法律/社会责任框架构成挑战 ³⁶。在为AI行为分配责任的伦理框架方面存在空白 ³³。
非道德漂移（Amoral Drift）：来自逐利相关方的压力可能导致AI公司放弃公益使命和安全考量，转而追求快速商业化 ³⁶。
超越伦理的哲学挑战（Philosophical Challenges Beyond Ethics）：AI还对认识论（知识的构成）和本体论（AI如何表征现实）提出挑战，这影响着价值创造和全球治理 ⁴⁵。
治理差距（Governance Gaps）：当前治理框架往往不足以应对AI的快速发展和独特风险 ¹⁵。挑战包括实现国际合作、跟上技术步伐以及平衡创新与安全 ³²。

这些多方面的挑战使得治理AI成为一项异常艰难的“测试”。它需要在技术对齐、伦理共识构建、稳健治理设计以及克服可能与安全相冲突的强大经济激励方面取得突破。

AI在HLE（一个由人类设计的测试）上遇到的困难，讽刺地反映了人类自身在定义和评估复杂推理、伦理判断和“理解”等能力方面的局限性。针对AI的“测试”揭示了我们自身在这些关键属性上的认知尚不清晰。

AI同时扮演着多重角色：它是“测试”的对象（HLE），是可能帮助我们解决其他“测试”（如气候变化、疾病）的工具，也是对人类生存和智慧的潜在“测试” ³。这种递归性使得整体挑战异常复杂且难以管理。我们正在试图评估（测试）一种可能从根本上改变我们进行任何未来测试的能力，甚至改变我们生存状态的事物。

AI发展中的“非道德漂移” ³⁶ 并非AI所独有，而是更广泛的系统性问题的体现——短期利润动机和制度压力往往压倒长期安全和伦理考量（呼应第三部分的论述）。AI只是将这种现有功能障碍的风险提到了新的高度。因此，确保AI安全的困难不仅是AI特有的问题，也是人类能否使其强大系统（经济、技术）与集体福祉和长期生存保持一致这一更深层、更普遍“测试”的表征。

V. 穿越迷宫：历史的启示与替代框架

本部分探讨过去的社会挑战能否为我们应对当前的“测试”提供借鉴，并思考超越简单“测试”隐喻的替代性概念框架。

历史的回响：从社会崩溃中汲取关于复杂性、环境压力及适应或失败能力的教训

历史上社会崩溃的常见原因包括自然灾害、气候变化、入侵、饥荒、经济崩溃、疾病、不平等和资源枯竭 ⁴⁷。这些因素往往相互叠加并相互作用 ⁴⁷。例如，青铜时代晚期大崩溃（约公元前1200年）涉及地中海和近东地区的广泛社会衰落，城市被遗弃，书写系统失传，经济萎缩。其原因虽有争议，但包括气候变化（干旱）、战争、内部叛乱和贸易路线中断等 ⁴⁸。

从历史崩溃中可以汲取以下教训 ⁴⁷：

复杂性的脆弱性：社会复杂性的增加可能导致更高的管理成本；当边际回报递减时，崩溃就可能发生（泰恩特理论, Tainter's theory ⁵⁰）。现代全球的相互依存性反映了这种脆弱性。
环境的极限：当社会无法适应环境退化、资源枯竭或气候危机时，往往会走向失败（戴蒙德理论, Diamond's theory ⁵⁰）。这一点与当今的关切高度相关。
适应与转型：崩溃并非总是绝对的终结。新的力量、技术（如青铜时代后的铁器）和文化形式可以从废墟中崛起 ⁴⁸。这突显了人类的韧性和适应能力。
风险的相互关联性：历史上的崩溃很少由单一原因造成，这与现代的“复合型危机”情景相似。

然而，现代存在风险具有其独特性：

现代风险（尤其源于AI、生物技术）是由快速的技术发展驱动的，其速度超过了治理能力 ¹⁵。历史上，技术风险通常小于其益处，但如今已非如此 ¹⁵。
现代风险具有全球影响、代际影响，并可能造成前所未有规模的不可逆转灾难 ¹⁵。
“累积性AI存在风险假说”认为，AI风险可能通过一系列较小的干扰逐渐累积，削弱系统韧性，最终导致灾难性崩溃，这与突发性的“决定性”AI存在风险情景形成对比 ⁵¹。 ⁵¹

历史为我们提供了关于社会脆弱性和适应重要性的警示。然而，现代存在风险的规模、速度和性质（尤其是技术性和人为性）可能使其在性质上与许多过去的危机有所不同，也可能更难应对。今天的“测试”风险更高，且包含许多新颖因素。我们正处于未知领域，过去的“考卷”仅能提供部分指导。

超越“测试”：拥抱适应性管理、复杂系统思维和持续过程，而非单一的成败事件

“最后测试”的隐喻存在局限性：它暗示了成败二元论、终点，以及潜在的外部评判者，这可能不适用于复杂、持续的全球问题 ¹⁰。

适应性管理（Adaptive Management）：将政策视为假设，强调从经验中学习并迭代修改行动。它承认不确定性和复杂性，将管理视为实验 ⁵⁶。这与单一“测试”形成对比。
复杂系统思维（Complex Systems Thinking）：认识到全球挑战的相互关联性、反馈回路、非线性以及涌现特性。这种方法比线性的“测试”思维更适合解决系统性风险等问题 ¹⁸。
风险的替代性叙事（Alternative Narratives for Risk）：传统的风险评估不足以应对系统性和存在性威胁，因为存在不确定性和复杂性。建议的替代方案包括定性/叙事方法（如讲故事、暖数据实验室）、预防原则、关注边界/临界点，甚至使用超越“风险”一词的新语言 ⁵⁷。

将全球挑战构建为需要持续学习、适应和系统理解的持续过程，而非单一的“最后测试”，可能会带来更具韧性和更有效的长期战略。如此，“艰巨性”则被重新定义为在复杂性面前进行持续、适应性治理的挑战。

历史崩溃虽然提供了关于社会脆弱性的宝贵教训（复杂性、环境因素），但现代存在风险的前所未有性（规模、速度、技术驱动因素）限制了以往解决方案的直接适用性。适应性管理框架提供了一种比“最后测试”隐喻更现实、也可能更成功的应对复杂全球挑战的方法。它内在地承认了持续过程、不确定性以及持续学习的必要性，这对于“棘手问题”和系统性风险至关重要。有关发展一种“新的风险叙事” ⁵⁷，超越传统评估，甚至可能超越“风险”一词本身的建议，意味着我们当前的概念工具和语言可能本身就是问题的一部分。克服这些“测试”的“艰巨性”，可能首先需要我们在如何谈论、思考和构建它们方面发生根本性的转变。

VI. 结论：挑战的持久性与智慧的必要性

综合本报告的分析，人类“最后测试”的艰巨性源于多方面因素的交织。这些挑战不仅因其固有的规模、复杂性、新颖性和相互关联性而显得异常棘手——许多属于“棘手问题”、系统性风险和存在风险的范畴——而且还因深刻的人为因素而进一步复杂化。这些因素包括认知偏见（如短期主义）、伦理困境（如价值冲突和代际责任）、制度缺陷（如治理失灵和公地悲剧）以及普遍存在的“执行鸿沟”。

深远的利害关系：失败的后果与未来潜能的丧失

这些“测试”的利害关系是深远的。存在风险不仅威胁到当代人口，更危及人类的整个未来，包括难以估量的潜在价值的丧失 ¹²。失败可能意味着过早灭绝或文明不可逆转的崩溃，即“理想未来发展潜力的灾难性毁灭” ¹²。科幻作品常常描绘这些严峻的场景——文明崩溃、地球不再宜居，或一个没有人类的世界 ⁶⁰。

最终的艰巨性在于，所系之重几乎超乎想象。这既可能令人麻痹，也可能成为深刻的激励。

对智慧的呼唤：加强全球合作、伦理远见与长期管护的承诺

面对如此艰巨的挑战，人类并非束手无策。正如氢弹的出现揭示了当人类拥有“无限手段却没有无限责任”时危机便会降临，但也启示“系统亦可重新校准” ³。人工智能被视为这种重新校准的新机遇，若能审慎对待，或可成为“最后的导师” ³。

哲学家如卡斯特鲁普呼吁更深刻地理解我们在自然中的位置 ⁴，柏格森则强调认识到我们自身的能动性 ⁴。这指向了对哲学智慧的需求。解决全球挑战需要克服国际合作的障碍，加强全球治理 ¹⁹。伦理远见涉及处理代际责任 ³⁴ 和实现更广泛的价值对齐 ³¹。即使解决了人工智能对齐问题，一个繁荣的未来仍需要持续的道德反思、稳健的人工智能治理、强大的安全文化，以及解决具体的长期问题 ⁶⁴。

本报告并非意在描绘绝望的前景，而是强调人类可以培养的那些能力——智慧、合作、伦理承诺——来应对这些艰难的考验。挑战虽然艰巨，但若能充分发挥人类的这些积极品质，或许并非不可逾越。

“人类最后的测试”并非单一事件，而更可能是一系列持续的、复杂的、相互关联的挑战。在一个领域取得成功（例如避免核战争）并不意味着“测试”的结束；新的挑战（如人工智能安全或气候临界点）会不断出现。因此，其艰巨性在于培养持久的警惕性和适应能力，从危机应对模式转向一种主动的、适应性的、永续的管护状态。

各种具体的困难——技术上的、认知上的、伦理上的、制度上的——最终都指向集体智慧的匮乏：理解复杂系统、预见长期后果、统一价值观并为共同利益合作行动的能力。终极的“测试”或许在于，人类能否以与其技术力量相称的规模和速度来培养和应用这种智慧。

最后，这些“测试”的利害关系不仅关乎物质层面的生存，也关乎“人性”积极意义的存续——我们理性、共情、合作和道德成长的能力。成功应对这些挑战不仅能确保生存，更可能带来人类物种深刻的转型和成熟。认识到这种转型的潜力，本身也是这项艰巨“测试”的一部分。

Works cited

Unit 11: Eschatology Flashcards | Quizlet, accessed May 17, 2025, https://quizlet.com/ca/816051853/unit-11-eschatology-flash-cards/
Religious Eschatology - Comparative analysis of end-time beliefs, apocalyptic traditions, and ultimate destiny concepts across religions, including judgment day, messianic expectations, and cosmic cycles. | Flashcards World, accessed May 17, 2025, https://flashcards.world/flashcards/sets/ae8e9172-20b2-47a1-9363-ea673a181066/
(PDF) Thermonuclear Revelation: Humanity's Detour, Divine ..., accessed May 17, 2025, https://www.researchgate.net/publication/390729209_Thermonuclear_Revelation_Humanity's_Detour_Divine_Correction_and_the_Hope_of_AI
9 Philosophers on Humanity's Uncertain Future » IAI TV, accessed May 17, 2025, https://iai.tv/articles/world-philosophy-day-nine-philosophers-on-humanitys-unknown-future-auid-3005
Total Work: How Humans were Transformed into Workers - Sloww, accessed May 17, 2025, https://www.sloww.co/total-work/
Humanity's Last Exam Explained – The ultimate AI benchmark that sets the tone of our AI future - Digit, accessed May 17, 2025, https://www.digit.in/features/general/humanitys-last-exam-explained-the-ultimate-ai-benchmark-that-sets-the-tone-of-our-ai-future.html
(PDF) Humanity's Last Exam - ResearchGate, accessed May 17, 2025, https://www.researchgate.net/publication/388375765_Humanity's_Last_Exam
Humanity's Last Exam - arXiv, accessed May 17, 2025, https://arxiv.org/html/2501.14249v1
Humanity's Last Exam for a rigorous assessment of AI progress - Telefónica Tech, accessed May 17, 2025, https://telefonicatech.com/en/blog/humanitys-last-exam-for-a-rigorous-assessment-of-ai-advances
The value and limitations of using metaphors in research | Request ..., accessed May 17, 2025, https://www.researchgate.net/publication/331438111_The_value_and_limitations_of_using_metaphors_in_research
Could AI Really Kill Off Humans? | RAND, accessed May 17, 2025, https://www.rand.org/pubs/commentary/2025/05/could-ai-really-kill-off-humans.html
www.fhi.ox.ac.uk, accessed May 17, 2025, https://www.fhi.ox.ac.uk/wp-content/uploads/Existential-Risks-2017-01-23.pdf
Existential Risk - Future of Humanity Institute, accessed May 17, 2025, https://www.fhi.ox.ac.uk/wp-content/uploads/Existential-Risks-2017-01-23.pdf?ref=drishtikone.com
Existential Risks — Globaïa, accessed May 17, 2025, https://globaia.org/risks
Existential Risk and Rapid Technological Change - UNDRR, accessed May 17, 2025, https://www.undrr.org/media/86500/download?startDownload=true
globalchallenges.org, accessed May 17, 2025, https://globalchallenges.org/app/uploads/2023/06/Global-Catastrophic-Risks-2016.pdf
Wicked problem - Wikipedia, accessed May 17, 2025, https://en.wikipedia.org/wiki/Wicked_problem
WICKED PROBLEMS AND THEIR RESOLUTION - Kendall Hunt Publishing, accessed May 17, 2025, https://he.kendallhunt.com/sites/default/files/uploadedFiles/Kendall_Hunt/Content/Higher_Education/Uploads/Remington_Doucette_1e_Ch2.pdf
Towards the Governance of Global Systemic Risk in - Brill, accessed May 17, 2025, https://brill.com/view/journals/gg/31/2/article-p113_1.xml
irgc.org, accessed May 17, 2025, https://irgc.org/wp-content/uploads/2018/09/irgc_ER_final_07jan_web.pdf
Existential risk narratives about AI do not distract from its immediate harms - PNAS, accessed May 17, 2025, https://www.pnas.org/doi/10.1073/pnas.2419055122
www.rand.org, accessed May 17, 2025, https://www.rand.org/content/dam/rand/pubs/research_reports/RRA2900/RRA2981-1/RAND_RRA2981-1.chapter7.pdf
Thematic Study: Existential risk and rapid technological change ..., accessed May 17, 2025, https://www.undrr.org/publication/thematic-study-existential-risk-and-rapid-technological-change-advancing-risk-informed
Table of Contents — April 22, 2025, 122 (16) | PNAS, accessed May 17, 2025, https://www.pnas.org/toc/pnas/122/16
Why is Short-Termism a Problem? - Greenly, accessed May 17, 2025, https://greenly.earth/en-gb/blog/ecology-news/why-is-short-termism-a-problem
The Role of Short-Termism and Uncertainty Avoidance in ..., accessed May 17, 2025, https://www.researchgate.net/publication/261031589_The_Role_of_Short-Termism_and_Uncertainty_Avoidance_in_Organizational_Inaction_on_Climate_Change
On the Interplay of Data and Cognitive Bias in Crisis Information ..., accessed May 17, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC8938164/
Youth Climate Action → Term - Climate → Sustainability Directory, accessed May 17, 2025, https://climate.sustainability-directory.com/term/youth-climate-action/
In the wake of 9/11: The psychology of terror. | Request PDF, accessed May 17, 2025, https://www.researchgate.net/publication/378154017_In_the_wake_of_911_The_psychology_of_terror
An Eco-Existential Understanding of Time and Psychological ..., accessed May 17, 2025, https://www.researchgate.net/publication/209887888_An_Eco-Existential_Understanding_of_Time_and_Psychological_Defenses_Threats_to_the_Environment_and_Implications_for_Psychotherapy
Module 5 - AI Risk | Ethics & Global Catastrophic Risks, accessed May 17, 2025, https://www.ln.edu.hk/philoso/hkcrc/risk/learning-modules/module5
Stag Hunt in the Digital Wilds: Legitimizing Global AI Governance Amidst Diverse Terrains, accessed May 17, 2025, https://www.researchgate.net/publication/389029788_Stag_Hunt_in_the_Digital_Wilds_Legitimizing_Global_AI_Governance_Amidst_Diverse_Terrains
www.europarl.europa.eu, accessed May 17, 2025, https://www.europarl.europa.eu/RegData/etudes/STUD/2020/634452/EPRS_STU(2020)634452_EN.pdf
Intergenerational ethics | Moral Obligations & Responsibilities ..., accessed May 17, 2025, https://www.britannica.com/topic/intergenerational-ethics
bibliotekanauki.pl, accessed May 17, 2025, https://bibliotekanauki.pl/articles/903429.pdf
Amoral Drift in AI Corporate Governance - Harvard Law Review, accessed May 17, 2025, https://harvardlawreview.org/print/vol-138/amoral-drift-in-ai-corporate-governance/
The coordination of stakeholder interests in environmental regulation: Lessons from China's environmental regulation policies from the perspective of the evolutionary game theory - NIH Library Collection Search, accessed May 17, 2025, https://onesearch.nihlibrary.ors.nih.gov/discovery/fulldisplay?docid=cdi_crossref_primary_10_1016_j_jclepro_2019_119385&context=PC&vid=01NIH_INST:NIH&lang=en&search_scope=NIHAll&adaptor=Primo%20Central&tab=NIHCampus&query=sub%2Cexact%2C%20Conflict%20of%20interests%20%2CAND&mode=advanced&offset=100
Tragedy of the Commons: Examples & Solutions | HBS Online, accessed May 17, 2025, https://online.hbs.edu/blog/post/tragedy-of-the-commons-impact-on-sustainability-issues
IDR Team Summary 5 How do we solve the tragedy of the commons ..., accessed May 17, 2025, https://www.ncbi.nlm.nih.gov/books/NBK305631/
The global AI safety divide – why international cooperation matters ..., accessed May 17, 2025, https://www.publictechnology.net/2025/02/21/science-technology-and-research/the-global-ai-safety-divide-why-international-cooperation-matters-more-than-ever/
In this Together: International Collaborations for Environmental and ..., accessed May 17, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10881263/
eprints.leedsbeckett.ac.uk, accessed May 17, 2025, https://eprints.leedsbeckett.ac.uk/id/eprint/7290/1/EconomicsAndClimateEmergencyAM-MORGAN.pdf
Climate action in conflict and fragile settings: closing the ..., accessed May 17, 2025, https://blogs.icrc.org/law-and-policy/2024/11/12/climate-action-in-conflict-and-fragile-settings-closing-the-implementation-gap/
Exploring policy processes against microbial threats in Iran: a ..., accessed May 17, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11749448/
Philosophy Eats AI - MIT Sloan Management Review, accessed May 17, 2025, https://sloanreview.mit.edu/article/philosophy-eats-ai/
Weaponized AI: A New Era of Threats and How We Can Counter It ..., accessed May 17, 2025, https://ash.harvard.edu/articles/weaponized-ai-a-new-era-of-threats/
Societal collapse - Wikipedia, accessed May 17, 2025, https://en.wikipedia.org/wiki/Societal_collapse
Lessons from the Bronze Age collapse — History is Now — History ..., accessed May 17, 2025, http://www.historyisnowmagazine.com/blog/tag/Lessons+from+the+Bronze+Age+collapse
need for scientific discourse on the risk of societal collapse ..., accessed May 17, 2025, https://academic.oup.com/bioscience/advance-article/doi/10.1093/biosci/biaf033/8106376?searchresult=1
Logistics and the Fall‒ Unpacking Civilization Collapse Through ..., accessed May 17, 2025, https://articlegateway.com/index.php/JLAE/article/view/7457
arxiv.org, accessed May 17, 2025, https://arxiv.org/html/2401.07836v2
Metaphors in Design Problem Solving: Implications for Creativity, accessed May 17, 2025, https://www.ijdesign.org/index.php/IJDesign/article/view/53/27
Comparability of Large-Scale Educational Assessments, accessed May 17, 2025, https://naeducation.org/wp-content/uploads/2020/06/Comparability-of-Large-Scale-Educational-Assessments.pdf
Proceedings of the Annual Meeting of the Cognitive Science Society - eScholarship.org, accessed May 17, 2025, https://escholarship.org/uc/cognitivesciencesociety
Application Of Artificial Intelligence Techniques To Improve Leadership Decision Making With Uncertainty - Scholars' Mine, accessed May 17, 2025, https://scholarsmine.mst.edu/cgi/viewcontent.cgi?article=4366&context=doctoral_dissertations
www.fs.usda.gov, accessed May 17, 2025, https://www.fs.usda.gov/pnw/pubs/pnw_gtr654.pdf
pure.iiasa.ac.at, accessed May 17, 2025, https://pure.iiasa.ac.at/18618/1/Paper%2034%20-%20The%20need%20for%20a%20new%20narrative%20on%20risk%20in%20an%20era%20of%20systemic%20existential%20threat.pdf
Concepts of Existential Catastrophe | The Monist - Oxford Academic, accessed May 17, 2025, https://academic.oup.com/monist/article/107/2/109/7629694
1. The maxipok rule - Existential Risks, accessed May 17, 2025, https://existential-risk.com/concept
The Ex-Human: Science Fiction and the Fate of Our Species by ..., accessed May 17, 2025, https://goodreads.com/book/show/205546401.The_Ex_Human_Science_Fiction_and_the_Fate_of_Our_Species
The animals are rebelling because they are dying. And we should ..., accessed May 17, 2025, https://www.open.edu/openlearn/nature-environment/environmental-studies/the-animals-are-rebelling-because-they-are-dying-and-we-should-too-lessons-modern-day-fable
The International Relations of Tropical Storms in the Caribbean | King's College London, accessed May 17, 2025, https://www.kcl.ac.uk/research/the-international-relations-of-tropical-storms-in-the-caribbean
Institutional actors and the survival of international organizations - Oxford Academic, accessed May 17, 2025, https://academic.oup.com/book/59488/chapter/501422549
Solving alignment isn't enough for a flourishing future — EA Forum, accessed May 17, 2025, https://forum.effectivealtruism.org/posts/oEpGBqDCo2z5pbpvA/solving-alignment-isn-t-enough-for-a-flourishing-future
Climate Week NYC: Holistic Climate Solutions Summit 2022 - Tzu Chi Center, accessed May 17, 2025, https://tzuchicenter.org/programs/climate-week-nyc-2022