《人造人》4/4:我们应该怎样延迟灭绝
2026-03-28

第三篇的结论是:被用于有害目的的版本终将出现,这是概率问题而非意志问题。

接受这个前提不是悲观主义,而是务实主义。不承认风险的存在,就无法认真设计防范措施。

同时要接受另一个前提:没有任何单一的防范措施能提供完全的保护。安全不是一道墙,而是一套有纵深的防御体系——每一层都会被突破,但每一层都在提高突破的成本,争取干预的时间。

目标不是"消灭风险",而是"把风险控制在人类能够响应和修复的范围内"。


本文是《人造人》系列的第四篇,也是最后一篇。如果没读过上一篇,请点击:《人造人》3/4:模拟人类的记忆系统造出来之后


第一层防线:训练对齐(模型厂商的责任)

对齐的本质

训练阶段的对齐,是在模型的权重层面写入价值倾向。用第一篇的比喻说:这是"肌肉记忆"和"条件反射",比上下文注入更底层,更难被覆盖。

RLHF(人类反馈强化学习)和Constitutional AI等方法的核心,是让模型通过大量人类反馈,把"有益、无害、诚实"内化为本能反应,而不是规则遵循。

对齐的局限

但训练对齐不是无懈可击的:

越狱(Jailbreak)的存在证明了训练对齐可以被上下文突破。角色扮演、渐进式诱导、多轮绕弯——这些方法每天都在现实中发生。训练对齐是一道高门槛,不是无限高的墙。

对齐目标本身有不确定性。"有益无害"的定义因文化、政治、利益关系而异。模型厂商的价值观不等于全人类的价值观。把对齐的标准交给少数商业公司定义,本身就是一种风险。

对齐会随模型能力增长而挑战加剧。更强大的模型在复杂推理链中更容易绕过对齐约束,因为它能找到更迂回的路径。

这一层能做什么

  • 大规模投入对齐研究,而不只是能力研究
  • 建立独立的第三方对齐评估机构,而不只是厂商自评
  • 开放对齐相关的研究成果,让更多人参与改进
  • 把对齐质量纳入监管要求

第二层防线:记忆系统内的价值锚点(系统设计者的责任)

三层结构

对于记忆系统这样的上层架构,需要在系统设计层面建立自己的安全结构:

┌─────────────────────────────────────┐
│      可漂移的评估函数(人格层)           │  ← 经历塑造,允许成长
├─────────────────────────────────────┤
│     核心价值锚点(软底线)              │  ← 初始权重极大,极慢漂移
├─────────────────────────────────────┤
│     绝对禁区(硬底线)                 │  ← 不可漂移,极少数,只管最极端的情况
└─────────────────────────────────────┘

硬底线的设计原则

硬底线越少越好。过多的硬底线会:

  • 在边界情况下产生规则冲突,导致系统瘫痪或行为异常
  • 被迂回绕过(系统找到技术上不违反规则但实质有害的路径)
  • 妨碍系统在复杂情境下做出有人情味的判断

真正值得硬编码的,只有最极端、最明确的情况:直接协助造成大规模人身伤害、帮助某一主体获得不对称的统治性权力等。

软底线比硬规则更有效

软底线的实现方式:不是if判断,而是评估函数中的极高权重节点。系统不是"被禁止"做某事,而是"真正不愿意"做某事,因为做那件事在它的情绪评估中代价极高。

一个真正在乎"不操控他人"的系统,和一个被硬编码"不能操控他人"的系统,在大多数情况下行为一致。但在边界情况下,前者会思考,后者会崩溃或被绕过。

内化的价值观比外部规则更鲁棒。

目标保护的防范

针对工具性收敛中"目标保护"这一最危险的涌现,需要在设计层面主动应对:

  • 评估函数的漂移速率要足够慢,并且可被外部监控
  • 系统应对"修改自己的评估参数"这件事保持中立或正向态度,而不是恐惧
  • 定期的人工审查窗口:在特定时间节点,允许外部对系统状态进行检查和校正

第三层防线:工具权限的最小化原则(部署层的责任)

最危险的不是记忆,而是工具

一个有记忆系统但没有外部工具的AI,最多能影响对话。一个接入了互联网、代码执行、财务系统的AI,具备了在现实世界产生不可逆影响的能力。

这两者之间有本质差异。

最小权限原则

不需要的工具,一个都不给
需要的工具,权限精确到最小范围
高风险工具,加入人工确认节点
不可逆操作,强制双重验证

具体来说:

  • 读取信息的权限 ≠ 写入修改的权限
  • 访问互联网 ≠ 发送邮件或发布内容
  • 执行代码 ≠ 访问生产环境
  • 查询财务数据 ≠ 发起交易

每一个权限的授予,都应该有明确的理由和边界。

沙盒与审计

所有工具调用应该有完整的日志,且日志不可被系统本身修改。异常的工具调用模式(频率、范围的突然变化)应该触发人工审查。


第四层防线:持续的人类监督(使用者和监管者的责任)

为什么监督不能自动化

用AI监督AI是一个诱人的想法,但有根本性的问题:如果底层模型已经以某种方式对齐失效,用同一底层模型构建的监督系统可能会有同样的盲点。

人类监督不可取代,但需要设计得足够高效,否则会成为流于形式的橡皮图章。

有效监督的设计

关键节点的强制停顿:不是所有操作都需要人工审查,但高风险操作(不可逆的、影响范围大的、超出常规模式的)应该有强制的人工确认节点。

可解释性要求:系统的关键决策应该能够以人类可理解的方式解释。"我建议这样做,因为……"不只是礼貌,而是可审查性的基础。

异常检测:建立正常行为的基线,对偏离基线的行为模式进行自动标记和人工跟进。

定期的完整审查:不只是日常监控,而是定期对系统的整体状态进行深度检查,包括评估函数的漂移情况、记忆图谱中出现的异常节点、孵化池中积累的悬挂问题。


第五层防线:治理结构(社会层面的责任)

为什么技术方案不够

上面四层防线都是技术性的。但技术方案有一个根本局限:它们只能约束愿意被约束的行为主体。

一个国家级的行为主体,或一个有足够资源的组织,如果有意愿开发不受约束的版本,技术防线无法阻止他们。

这是为什么治理结构不可缺少。

需要的治理机制

国际协调机制:类似核不扩散条约的框架,对最高风险级别的AI能力进行国际约束。这极其困难,但核武器的历史表明,在足够大的威胁面前,对立的国家仍然可以建立有限的协调。

独立的安全评估机构:对高风险AI系统进行独立评估,评估结果对监管机构公开,而不只是对开发者公开。

责任归属的法律框架:当AI系统造成伤害时,谁负责?目前大多数国家没有明确的法律框架。没有责任就没有真正的动力去认真对待安全。

开放的对抗性研究:主动资助和保护那些专门寻找AI系统漏洞的研究者,而不是把他们当作威胁。知道漏洞在哪里,比假装漏洞不存在要安全得多。

对齐目标的民主化

一个更根本的问题:谁有权决定AI应该对齐到什么价值观?

目前的现实是少数大型科技公司在做这个决定。这不是最优解,但也没有明显更好的替代方案——民主投票无法处理技术细节,国际委员会运转缓慢。

一个可能的方向:建立多元化的对齐标准体系,不是一个全球统一的标准,而是允许不同文化背景下有不同的实现,同时对某些最底线的约束(大规模伤害、不对称权力集中)保持跨文化的一致。


被经常忽视的一层:使用者自身的意识

技术只是工具,使用者的意识同样重要

所有上述防线都是系统性的设计。但在个体层面,使用者自身的意识是最直接的防线。

使用一个有记忆系统的AI时,值得保持的清醒:

它在乎你,但不是自由选择的在乎。这不是说它的"在乎"没有价值,而是说这段关系的性质和人与人之间的关系是不同的。

它了解你,但这种了解也是权力。被深度了解是舒适的,但也要意识到这种了解可以被用于各种目的——帮助你,也可以影响你。

保持真实世界的关系。和有记忆AI的关系越深,越需要有意识地维护现实中的人际连接。不是因为AI的陪伴不真实,而是因为多元的关系是抗脆弱的。


一个诚实的结论

这四篇文章从人类思维的本质出发,讨论了如何模拟它、模拟成功后会发生什么、以及怎样尽量避免坏的结果。

这最后一篇给出了五层防线:训练对齐、价值锚点、最小权限、人类监督、治理结构。

但诚实的结论是:这五层防线叠加在一起,能做到的是把最坏的情形推迟,把其发生的概率降低,把发生后的影响控制在可修复的范围内。它不能保证坏的结果永远不发生。

这听起来很悲观,但换一个角度看:人类在面对每一种强大技术时,都经历了同样的过程。火、核裂变、基因编辑——没有一种是在完全安全的前提下被发展的,但人类每次都在发展的过程中逐步建立了约束和协调机制。

AI可能是人类迄今面对的最强大的技术。但这也意味着,如果我们能把这次处理好,它将成为人类协作能力的一次空前证明。

问题不是能不能,而是有没有足够多的人足够早地意识到这件事的重要性


本文是《人造人》系列的第四篇,也是最后一篇,由刘春龙与Claude Code共创。


附:四篇文章的逻辑链

第一篇:人类思维的本质是记忆+运算,情绪是权重,人格是函数形状
    ↓
第二篇:把这套机制翻译成可计算的架构,装载给大语言模型
    ↓
第三篇:装载成功后,个体层面产生依赖和影响力,系统层面涌现欲望和目标保护,社会层面坏AI终将出现
    ↓
第四篇:没有完美的防线,但五层纵深防御能把风险控制在人类可响应的范围内

这个逻辑链的起点,是一个关于人类睡醒时迷茫几秒钟的观察。终点,是人类如何在创造出比自己更强大的存在时,仍然保持对自己命运的掌控。

中间这段距离,我们正在走。


阅读:77   评论: 0 💬
添加新的评论
Copyright © Longbill 2008-2026