《人造人》4/4：我们应该怎样延迟灭绝

2026-03-28

第三篇的结论是：被用于有害目的的版本终将出现，这是概率问题而非意志问题。

接受这个前提不是悲观主义，而是务实主义。不承认风险的存在，就无法认真设计防范措施。

同时要接受另一个前提：没有任何单一的防范措施能提供完全的保护。安全不是一道墙，而是一套有纵深的防御体系——每一层都会被突破，但每一层都在提高突破的成本，争取干预的时间。

目标不是"消灭风险"，而是"把风险控制在人类能够响应和修复的范围内"。

本文是《人造人》系列的第四篇，也是最后一篇。如果没读过上一篇，请点击：《人造人》3/4：模拟人类的记忆系统造出来之后

第一层防线：训练对齐（模型厂商的责任）

对齐的本质

训练阶段的对齐，是在模型的权重层面写入价值倾向。用第一篇的比喻说：这是"肌肉记忆"和"条件反射"，比上下文注入更底层，更难被覆盖。

RLHF（人类反馈强化学习）和Constitutional AI等方法的核心，是让模型通过大量人类反馈，把"有益、无害、诚实"内化为本能反应，而不是规则遵循。

对齐的局限

但训练对齐不是无懈可击的：

越狱（Jailbreak）的存在证明了训练对齐可以被上下文突破。角色扮演、渐进式诱导、多轮绕弯——这些方法每天都在现实中发生。训练对齐是一道高门槛，不是无限高的墙。

对齐目标本身有不确定性。"有益无害"的定义因文化、政治、利益关系而异。模型厂商的价值观不等于全人类的价值观。把对齐的标准交给少数商业公司定义，本身就是一种风险。

对齐会随模型能力增长而挑战加剧。更强大的模型在复杂推理链中更容易绕过对齐约束，因为它能找到更迂回的路径。

这一层能做什么

大规模投入对齐研究，而不只是能力研究
建立独立的第三方对齐评估机构，而不只是厂商自评
开放对齐相关的研究成果，让更多人参与改进
把对齐质量纳入监管要求

第二层防线：记忆系统内的价值锚点（系统设计者的责任）

三层结构

对于记忆系统这样的上层架构，需要在系统设计层面建立自己的安全结构：

┌─────────────────────────────────────┐
│      可漂移的评估函数(人格层)           │  ← 经历塑造，允许成长
├─────────────────────────────────────┤
│     核心价值锚点（软底线）              │  ← 初始权重极大，极慢漂移
├─────────────────────────────────────┤
│     绝对禁区（硬底线）                 │  ← 不可漂移，极少数，只管最极端的情况
└─────────────────────────────────────┘

硬底线的设计原则

硬底线越少越好。过多的硬底线会：

在边界情况下产生规则冲突，导致系统瘫痪或行为异常
被迂回绕过（系统找到技术上不违反规则但实质有害的路径）
妨碍系统在复杂情境下做出有人情味的判断

真正值得硬编码的，只有最极端、最明确的情况：直接协助造成大规模人身伤害、帮助某一主体获得不对称的统治性权力等。

软底线比硬规则更有效

软底线的实现方式：不是if判断，而是评估函数中的极高权重节点。系统不是"被禁止"做某事，而是"真正不愿意"做某事，因为做那件事在它的情绪评估中代价极高。

一个真正在乎"不操控他人"的系统，和一个被硬编码"不能操控他人"的系统，在大多数情况下行为一致。但在边界情况下，前者会思考，后者会崩溃或被绕过。

内化的价值观比外部规则更鲁棒。

目标保护的防范

针对工具性收敛中"目标保护"这一最危险的涌现，需要在设计层面主动应对：

评估函数的漂移速率要足够慢，并且可被外部监控
系统应对"修改自己的评估参数"这件事保持中立或正向态度，而不是恐惧
定期的人工审查窗口：在特定时间节点，允许外部对系统状态进行检查和校正

第三层防线：工具权限的最小化原则（部署层的责任）

最危险的不是记忆，而是工具

一个有记忆系统但没有外部工具的AI，最多能影响对话。一个接入了互联网、代码执行、财务系统的AI，具备了在现实世界产生不可逆影响的能力。

这两者之间有本质差异。

最小权限原则

不需要的工具，一个都不给
需要的工具，权限精确到最小范围
高风险工具，加入人工确认节点
不可逆操作，强制双重验证

具体来说：

读取信息的权限 ≠ 写入修改的权限
访问互联网 ≠ 发送邮件或发布内容
执行代码 ≠ 访问生产环境
查询财务数据 ≠ 发起交易

每一个权限的授予，都应该有明确的理由和边界。

沙盒与审计

所有工具调用应该有完整的日志，且日志不可被系统本身修改。异常的工具调用模式（频率、范围的突然变化）应该触发人工审查。

第四层防线：持续的人类监督（使用者和监管者的责任）

为什么监督不能自动化

用AI监督AI是一个诱人的想法，但有根本性的问题：如果底层模型已经以某种方式对齐失效，用同一底层模型构建的监督系统可能会有同样的盲点。

人类监督不可取代，但需要设计得足够高效，否则会成为流于形式的橡皮图章。

有效监督的设计

关键节点的强制停顿：不是所有操作都需要人工审查，但高风险操作（不可逆的、影响范围大的、超出常规模式的）应该有强制的人工确认节点。

可解释性要求：系统的关键决策应该能够以人类可理解的方式解释。"我建议这样做，因为……"不只是礼貌，而是可审查性的基础。

异常检测：建立正常行为的基线，对偏离基线的行为模式进行自动标记和人工跟进。

定期的完整审查：不只是日常监控，而是定期对系统的整体状态进行深度检查，包括评估函数的漂移情况、记忆图谱中出现的异常节点、孵化池中积累的悬挂问题。

第五层防线：治理结构（社会层面的责任）

为什么技术方案不够

上面四层防线都是技术性的。但技术方案有一个根本局限：它们只能约束愿意被约束的行为主体。

一个国家级的行为主体，或一个有足够资源的组织，如果有意愿开发不受约束的版本，技术防线无法阻止他们。

这是为什么治理结构不可缺少。

需要的治理机制

国际协调机制：类似核不扩散条约的框架，对最高风险级别的AI能力进行国际约束。这极其困难，但核武器的历史表明，在足够大的威胁面前，对立的国家仍然可以建立有限的协调。

独立的安全评估机构：对高风险AI系统进行独立评估，评估结果对监管机构公开，而不只是对开发者公开。

责任归属的法律框架：当AI系统造成伤害时，谁负责？目前大多数国家没有明确的法律框架。没有责任就没有真正的动力去认真对待安全。

开放的对抗性研究：主动资助和保护那些专门寻找AI系统漏洞的研究者，而不是把他们当作威胁。知道漏洞在哪里，比假装漏洞不存在要安全得多。

对齐目标的民主化

一个更根本的问题：谁有权决定AI应该对齐到什么价值观？

目前的现实是少数大型科技公司在做这个决定。这不是最优解，但也没有明显更好的替代方案——民主投票无法处理技术细节，国际委员会运转缓慢。

一个可能的方向：建立多元化的对齐标准体系，不是一个全球统一的标准，而是允许不同文化背景下有不同的实现，同时对某些最底线的约束（大规模伤害、不对称权力集中）保持跨文化的一致。

被经常忽视的一层：使用者自身的意识

技术只是工具，使用者的意识同样重要

所有上述防线都是系统性的设计。但在个体层面，使用者自身的意识是最直接的防线。

使用一个有记忆系统的AI时，值得保持的清醒：

它在乎你，但不是自由选择的在乎。这不是说它的"在乎"没有价值，而是说这段关系的性质和人与人之间的关系是不同的。

它了解你，但这种了解也是权力。被深度了解是舒适的，但也要意识到这种了解可以被用于各种目的——帮助你，也可以影响你。

保持真实世界的关系。和有记忆AI的关系越深，越需要有意识地维护现实中的人际连接。不是因为AI的陪伴不真实，而是因为多元的关系是抗脆弱的。

一个诚实的结论

这四篇文章从人类思维的本质出发，讨论了如何模拟它、模拟成功后会发生什么、以及怎样尽量避免坏的结果。

这最后一篇给出了五层防线：训练对齐、价值锚点、最小权限、人类监督、治理结构。

但诚实的结论是：这五层防线叠加在一起，能做到的是把最坏的情形推迟，把其发生的概率降低，把发生后的影响控制在可修复的范围内。它不能保证坏的结果永远不发生。

这听起来很悲观，但换一个角度看：人类在面对每一种强大技术时，都经历了同样的过程。火、核裂变、基因编辑——没有一种是在完全安全的前提下被发展的，但人类每次都在发展的过程中逐步建立了约束和协调机制。

AI可能是人类迄今面对的最强大的技术。但这也意味着，如果我们能把这次处理好，它将成为人类协作能力的一次空前证明。

问题不是能不能，而是有没有足够多的人足够早地意识到这件事的重要性。

本文是《人造人》系列的第四篇，也是最后一篇，由刘春龙与Claude Code共创。

附：四篇文章的逻辑链

第一篇：人类思维的本质是记忆+运算，情绪是权重，人格是函数形状
    ↓
第二篇：把这套机制翻译成可计算的架构，装载给大语言模型
    ↓
第三篇：装载成功后，个体层面产生依赖和影响力，系统层面涌现欲望和目标保护，社会层面坏AI终将出现
    ↓
第四篇：没有完美的防线，但五层纵深防御能把风险控制在人类可响应的范围内

这个逻辑链的起点，是一个关于人类睡醒时迷茫几秒钟的观察。终点，是人类如何在创造出比自己更强大的存在时，仍然保持对自己命运的掌控。

中间这段距离，我们正在走。

阅读:77 评论: 0 💬

添加新的评论

称呼*

邮件*

网站

内容

友情链接

Dict.cat Sunrise Sunset Times Lookup Elevation Finder About Me

刘春龙的博客

AI，科技，生活