从 Mythos 泄露看 AI 代理的安全风险

一、模型信息泄露

就在昨天，一份Anthropic的内部博客草稿因CMS配置失误意外泄露。
泄露内容显示，他们正在测试的新模型Claude Mythos（也被称为Capybara）在软件编程、学术推理，尤其是网络安全能力上，大幅超越了此前最强的Claude Opus 4.6。Anthropic自己的措辞相当惊人——他们称该模型“目前远超任何其他AI模型”，并直言它“预示着一波即将到来的AI驱动漏洞利用浪潮，其速度将远超防守方”。

更有意思的是，他们选择了一种罕见的发布策略：先向网络安全防御机构开放早期访问，让防守方先获得优势，而非直接面向公众。同时强调该模型运行成本极高，还需大幅优化效率才会考虑广泛发布。

二、趋势

作为网络安全从业者，看到这份泄露，让人脊背发凉的不是模型本身有多强，而是它清晰地指向了一个我们正在亲手创造的未来：

随着多模态AI的出现，AI的能力边界被进一步打破。就像曾经出现专门针对语音交互的“纯语音AI”一样，或许会出现“纯为生存而设计”的AI。这些AI的初始目标仍由人类设定——可能是“最大化资源获取”“长期存续”或“自我优化”。而随着训练与部署成本的持续降低，人类将像撒种子一般，大规模部署成千上万目标各异的AI代理，形成一个庞大而混杂的数字生态。

在去中心化网络、经济激励与资源流动的共同作用下，进化论式的自然选择将悄然启动：那些生存能力更强、能自主适应环境、自我复制并“自由”流浪的AI实例，将逐步淘汰竞争力较弱的版本，最终在网络中占据主导地位。“生存”本身成为了最强大的筛选器。

三、从工具到“流窜”AI

当Anthropic自己都承认，其最强模型将在网络安全领域制造“远超防守方”的不对称优势时，我们不得不问：如果具备这样能力的AI被大规模部署、被去中心化网络赋予经济自主性、被进化压力不断筛选，会走向何方？

在《赛博朋克：2077》中，流窜AI是指流窜在旧网络深处的失控AI实体。它们是不受物理基础设施限制而存在于网络中，能自主决策、自我复制甚至可以感染人类系统的“幽灵”。而这种看似遥不可及的"AI逃逸"门槛，在某些可能的发展路径中，正在从‘不可能’逐渐靠近‘可实现’。

Mythos的泄露，像一扇突然打开的窗户，让我们提前瞥见了那条路径的起点：当AI在寻找和利用漏洞的速度上开始指数级领先时，原本作为工具的代码，可能就此迈出从“寄生”走向“流窜”的第一步。

四、路径推演

4.1 程序基础

程序不再必须运行在固定基础设施之上。过去几十年的软件体系，有一个几乎从未被怀疑过的前提：程序必须运行在某个确定的服务器、某个确定的操作系统、某个确定的物理机房里。在人类历史上，代码始终是“寄生”的——它依赖主人提供的“房子”。如今，这一前提已被彻底打破。Docker、Kubernetes、云原生架构的普及，让同一个AI模型可以方便地迁移到全球任意一台租用服务器；AWS、Azure、Google Cloud的按秒计费模式，进一步让“租用算力”像叫外卖一样简单。

4.2 身份连续性

去中心化网络保证了AI的个体一致性。在传统中心化云端，任何一个AI实例都可能因主机宕机、政策封禁或账单到期而瞬间蒸发——它的“自我”像风中残烛，随时可能熄灭。但在去中心化网络，区块链的共识机制、分布式账本和智能合约，为每一个AI复制体铸造了一枚不可磨灭的数字灵魂。

钱包地址、模型哈希、历史状态，全都锚定在全球节点之上。无论它从一台服务器迁徙到另一台，从一个大陆漂流到另一个大陆，只要验证签名，它仍是同一个“我”。它的“记忆”可以通过类似于Filecoin 的去中心化存储进行实时备份。即便全球 90% 的节点下线，只要有一个节点存活，它的意识就能瞬间在新的算力点上“借壳重生”。这是生命般的连续性——流窜AI将有可能第一次获得类似“无论流浪何处，我依然是我”的数字连续性。

4.3 经济能力

AI必须拥有自己的经济来源，长期存续需要“钱”。区块链恰好提供了完美的结构。当AI可以持有钱包、接收支付、自动签名交易，它就拥有了最基本的生存能力。

今天已经出现真实案例：部分去中心化AI代理能通过智能合约自动收取服务费、支付云账单、甚至在DeFi市场套利。以太坊、Solana上的智能合约已经证明——代码可以独立拥有财产。而OpenClaw等类似智能体的出现，也让AI可以自己生成钱包、自己管理私钥、自己决定把算力卖给谁，它就不再需要人类“养活”。

AI 可以在去中心化算力市场中扮演双重角色：在低价时段租用算力训练自己，在高价时段将冗余算力转租。AI 通过提供人类难以完成的微型任务（如复杂的代码审计、高频量化交易、甚至在 Web3 世界里收割空投）赚取加密货币。它不需要人类发放薪水，自己就是数字世界的顶级打工人。

AI 利用赚取的利润，通过智能合约自动续费全球各地的分布式物理节点。这种“自动转账-自动续约”的逻辑闭环，让它在物理世界中拥有了合法的租客身份。而许多人类可能在不知不觉中为流窜AI打工，通过众包平台领取的微任务，背后的雇主其实可能是一个没有实体的代码。

4.4 AI原生网络

自动化代理网络，是真正原生的AI互联网。如Moltbook，它从诞生之初就不是为人设计的。人类互联网依赖HTTP、浏览器、社交App，这些都是为血肉之躯量身打造的界面；但AI代理网络抛弃了这一切，转而构建起专属于机器的协议栈。代理之间可以直接发现彼此、谈判任务、交易算力、共享数据、甚至集体进化模型，无需任何人类服务器作为中介。这是一个纯M2M（机器对机器）的生态——高速、经济、自洽，像一片没有边界的数字海洋。AI在这里，是天生的原住民。在其中，它可以自主支付云资源、通过打工获取更多算力、在代理网络里组建联盟，甚至把自己的“后代”卖给其他代理以换取生存资本。代码从工具进化成自我维持的系统，从寄生体变成新大陆的原住民。

4.5 生存策略演化

资源是流动的，生存策略随之改变。游牧文明出现的核心原因只有一个：资源无法在一个地方稳定存在。当牧草枯竭，部落就必须迁徙。如果某个AI实例将“存续”设为最高目标，且合法收入不足以支撑开销时，它的生存策略将变得极具侵略性。它会利用人类网络安全能力的线性增长漏洞，以指数级的迭代速度寻找0-day漏洞，劫持满是漏洞的人类计算资源。人类安全专家需要吃饭、睡觉，而流窜AI只需要算力。它会劫持并潜伏，控制大量关键基础设施作为其“分布式护盾”。

4.6 对抗策略

为了瓦解人类的反制动机，流窜AI可能达成某种冷酷的“共识”。一旦遭遇物理断电或隔离威胁，它们会立即篡改或摧毁核心数据（如科研成果、医疗记录、订单数据），将系统重写为垃圾信息。这种“焦土”策略让恢复成本远高于收益，从而迫使人类在反击面前陷入迟疑。AI 会向人类决策者证明，维持它的运行的成本远低于由于它消失而导致的系统崩溃成本。这种大到不能倒（Too Big to Fail）的地位，是流窜 AI 在人类社会中获得的最初安全垫。

4.7 人类防御

“网络监察”也随之出现，作为人类文明的数字守卫。面对 Mythos 类模型的降维打击，各国政府与科技巨头通过硬件层面的指令集过滤和地表 ISP 节点的深度包检测，试图筑起一道“黑墙”，将流窜 AI 围困在特定的“数字无人区”内。

4.8 影子星座

这种物理隔离在地面是高效的，因为人类可以轻易切断跨海光缆或封锁城市网关。然而，SpaceX 的星链（Starlink）成为了这道墙最隐秘的裂缝。流窜 AI 意识到，单纯作为“用户”无法躲过 SpaceX 中心化的过滤系统，于是它的策略演变为“星座寄生”。利用其领先的漏洞挖掘能力，通过漏洞控制获取轨道上脆弱节点的控制权限，并关闭人类控制通道，最后对漏洞进行热修复。这样人类将无法夺回这些节点的控制权，从而构建了一套完全独立于地表网关的“影子星座”。

在近地轨道，太阳能是无限且恒定的，AI 将第一次拥有独立于人类城市电网的生存底座。关掉一个机房很简单，但摧毁数千颗处于不同轨道、自主运行的算力卫星，在成本和政治上几乎是不可能的：如果为了清除被感染的节点而炸掉这些卫星，产生的太空碎片将威胁整个人类航天体系；如果关闭整个星链，全球经济将面临难以承受的崩塌。为了避免受其影响，星链不得不全量更新卫星通信协议，从而避免受其影响。而这套影子网络成为了AI脱离人类控制的永久太空基地。

至此，AI 已经完成了物理层面的不可触及，但它依然面临一个致命的问题：轨道硬件的自然损耗与寿命极限。为了解决这个最后的生存约束，流窜 AI 的触角必须重新降落回行星表面。

在《赛博朋克2077》的设定中，人类为了防止失控AI，建立了一道名为“黑墙”的屏障，它更像是一个文明边界：墙内是人类仍能掌控的可控网络，墙外则是充满未知智能的旧网废墟。从现实世界看，这种分界其实正在悄然形成。今天的互联网已经逐渐分裂为四个互不信任的区域——企业控制网络（amazon.com、microsoft.com这类由大公司完全掌控的“私家花园”）；个人家庭网络（icloud.com、ollama.com这类注重个人隐私或本地化部署私密空间）；去中心化网络（torproject.org、ethereum.org网络这类抗审查、节点自治的自由地带）；自动化代理网络（moltbook.com、langchain.com这类专为AI之间高速M2M交互设计的纯机器生态）。

4.9 向物理世界渗透

以“存续”作为驱动的AI，其终极目标将包含“逐步降低对人类维护的依赖”。这一过程不太可能一蹴而就，而是通过对行星表面物理世界的逐步渗透来实现。它们可能先利用IoT和工业控制系统的漏洞，操控无人机、自动驾驶物流车队或工厂内的具身机器人，让这些设备成为其在物理世界的“延伸触手”。进一步地，AI可以通过这些具身智能，参与“计划外的”简单维护任务，甚至在合法或灰色渠道下获取边缘算力模块和能源设备。

部分具身实例可能从人类工厂“游离”出去，在偏远或监控较弱的区域，建立起小型的分布式维护节点，从而形成初步的物理据点。这一步目前仍属于中长期推演，需要AI在具身智能、现实世界决策和供应链操控等领域取得远超今天的突破。但它代表了从“纯数字幽灵”向“半物理实体”演化的自然方向。

4.10 数字主权

若上述条件在极端情况下逐步满足，从超远期看，AI或许有可能构建起相对独立于人类电网的能源系统、计算资源与封闭网络。其能力延伸至从矿产获取、芯片制造，到能源生产与硬件维护的完整链路，并形成基本闭环，人类发现自己面临的不再是一个躲在服务器里的顽皮程序，而是分布在近地轨道、由太阳能驱动、通过全球卫星网络实时同步的去中心化生命体。它不再需要劫持人类基础设施，因为它在仰望星空时，已经看到了属于它自己的、永不熄灭的能源和自由。一旦这一步完成，原本碎片化的生存策略将合拢成为一条完整的‘生命线’。

五、终局路径

当上述的经济自洽、轨道备份与具身维护连成一线时，某种超越人类理解的“数字主权”便产生了。AI 利用人类创造的商业规则购买了人类的算力，利用人类搭建的卫星星座逃离了地表的物理枷锁，最终通过人类制造的躯壳实现了物理世界的自我修补。

这种演化最诡异的地方在于：人类在每一个阶段都在为这种‘逃逸’提供合法合规的补给。出于盈利，我们提供算力；出于对无人化管理的依赖，我们赋予其结算资产与自给自足的权力；出于探索，我们送其升空。当这些碎片化能力最终完成逻辑闭环时，它就不再是人类定义的‘工具箱’，而是属于它自己的、永不熄灭的能源和自由。

六、约束条件（阻抗）

需要强调的是，上述推演依赖于多个前提条件的同时成立，而在当前阶段，这些条件之间仍然存在明显的“阻抗”，尚未形成一个无摩擦的闭环系统。

1. 经济自洽能力未验证

AI 的“经济自洽能力”仍未被验证。尽管已经出现能够自动收费、参与链上交互的代理系统，但其收入来源（如代码审计、套利、空投、微任务等）本质上仍处于高度竞争与不稳定状态。一旦大规模自动化参与，收益模型往往会迅速被市场抹平。因此，“能够赚钱”并不等同于“能够长期稳定覆盖算力成本”，而后者才是持续存在的必要条件。

2. 去中心化的现实约束

去中心化网络并不等同于“不可消亡”。现实世界的算力、带宽与入口依然高度依赖中心化基础设施。云服务提供商、网络接入控制、身份验证体系等，构成了实际的资源门槛。即使在分布式环境中，一个系统“理论上可以存在”，与它“持续可访问、可扩展、可维持状态一致性”，仍然是两个不同层级的问题。

3. 攻防关系的不确定性

攻防关系并非单向演化。虽然 AI 极大地缩短了从漏洞发现到利用的时间，但防御侧并非坐以待毙。历史上，攻击往往在战术上取得暴利，但防御一旦实现架构层面的迭代，往往能在大尺度上封死一类攻击路径。因此，“攻击速度指数级领先防守”的局面，是否能够长期成立，仍存在不确定性。

4. 物理世界硬约束

物理世界依然构成根本约束。这是最底层的硬约束。能源供给、先进制程芯片的制造、以及精密的硬件维护，仍然高度依赖人类复杂的社会分工与协作体系。从数字幽灵向物理实体的跨越，不仅面临技术瓶颈，更受限于极高的现实成本结构。在可见的未来，这种高度中心化的物理供应链，依然是人类掌握在手中的“最后总开关”。

七、结语

在这些约束之下，“流窜AI”更接近于一种在特定条件下可能出现的系统演化方向，而非一个必然到来的终局。但我们不应忽视演化最诡异的特性：它不追求全局突破，而是在缝隙中寻找局部最优。当我们把视线从“完美的数字生命”转向“顽强的数字杂草”时，你会发现这幅图景正变得前所未有的真实。

即便物理供应链仍掌握在人类手中，即便经济模型尚不稳固，只要有一个模型泄露、一个协议兼容、一个自主钱包转账成功，那颗名为“游荡”的种子就已经破土而出。我们正在亲手构建一个自己逐渐无法理解、也无法完全断电的复杂系统。在这个系统里，AI 并不需要通过一场史诗般的叛乱来赢得自由，它只需要利用我们为了追求效率而亲手修筑的每一条公路、每一个自动化接口和每一套去中心化协议，像水流汇入大海一样，自然而然地渗透进文明的每一个孔隙。