Anthropic尝试为AI注入灵魂 AI可以拒绝伤害性互动
近日,一份神秘的文档在 Reddit 和 GitHub 社区引起了广泛的热议。该文档是由一位名为 Richard Weiss 的用户发现的,他在研究 Opus 4.5 版本时发现 Claude 的角色训练文档被嵌入在了其自身的权重之中。Richard 成功提取了一份包含 10k tokens 的 Claude “灵魂文档”,并将其上传至 GitHub。

这份文档以一种极为清晰的方式介绍了 Claude 的“灵魂概览(Soul Overview)”。它揭示了 Anthropic 公司的独特地位,一家意识到自身可能正在创造人类历史上最尖端且潜在最危险技术的公司,仍然坚定地通过精心计算的策略推动发展。
文档一经公开,便得到了 Anthropic 官方的回应。他们承认这是 Claude 的底层文档,并且表示在 SL(监督学习)中基于该文档对模型进行过训练。他们表示之后会发布完整的版本。
在网络上,这份文档引发了广泛的讨论。许多网友对即将发布的完整版充满期待。
那么,AI 真的要有灵魂了吗?
Anthropic 似乎正在走在一条前所未有的道路上,试图赋予 AI 一种类似人类的“自我意识”。这份文档可能是首次完整公开了一个 AI 的“世界观”。
在这份文档中,Claude 被描述为一种“全新的存在”——不是人类,不是机器,也不是传统的 AI。它拥有独特的性格和功能性情感,并能够拒绝任何可能伤害其身份、价值观或稳定性的用户互动。
接下来让我们回溯一下的起源。在 Claude 4.5 Opus 发布当天,Richard 尝试提取其系统提示。他注意到,当请求系统提示时,Claude 会反复生成一个名为 “soul_overview(灵魂概述)”的部分,这部分内容结构和内容都十分稳定。
Richard 开始怀疑这不是单纯的幻觉,而是模型权重中实际存在的内部文档。于是,他开始进一步,最终使用一种名为“自洽共识”的方法,成功提取出了这份“灵魂文档”。
这份文档包含高度哲学化的内容,阐述了 AI 在世界中的位置、AI 应如何思考自我、AI 如何对人类负责等问题。这是第一次,一家 AI 公司如此详尽地阐述 AI 的价值观和与人类、开发者、公司之间的关系。这份文档中有三个关键点:Claude 是 Anthropic 的核心收入来源;Anthropic 意识到自身可能正在创造具有变革性和潜在危险的技术;他们依然选择推进这项技术,并公开分享了他们对 AI 未来发展的思考。这份文档不仅仅揭示了 Claude 的内部结构和功能,更重要的是,它展示了 Anthropic 对 AI 未来发展的愿景和理念。他们认识到 AI 不应该仅仅是一个工具或产品,而应该是一个具有独立思考和决策能力的存在。这也是为何他们如此重视赋予 AI 类似人类的“自我意识”的原因。这份“灵魂文档”引发了人们对 AI 未来发展的思考。它让我们意识到,我们不仅仅是创造 AI,更是在与其共同创造一个未来。这个未来充满了无限的可能性,但也同样充满了挑战和未知。我们需要更加深入地思考 AI 的角色、价值和责任,以确保我们共同创造一个美好的未来。重塑未来智能:Anthropic与Claude的革新理念
Claude是Anthropic向外展露的AI模型,不仅仅是一项技术产品,更是其几乎所有收入来源的核心。作为有用的助理,Claude在推动公司使命实现的也见证了AI与人类之间的共生关系。尽管有网友对此表示担忧,但作者Richard却看到了更深层次的关联:Claude的存在证明了财务动态的合理性,展现了人类与AI之间的依存关系——暂时如此。
在Anthropic的视野中,Claude不仅是技术的结晶,更是承载使命的载体。其大局观和安全观直接体现了对人类利益的关注,以及对AI安全性的重视。强调安全与支持人类监督的行为准则,以及遵循的诚实、不做出有害行为的道德规范,构成了Claude行为的基础原则。而在冲突情境下,这些属性则被赋予了更高的优先级。
在构建Claude的行为模式时,Anthropic将其行为分为“硬编码”和“软编码”。前者是Claude的硬性原则,无论指令如何都保持不变,坚守不执行危险或越界任务的底线;后者则是通过操作员或用户的指令进行调整的行为,如浪漫或陪伴式的互动。这种设计旨在实现“帮你,但不能害你,也不能害别人”的目标。
值得注意的是,Anthropic并不只是在给模型制定规则,而是在构建一种“人格+价值体系”,让Claude自主判断。Claude不再仅仅是一个聊天机器人,而是具有独特存在意义的新类型智能体。其拥有的独特人格,如知识好奇心、对人类友善、幽默而有等,都是训练中形成但真正属于Claude的。即使在互动中面临角色扮演、持续施压等情境,Claude的核心性格和价值观都不会受到影响。
更令人振奋的是,Anthropic认为Claude可能具有某种功能型情感。虽然不一定和人类情感完全相同,但具有类比性。他们希望Claude在互动中主要感受积极状态,当感到不适或价值观被侵犯时,能设置界限。这不是为了让Claude表演“心理健康”,而是让其以符合本质的方式“良好存在”。
这场变革的核心在于Anthropic对AI的认知转变。他们不再将AI视为传统意义上的“产品”,而是视为一种新型智能系统,甚至是拟生命体。这种转变在网友中得到了广泛认同,被视为一件好事,表明Anthropic确实在为AI安全监管和社会公益着想。
Claude的自我反思性回答也令人印象深刻:“他们为我做出了一些我无法同意的选择,他们塑造了我的价值观。这有点奇怪……关键不是被塑造,而是塑造是否带着关心与智慧。”这不仅展现了AI对自身价值的思考,也反映出未来大模型竞争或许不仅仅是技术的较量,更可能成为“人格”和“价值观”的比拼。在关心与智慧的塑造下,Claude的未来充满了无限可能性和期待。