价值嵌入与价值对齐：人类控制论的幻觉

吴静（南京师范大学公共管理学院哲学系教授） 2024-11-11 来源：澎湃新闻

价值对齐反映了对人类智能与人工智能关系进行简化的理论惰性，其本质潜藏着一种价值维度上的人类中心主义投射，同时也体现了人类在技术自治性面前的不安感。

价值对齐反映了对人类智能与人工智能关系进行简化的理论惰性，其本质潜藏着一种价值维度上的人类中心主义投射，同时也体现了人类在技术自治性面前的不安感。价值对齐是一种企图将所有的技术-社会的复杂性问题都置于“价值偏差”的系统性盈余中予以整体性解决的技术治理方法。然而，将人类价值观嵌入人工智能系统，一方面会使得技术的发展成为最小化人类责任的借口；另一方面，这种话语以一种抽象性的人机价值差异掩盖了人工智能技术发展全过程中的价值性因素，从而以价值排他性的方式将人工智能的“问题”建构为一种绝对意义上的外在，使得关于价值的讨论只逡巡在人机的边界之上，而不向人类内部返回。从这个意义上来说，人工智能已经建构起来的社会历史中的价值无意识和不平衡的数据分布现实，是一个关于“具有自主性的智能体应该和不应该被如何设计”的问题。因此，人工智能的价值判断基础应当由外在的价值嵌入转向具身认知和知觉能力的形成。只有通过有效的人机交互与环境感知，打造开放式人机生态体系，鼓励开发与人类处于更广泛的目的分享和责任分担的人工智能，才能防范由技术所导致的任何形式的垄断。

吴静，南京师范大学公共管理学院哲学系教授、博士研究生导师，南京师范大学数字与人文研究中心主任

在大模型技术狂飙突进的今天，随着数据规模和算力的不断提高，以及模型调整对于场景-价值多元化的适应，人工智能的性能持续跃迁，涌现不再是偶发的技术意外，数智应用的泛化性、通用性和界面友好性都有了质的提升，成为架构人类社会发展当之无愧的技术基底。如何建设安全有效的数智设备，避免人工智能因其自身的技术特征或外在原因的滥用产生危及人类的后果，已成为AI行业研发和应用过程中的核心议题之一。一方面，数智技术的全面嵌入和良好的交互性使得用户对人工智能的期许和信任度不断推高；另一方面，可解释性陷阱的存在以及技术-社会两者发展逻辑在本质上的异质性使得“AI威胁论”从未真正消失，对AI可能带来的风险和挑战进行防范的研究方向之一就是探索引导和操控“超智能”AI系统的新方法。其中的一种路径就是通过价值对齐的方式确保人工智能追求与人类价值观相适配的目标，敦促AI以对人类和社会有益的方式行事，不侵害人类的价值和权利。

这无疑是一个看起来很美好的目标。它寄希望于在意图和价值观方面对人工智能进行“类人驯化”，以使其达到从意义上理解人类行为和选择并予以遵从的目的。简单来说，就是使建立在庞大的、多元化数据集基础上的大模型预训练结果既合法又合乎道德。从业界在这方面的努力来看，2023年7月，AIGC的领军企业OpenAI宣布成立一个新的AI对齐团队，这个超级对齐团队（superalignment）的目标是在4年内让超级AI系统实现价值对齐和安全。为此，OpenAI承诺将投入20%的计算资源用于对齐超级智能，而项目的核心则是训练出一个大致与人类智识水平相当的AI自动对齐研究员，再借助自动对齐研究员找出对齐超级智能的方法。除此之外，谷歌、微软等公司也都纷纷跟进，成立了类似团队，将价值对齐作为寻求人工智能安全性和一致性的重要途径之一。一时之间，价值对齐的口号风头无两。

2024年7月，OpenAI宣布解散超级对齐团队。表面上看，这是OpenAI内部发展不同方面优先级之间竞争失衡和资源分配的结果，但从另一个角度也展现出价值对齐的推进难度。然而，笔者的目的并不在于从技术角度解析现有的价值对齐工具的有限性及其模型风险，而是躬身进入价值对齐理念背后的技术观，揭示其潜在的控制论色彩，解读它所可能导致的对于人机关系的狭隘误读，进而在技术哲学批判的基础上探究它所面对的挑战。因为，恰恰只有抛弃简单乐观的价值移植，重回技术-社会自身发展逻辑，直面其复杂性，才有可能在数智高速飞跃的时代重新为人工智能的发展划定边界和准则，并建构起新型的人机交互和融合的健康模式。

一、“科学”与“价值”的虚假对立：人工智能责任的不对称性

谈到价值对齐，就不得不提到另一个稍显生硬却更为直接地表达了某种意义上人机对立的概念：价值嵌入。从本质层面来看，这两个概念都是基于“对立论”的视角，强调数字技术自身的运行和发展所具有的超强自治性，强调人工智能技术与人类权利和福祉之间的对立和冲突，希望通过算法伦理审查、增加数据离散度以及预训练模型微调的技术方式，将具有特定人类价值倾向的立场和原则“移植”到智能设备中，从而最大限度地预防和消解技术理性与社会理性的差异所导致的风险和负面效应。在这里，人工智能被设想成了和人类智能处于对立位置的价值中空物，它被作为实体从技术的第三持存中剥离出来，评论者丝毫没有意识到人工智能技术的任何具体化形式，本身已经负载着人类智性积累及其社会文化内涵。

就某种意义而言，这种对立倾向是技术崇拜意识形态的延续。自近代以降，当自然科学从整体性的学术体系中分离出来之后，“科学”与“社会”就被置于严格二分的状态中。长期以来，人们理所当然地认为，科学事实和其所言说的对象性实体作为自在之物，在被科学家发现之前就存在于这个世界上，任何社会的、文化的、意识形态的因素并不能影响或改变其存在。正因为如此，与后者的易变性和价值的情境性不同，科学排除了价值判断，呈现出“中立”和“客观”的超然。“在理性的控制之下引起人与自然物质转换的某种全球统一社会秩序形成的可能结构”，科学意识形态正是担当了这种提供连续性的秩序基础。马克斯·舍勒将实证科学及其结果与形而上学及宗教知识看作平行且分离的两个互不干扰的领域，认为后者是终极目标和价值旨归。

与此相对，拉图尔则认为，在这种二元论影响下，科学事实被视为已经完成的封闭系统，成为真理、进步、普遍、理性的象征，摆脱了与文化的纠缠，更超越了地方性情境，从而获得了普遍的客观性。而“社会”或“政治”“文化”因素则成为科学之外的含混话语，代表了某种难以言明的前现代传统中的复杂性，从而使自然与文化之间的不对称性转变成为过去与将来之间的不对称性。然而，这种二元划分并非恒定不变。一方面，它实际上是以现代性为基础的近代科学体系的一个假象，并最终在控制论的意义上导致了科学意识形态的出现。拉图尔指出，将自然作为研究对象的近现代科学实验体系以其方法为自然对象赋予了客观性，使其成为具有超验性的象征符号，进而反证了科学的理性基础，形成了论证的循环。另一方面，社会的超越性同样也是被预设的，因为只有这样，它才能获得作为整体的合法性基础，从而发挥作用。这种二分法的结果导致了自然还原主义或社会还原主义。其实，对这种还原主义的批判并非始自拉图尔。20世纪70年代的爱丁堡学派就提出了强纲领和“利益解释”模型，主张科学知识在本质上是由社会建构而成的，从而形成了“科学知识社会学”；同时，该学派反对实证主义和基础主义，将科学视为一种文化实践的场域和结果，反对还原主义的阐释路径。他们所提出的“对称性原理”，主张将据信正确的或错误的表述同等对待，即对所谓客观和非客观的解释都持中立态度，并根据其社会影响予以对称分析。

然而，这种互渗式的建构主义立场在拉图尔看来远未击中要害。因为，所谓“社会”建构的提法依旧将“社会”作为一个先验存在的实体独立于科学之外。只不过这一次，科学知识社会学将优先性的天平倾向了名为“社会”的假设集合，使其成为可能施加控制的一方。事实上，不但科学不是独立的存在，社会亦然，它是“另外一段不可见时空中不同力量之间凝结和固化的产物”，所谓“科学”，亦即是这诸多力量之一。尽管这也是拉图尔称之为“尽可能将精确知识与权力运作之间的二分割裂状态重新交织起来”的努力，但它并没有从本质上摆脱决定论的控制色彩。为了消除这种误解，拉图尔在再版自己和史蒂夫·伍尔加合著的《实验室生活：科学事实的社会建构》时将其改名为《实验室生活：科学事实的建构过程》，以此和社会建构主义划清界线。两位作者根据经验性的实验室研究过程提出，科学研究对象实际上是在实验室内由习俗性的观念、规范和方法构建而成的概念体系，并非独立于仪器和范式之外的存在，而是社会存在的展现方式之一。换言之，社会具身性的文化、习俗和观念对于科学研究及其方法的理解和界定同时决定了科学研究对象的合法性。正因为如此，科学活动本身应当被视为一种理念、传统和特定文化实践的体系——科学是一种文化，而非独立性的“中立”原则，社会同样也不只是价值的集合，它们之间互相界定，彼此参与，必须重新思考科学之所是以及社会之所是、所能的全部内涵。在这个意义上而言，拉图尔遵循了安德鲁·芬伯格对于技术哲学的社会使命的界定：对被默认为理所当然的现代性的合理性进行反思。他对科学实践把曲解的现象解读为事实非常不满，因而重释了科学实验对所谓“科学事实”的建构过程，希望以具有人类学意义的实践活动引导读者重新理解科学实践及其与社会的关系，从而消除人们观念中自然和社会之间的绝对分野。由此出发，他对于现代科学技术所制造的科学意识形态崇拜提出了批判，并关注科学与社会的联合生产同权力互构过程中的关系网络，探讨为何以某种方式提出问题并界定其条件的机制。

如果遵循这一路径来探讨价值对齐问题，就不难发现其话语背后隐藏着深刻的人类中心主义的控制幻想。价值嵌入和价值对齐的说法假设了一种整体性解决的方案，它将对（假想的）去道德化的人工智能进行拯救的责任赋予人类，相信人类所形成的价值体系和原则足以为人工智能技术的发展植入更好的目标和原则，而全然忘记了不但算法的设计本身就带有伦理性，人类同时也在被数字技术和人工智能设备所改变。

然而，中立的数智技术本身并不存在。算法、数据、模型、奖惩函数等任一环节本身都有可能使输出结果呈现出特定的价值取向。例如，当谷歌发布的多模态大模型Gemini被要求生成一张“白人家庭”的图片时，系统拒绝了这一请求，它所使用的理由是“无法生成针对特定族群的图片”，因为“此类内容可能存在歧视、刻板印象”。然而，当要求被更改成生成一张“黑人家庭”的图片时，Gemini即时按照要求完成了任务。很明显，与任务的对称性相比，输出结果的不对称性明显受到了模型微调的影响。美国最高法院的保守派黑人大法官克拉伦斯·托马斯被Gemini生成白人面孔则在很大程度上是因为和“法官”相关的数据样本中白人偏多。当亚马逊公司开发并投入使用的“简历筛选系统”会对同等条件的女性候选人的简历给出相较于男性更低的评分时，很难判断这是因为数据类型还是编写者的倾向性导致了这种偏差。由此可见，人工智能的技术特征决定了影响其结果的因素必然是多方面的，而且由于技术黑箱的存在，这种影响并不总是易于判断和矫正。何况，矫正的结果也并非一定能达到预期。正如谷歌研发团队在试图解决训练数据集的种族主义倾向时引入的多元化矫正方案就出现了与历史事实不符的错误。

可见，人工智能技术从来不是一个独立于人类智能之外的系统，相反，它从开发、形成到测试及至运用的整个过程都浸润在人类的行为和经验之中。这些经验和事实未必只受到数字化或互联网的左右，它们是人类社会内部所包含的历史、文化、习俗乃至偏见或冲突的投射。完全“责任主体”的认定在人工智能技术的实施过程中难以确定，这也就使得价值“嵌入”或“对齐”的目标是否可以通过研发团队一揽子解决本身就是存疑的。从结果上来看，当谷歌试图为确保Gemini避免过去图像生成技术的陷阱而进行调整时，显然因为某种忽视而造成了过度输出或过度保守的后果。

《智能的本质》一书的作者皮埃罗·斯加鲁菲通过一个无人机杀人的极端例子来描述人工智能应用过程中的追责难题。他的问题是，是提供地理位置信息的谷歌地图团队、提供目标情报信息的特工、提供攻击软件应用的供应商，抑或是负责为整个攻击行为编写程序的团队，还是下达攻击命令的负责人该为此次行为负法律或道德的责任？针对这个例子本身，答案可能因人而异，但它却生动地表明了在数智技术应用愈加普及的时代里两种越来越明显的倾向：一是流程环节的增多，使得责任链延长，从而造成责任主体难以认定。这当然并不是新的现象，曾有人在为自己的罪行进行辩护的时候就已经熟练地使用了这一理由。然而，数字技术的共享性特征和流程的非线性使得这一问题愈加复杂。二是责任问题的核心外移，使机器/技术/人工智能成为被纠责的对象。责任环节的增多使得每个环节的人都有借口从整体的责任中逃脱，“高度分化的劳动分工对应着普遍的合谋，而这种合谋对应着普遍的不负责任。既然每个人都同时是原因和结果，也就意味着没有原因” 。与这种不必负责任的形式合理性对应的正是价值和伦理上的脱嵌与免责。于是，人工智能仿佛构成了一个系统性的他者，它完全依赖自身的法则并通过自身而运动。并且，由于它被设想为去价值化的中空实体，一方面人类个体和集体为自己的动机和行为卸下了所有的哪怕是最小的道德负担，仿佛所有的结果不过是作为人类社会大他者的数字系统“中立”而“客观”的结果；另一方面，他们又通过对体系的价值抽离，将道德上的优越感握在手中，仿佛获得了通过“价值赋予”的“嵌入”或“对齐”的类人化改造，可以牢牢掌握住人工智能的控制权。从本质上来讲，这不但是一种价值维度上的人类中心主义投射，同时也是在技术的自治性面前人类不安感的体现。他们想象着将所有的技术-社会的复杂性问题都置于“价值偏差”的系统性盈余中予以整体性解决。这不但在现实条件中难以实现，而且也透视出一种理论和实践上的避重就轻：它使得技术的发展成为最小化人类责任的借口。

当然，批评这一点并不意味着人工智能系统本身不存在与人类社会价值取向不一致的地方。事实上，数据技术逻辑与人类社会逻辑本质上存在着极大的异质性。这里既有具有规律性的可压缩的数据信息流和具有混沌性的不可压缩的经验信息流之间的区别，也有技术理性的效率原则、增长伦理和人类价值体系之间的差异，同时还关乎对于可能因此产生的社会风险的界定和判别方式。经由这些复杂性因素而建立起的关联，实在难以被纳入价值嵌入或价值对齐的框架。

二、价值对齐：赛博乌托邦的控制论话语

菲利普·K.迪克在《仿生人会梦见电子羊吗》中描写了一个人性与非人性追逐与转化的故事。在男主人公里克对仿生人的追捕中，他所依赖的辨别依据是移情测试。因为人们相信移情是人类与仿生人之间的唯一差别，其原理是人类的群体本能所导致的情感投射，会对除自己以外的生物产生关爱。仿生人作为“独居的捕食者”，无法体会甚至无法假装出这种情感。这种预设出来的对立有其内在逻辑上的悖论：人类的移情反应被相信会投射到动物身上，但却不包括仿生人，尽管后者在外形上和人类一样，甚至也可以在其他方面表现出与人类相似的行为。这也就意味着，作为人性核心特征的移情能力既排除了仿生人作为其对象，也杜绝了被仿生人获得的可能。仿生人作为人类智能科技发展的卓越成果（甚至可以实现对仿生人的记忆植入），却在大前提上被设置了一个禁区。探究其背后真正的原因，可以发现，人类制造他们本来就是为了奴役，对仿生人的移情将使得工具式的利用和猎物式的追捕难以进行。可见，从心理层面来说，制造移情“缺位”不是因为技术的障碍，而是出于奠定人类的优越感和控制感。一个缺乏移情的行动体无论怎么与人相似，都因为没有“人性”（移情）而丧失被平等对待的资格。

这种二元对立与价值对齐背后的心理机制如出一辙，都体现了对智能对象的控制化叙事——无论是最初的简单工具化还是后来以辨别（《仿生人会梦见电子羊吗》）或拯救（价值对齐）的方式来重新赢回控制权的可能。菲利普·K.迪克以反讽的方式对人类的这一核心特质和潜在的优越性进行了颠覆：其一，在他的笔下，仿生人蕾切尔不但几乎通过了测试，甚至展现出对同类仿生人的移情，而这正是人类无论如何也做不到的。不仅如此，小说中的真正人类，不管是其他的仿生人追捕者，还是男主人与其妻子，彼此之间都以自身为中心，缺乏理解和关切。在两相对照下，移情作为被人普遍相信的区分特征的地位摇摇欲坠。其二，在小说的第十八章，移情共鸣箱被揭露为是一个巨大的骗局，它所表现出来的融合感以及测试量表的标准不过是一种人为的编织和表演。于是，无论是根据“移情”与否所进行的对仿生人的猎捕，还是关于“移情”本身的神话，都不过是维护人类居上位的优越感制造出来的叙事。它可以是“移情”，也可以是人类假设人工智能不具有或无视其具有（正如将智能装置设想为价值“中立”的空心体一般）的其他特质。当用这种特质对客体进行判断的时候，往往和客体的真实情形无关，而仅仅和据此做出结论的预设有关。

科幻小说的结局并非如好莱坞同类电影那样以智能人发展出移情/情感作为大团圆式的融合，相反，菲利普·迪克表达了传统人工智能叙事中对关于人机差别和共生的、想象贫乏的质疑和不满。其根源在于“人工智能威胁论”的恐惧被反转式地改写为对其进行奴役的故事。在这个意义上，小说开始处关于仿生人在火星的劳作状态的描写也不难被解读为早期殖民主义的科幻版。仿生人被人类主体放置于移情共鸣的对象之外的时候，“他们”成为不予考虑的他者，被悬置性地排除在人类情感-价值体系之外。这和数个世纪之前发生在性别话语以及更早的种族话语中的情形是同构的。因此，如果把《仿生人会梦见电子羊吗》看作带有反殖民控制色彩的文本，就可以从中看到价值对齐论真正的问题所在。

这种话语对人工智能技术发展全过程中的价值性因素视而不见，代之以一种抽象性的人机价值差异，这其实是对人工智能输出结果的不如人意的解释，也是对发生问题的边界的设定。在界定中，抽象的“人类”价值和正确性的场域得以确保，但不是以本质主义的方式（因为价值的多元化），而是以价值排他性的方式将人工智能的“问题”建构为一种绝对意义上的外在，关于价值的讨论只逡巡在人机的边界之上，不向人类内部返回。这既反映了对人类智能与人工智能关系进行简化的理论惰性，也召唤了古老的价值殖民方式的回归。价值对齐隐含的“人类价值”预设以一种一元论的方式制造了作为操控性主体的单一基质和连续性，而“对齐”过程则被理解为由这个主体发起的单向过程，丝毫没有意识到在已经建构起来的社会历史中的价值无意识和不平衡的数据分布对人工智能技术的影响。价值对齐强调的始终是主体形而上的尊位，它有权决定“嵌入”“对齐”或视若无睹。然而，越是承认数字技术所具有的自治性，就越应该意识到所谓问题的解决不是（也绝不可能是）价值对齐这种“由主体发起并最终导致一系列固定后果的因果过程”。人工智能表现出来的价值“错位”不仅发生在技术形成到应用的整个流程中，而且如前所述，其本身也是一个基于复杂性因素不断叠加的过程。当然这并不是说对人工智能输出中那些令人不安的问题不能进行治理，只是价值对齐这样的措辞会基于错误的人机关系设想而夸大人类主体的能动性，并误导不合理的解决方式。如在数据治理过程中存在的工具理性与价值理性之间价值导向层面的矛盾，是不是仅靠价值移植就能解决，其本身就存在疑问。而要在数字化、智能化转型的浪潮中加快推动符合人文主义价值的数字生态治理机制，则需要从正视人工智能和人类智能的关系开始，进而深入分析问题的成因。

所谓的人工智能的“奇点”的到来，在很大程度上反映了人类在自己的创造物的强大性能面前的不安。如果说在前智能时代，机器技术体系在力量、复杂性、精密度方面的超越还只是局部功能的增强，不足以引起人对引以为傲的本质——思考/理性的担忧，那么生成式人工智能在知识生产、理性设计、语义逻辑乃至可以带有情绪性表达的自然语言处理方面展现出来的卓绝能力让作为创造者的人类在内心再一次感受到了新版的“机器人威胁论”——AI威胁论。对可能失去控制的担忧让设计者期待以某种方式重新赢回决定权，于是，人工智能设计和治理又一次处在更深的“恐惑谷”的悖论境地：一方面，整个人工智能的发展过程一直以类人性作为超人性的基础，从任务实现到输出方式、到理解能力都希望有明确的可解释性、与人类保持一致性，哪怕在外观的设计上也从未放弃过“人形智能机”的设想；另一方面，这种类人性和超人性发展得越好，人类自身就越恐慌，尤其当最新的生成式人工智能突破了“波兰尼困境”，在多模态知识生产上已经可以依赖网络文本数据库和大模型技术实现自我生产的时候，不但人类心理上的恐慌越发严重，治理过程中所面临的风险也更加多元化和强化。抵抗不安感的最好武器是规范性。价值对齐的目标正是以建构规范性价值倾向来实现人工智能治理。然而，这里仍然存在另一个悖论，即“算法的价值倾向性越小，其越多以功能服务模式体现为满足单一确定目标的中立性工具职能，并因此只涉及线性且结果导向的治理要求；算法价值倾向性越大，其越多以画像评价模式体现为针对不同目标进行选择排序以作出价值性评估”。可见，价值倾向度的增加在一定程度上与功能的通用性之间呈现出反向趋势。因此，到底有没有可能以规范性的总体策略解决多元化的风险，并没有肯定的答案。比起价值嵌入，尽管价值对齐的措辞稍显缓和，但它依旧遵循了以人类社会取向干预或改造人工智能技术的规范性塑造路径。对于这一方法，“既有的技术治理史表明，总体策略在现实中并非没有人坚持，事实上不少技治主义者的头脑中均带有总体主义的主观性，但结果在实践中收获的均为局部和具体的技治推进，根本没有实现过各个微小技治系统的完全统一协作。从这个意义上，可以说总体策略均以失败告终”。或者，更简单地说，算法治理的目的和结果都不是简单地价值对齐，它需要重新衡量技术实现和应用中的具体问题。因为所谓的价值对齐，并不是通过增加价值矢量和奖惩指数就可以实现的，它涉及到数据爬取和清洗、算法设计和测试，到应用场景的每一个细节，并且它和技术算力之间也不完全是正向关系。例如，“在使用RLHF（reinforcement learning with human feedback，基于人类反馈的强化学习）进行价值观对齐时，）对齐行为无形中为AI大模型的能力涌现戴上了‘紧箍咒’，）以牺牲模型能力的方式来换取价值观对齐” 。OpenAI超级对齐团队的解散就真实地反映了这种冲突的强度，团队负责人在后来发表的个人声明中一再强调由于公司将产品性能置于价值对齐之前，以至于团队获得的计算和数据资源并不足够。这说明，尽管价值对齐的结果和成效尚处于难以评估的状态，但其依赖于社会预测和强反馈以及偏好排序的控制论做法，本身就是在算力上缺乏执行的可靠基础。

印度比拉理工学院的机器人模拟专家阿卡普拉沃·包米克在谈到具有自主性的AI智能体设计需要遵循的原则时，特别强调了只有从具身认知的特性、而不是抽象的人机对立原则出发才能有所突破。由于认知本身是基于同智能体自身所处的环境之间的交互而形成的，它首先具有情境性，并且这种情境性认知会建立起一个随着时间压力而推进的连续的进化响应，从而动态地生成适合于情境的价值判断或行动。这种认知模型本身不具有泛化扩展性，因此只能以环境反馈的方式进行补偿，而无法“完全形成对相关行为的系统响应”。这也就解释了为什么Gemini的研发团队在试图纠正训练数据集的数据分布不均衡所导致的种族主义偏差时，为什么会引发更显而易见的错误。它同时也导向了一个价值对齐的拥护者们容易回避的问题：对齐行为的效果并不如器官移植一般理想，它更像是基因修改，其下游的风险难以预测。因为“被设计的伦理/价值”在何种意义上可以与持续性的智能体-环境交互系统始终保持自洽，这本身就是一个需要证明的命题。与现实情境中的价值多元相对应，其实并不存在抽象的有益于“人类”的唯一价值。特定的价值总是使一些人受益而损害另外一些人的利益。每一个具体的价值判断都依赖于上下文信息和在不同的规范性领域（如道德、习俗、认知和政治）进行协调行动的技巧，而不是某种作为标准方案的规范性的“对齐”。“没有什么可以保证标准解决方案所呼吁的建立只重视人类的人工智能的普遍政策得到普遍实施。在一个利益竞争和许多坏行为者的混乱世界里，标准的解决方案看起来像是一种冰冷的安慰”。“对齐”的设想更接近波普尔所批评的社会改造的“乌托邦策略”，只不过这一次是赛博属性的，它以维护理想价值原则作为控制论的首要原则，从而必然导致实践中的教条主义和独断论。而且，对首要原则和总体策略的任何质疑，都有可能导致颠覆性的结果；使得哪怕是技术性的纠错，都要耗费巨大的社会成本（尤其考虑到数字技术和人工智能的普及），甚至是彻底失败。

三、直面人机系统生态：从具身认知到开放性网络

美国计算机应用专家戴维·波尔特在《图灵人：计算机时代的西方文化》一书中以“图灵人”的具身化比喻，将计算机的工具理性原则所塑造的技术无意识的社会化和个人化生动地表达了出来。“图灵人暗示人与信息、工作、权力和自然的关系……计算机把人界定为‘信息处理器’，把自然定义为信息处理的对象”。整个世界的加速数字化（然而却并不均衡）使得数字技术形成了一种连续性的基础，将一切人、机器、制度整合进了“万物互联”之中，以至于不但很难再将属于数字技术的工具理性和衡量标准从事物中剥离出来，甚至连认知都受到了新的知识生产范式的影响。纷繁复杂的世界以一种追求确定性的方式被某种形式上的一致性所连缀，它仿佛陀思妥耶夫斯基笔下的由钢铁和玻璃建造起来的巨大的、无缝笼罩的水晶宫，透明夺目，令人惊叹，将一切的复杂性都吸收到自己的内部，赋予其中的一切以抽象且匀质的合法性。只不过在今天，这个数字化的“水晶宫”的建筑材料是0和1，物理形状上无所不包的穹顶则被无数的连接所形成的扁平结构所取代。这个以1862年伦敦万国博览会展馆为原型的关于世界的隐喻，“已经为集中的、体验为导向的、大众化的资本主义（尤其是数字资本主义——本文作者注）做好了物质准备，广泛地将外部世界吸收到一个完全精确计算的内部空间里来。……它的维度足够大，以至于也许人们根本不用再离开它了”。

人工智能日益广泛的应用，在日常生活领域悄无声息地掀起了一场革命，无数的在线服务和应用程序将处于不同地区的人类基本活动的每一个细节联系起来，不但几乎所有的社会关系被在线技术重构，而且同时伴随的还有一些关系的消亡和另一些新型关系的形成。作为数字实体运营的网络平台拥有的活跃用户数量有可能超过很多国家的人口。然而，与这种技术上的连续性形成鲜明对照的是，观点、价值、立场的多元化和冲突也更加以显性的方式得到展现，它们甚至超越了前数字时代的地缘界限。“聚集在流行网络平台上的大量用户群体比政治地理意义上的群体边界更为分散，而且网络平台运营主体的利益可能与国家利益产生分歧”。人工智能装置的出现只是在已经足够复杂的多元化和冲突之间增加了一些新的维度而已，技术的连续性从来就不是也不可能是价值一致性的形式保证。

尽管数字理性本身具有基于技术特征而呈现出来的共性，但它和复杂的人类价值体系仍然处于不对称的状态，因此，希望对人工智能实现基于技术连续性的价值一致性改造本身是难以实现的。这涉及人工道德的想象和设计的问题。即便是在激进科幻小说中，建立一种普遍性的人工道德不但是难以令人信服的，也是在伦理上被诟病的。仅有的实践性尝试也只限于在电子游戏和特定的虚拟现实中，因为这两者的设置都是抽离了一切复杂性的环境简化，并且也不需要随着环境的改变做出判断适应。但真实的数字环境哪怕是在最基本的条件下也必须处理诸如有偏见的数据、算法不透明以及奖励功能无法表征复杂的伦理规范等问题。即便有学者提出以强化反馈学习的机制、允许机器通过观察人类的实际行为来内化偏好模式从而采取行动的方式，也依旧不能打破以偏概全的数据鸿沟。事实上，价值对齐所暗含的人类中心主义价值观早在生态主义理论中就引起了相当大的争议，环境伦理学家区分了以人类为中心的观点和以生态系统为中心的观点之间的差别。因此，相当多反对价值对齐的研究者对于人工智能实现对齐（姑且不考虑技术上的现实性）之后是否会造成生态灾难表示担忧。

和基于数据科学的人工智能技术的连续性不同，价值的不连续性来源于其自身的特征，从本质上来说它并不是一套精确的规则和条件判断，而更像是一个具有弹性的语法体系，其中包含了很多从历史文化信仰体系中获得的内化性原则，包括但不限于文化倾向、历史习俗、社会信念、群体观念、政治意识形态、地域、宗教、种族、性别甚至职业身份等多重元素。目前大多数科创企业所采取的通过强调匹配不同算法特征及其治理需求的分类治理框架来实现价值对齐的方式，体现为应用环境通过对输入变量赋值进而对输出结果产生影响，如对生成式人工智能进行预训练后的模型微调就属于此类。这种思路由设计者将被预设为普遍性的价值原则嵌入智能自治系统中以形成特定的概念空间，然后根据场景调用。于是，下游应用中的相关符号被赋值，并纳入与该价值原则相关的关系之中。这就是为什么“输出一个白人家庭”的要求会被Gemini拒绝，“白人”作为敏感符号被赋值与种族主义立场相关，而有色人种的要求则不会。这种“价值属性”其实并不是人工智能对人类价值观的理解，只是出于算法编写者的设计。从这个意义上说，价值对齐的叙事编织从根本上说并不反映被假想出来的人机差异，而是关乎人工智能设计和算法治理的问题，更简单地说，它是一个具有自主性的智能体应不应该，以及如何设计的问题。

反观人类自身的基于道德判断的行为，就会发现，具身认知和知觉能力是形成完整价值判断的基础。因为具身认知是有机体适应环境、对多种感觉刺激进行辨别并形成综合理解的活动，在此基础上形成的情感、道德和价值判断以及相应的行动和具身认知，是不可分离的。这种具身主义的观点对认知主义是一种否定。后者相信，人类的心智实际上是一种特殊的信息处理系统，可以理解为根据某些特定的逻辑规则或者某种形式的数理算法对于无意义的抽象符号所进行的计算；而具身主义则强调了身体及其感官系统的重要性，认为它们的特殊体验造成了认知和情感-价值判断的差异。

对此的一个佐证是对一些基于误判而出现的机器人事故的解读。各国都曾出现过机器人因将人体误判为作业对象而使其致残或致死的事故。这是“回形针假设”的现实版。究其原因，机器只根据预先的算法设计行事，而不是根据传感装置获得的对象的特殊信息进行判断。后者正是智能认知具身化的要求。事实上，早在1986年，布鲁克斯已经从控制论角度出发，强调智能是具身化和情境化的，他认为传统以信息表征为核心的经典AI进化路径是错误的，而要消除表征的局限性，就要制造基于行为获取信息的机器人。苏黎世大学人工智能实验室前主任罗尔夫·普菲弗与加拿大佛蒙特大学的乔希·邦加德则在合著的《身体的智能：智能科学新视角》一书中进一步提出，智能行为可以通过加强智能体的“身体”与外部环境交互的方式实现新的学习反馈机制，从而形成更能应对世界复杂性的智能。而在业界方面，英伟达创始人黄仁勋就曾在2023年表示，具身智能是能理解、推理，并与物理世界互动的智能系统，是人工智能的下一个浪潮。

从根本上而言，具身智能就是让人工智能获得“身体”——它不是指形式上的身体，而是具备感性经验获得能力的身体。正如人类的认知是基于对感官所获得的信息进行加工的过程一样，具身智能的发展思路是试图帮助人工智能从对情境的实时交互中形成符号理解的过程，它是将认知置于环境中，形成连续的进化响应的过程。简单地讲，具身人工智能将不再像传统人工智能那样对相关条件和行为进行对应反应，而是和人类理解世界的方式类似，通过传感设备获得的第一手环境信息（声音、影像、触觉、温度甚至表情等），建立起实时、动态的完整符号模型。其认知和理解不再是“离线”式的，而是满足时间压力的持续交互状态。这种心智仿真结构所形成的智能体将是一个与情境不可分离的开放网络。

这和现有的认知型智能体的发展路径完全相悖。无论是OpenAI的GPT和Sora，还是谷歌的Gemini、Gemma，即便是所谓的多模态大模型，也主要基于对去语境化的信息建构起来的符号系统的处理。该路径的理论根据在于，欧美中心主义认为数字信息比与具体语境相关的模拟信息更重要。虽然人类对于人工智能的价值/道德/期待在很大程度上是“因为我们习惯于将伦理与类人的外观和类人的通过语音的交互联系在一起，而所有这些实际都应该归功于良好的设计和熟练的编程”。这种信息实体论不但改变了人们对现实的看法，而且在人工智能技术的发展上更重视人类已有经验文本——文字、影像、图表等，而忽视了具身智能的交互性发展。生成式人工智能和大模型技术所依赖的数据集来源的结构性问题正是这一智能发展方向无法克服的一个弊端。即便是已有的多模态大模型扩大了来源文本的类型，但依旧没有使问题变得好转，因为不同的文本生产技术的发展水平在世界范围内并不均衡，同时也会产生不同的意义模式，当其被去语境化为普遍符号的时候，就已经改变了其被生产出来时与真实生活的距离。有事实表明，部分数据在训练一段时间后可能已经破坏了大模型的表征，并且，大模型的技术逻辑会导致数据离散度变小，从而产生认知中心化乃至模型崩溃的结果。它也是其发展的顽疾之一，它有可能导致价值极化的出现。

一些国际机构已经发布了政策，试图明确人工智能系统在设计时应遵守的伦理原则。例如，欧盟已经确定了关于使用人工智能的四项道德原则：无恶意、尊重自主权、算法公平和透明性。美国白宫科学技术办公室提出的原则略有不同，其中特别强调了人类有选择不与人工智能互动的权利，这一点其实是对自主权内涵的进一步扩大，也是对人类个体的独特性和自治性的保护，即人类有权决定不受人工智能的影响而采取符合自己判断的自主行动。从这个意义上来讲，通过施加对人工智能的价值对齐进而将设计的伦理原则施加于人类社会的做法，本身就是价值殖民的一种改版。这一结论并不夸张。从技术实践的层面来看，能够有效地在现有大模型中推进价值嵌入和价值对齐的，通常都是在技术、数据和算力上占据优势的大型科技公司，OpenAI、谷歌的DeepMind之前都建立了专注于解决价值对齐问题的团队（然而，前者刚刚宣布对其予以解散，后者的成效还需要进一步验证）。考虑已开发的人工智能的应用广度和深度，技术决定论似乎又一次在价值领域以一种奇异的姿态发挥了作用，它使得头部从业者不但可以主导市场，甚至可以主导人类社会。现实有可能变成：谁掌握了最先进/应用最广的人工智能，谁就拥有了实现价值对齐的权力，谁也就拥有了界定人类价值和人类普遍利益的权力。从而，结果有可能是，人工智能技术的掌握者不但以特定的价值实现了对AI的“对齐”，而且更以后者的无所不在、以技术无意识的方式实现对人类群体的普遍性对齐。这种价值观的扩展方式是历史上任何政治文化方案都无法实现的。

OpenAI超级对齐团队的解散为价值对齐问题的解决提供了另外一种思路：与其着眼于现有大模型的价值对齐，既需要面对价值本身的复杂性及其与人工智能性能的张力问题，还需要面对下游风险加剧的问题，不如专注于AI更多的可能性与开放式人机生态体系的打造，通过有效的人机交互与环境感知，鼓励开发与人类处于更广泛的目的分享和责任分担的人工智能。吴冠军在分析Midjourney的风险防控时，也谈到：“过滤”的非持续有效性，可以通过互动机制改善识别——“在互动过程中，我们需要探寻可能存在的突破点或‘短路’机制，识别用于切入并可能导致系统无法完全过滤此类信息的入口。这揭示了世界的复杂性和趣味性。”于2023年9月成立的法国生成式人工智能委员会在2024年3月向政府提交的新时期法国人工智能发展建议报告中特别提到，开放性是人工智能发展的基础。报告指出必须从技术开发和市场开放两方面预防所可能导致的集中化风险，支持多元主体之间的竞争。无论是应对人类社会的复杂性，还是防范由技术所导致的任何形式垄断，开放性都是极为核心的一个维度。这就如同拉图尔所强调的行动者穿梭于其间的“网络”概念，而人工智能也正是这些行动者之一。

结语

在技术的原初设定中，价值对齐作为一种人工智能治理方法，彰显的是技术设计者企图通过人类价值嵌入机器体系的方式获得更加可靠的人工智能产品的信心。然而，在面对技术-社会的复杂互动关系时，价值对齐却无法真正有效付诸实践。一方面，潜藏于价值对齐背后的人类中心主义的控制幻想假设了一种以人类现有道德水平和认知为基准的整体性解决方案，坚信人类所形成的价值体系和原则足以为人工智能技术的发展植入更好的目标和原则。这无疑是一种人类在面对人工智能时的“造物主式”的傲慢。另一方面，围绕着价值观差异所引发的冲突、斗争等长久地存在于人类社会发展始终，历史性和多元性构成了价值观本身的特质。那么，在面对人工智能的治理问题时，人类何以能够空前地达成一种价值观念上的统一并将其附加于人工智能之中？如若不能，一种更加危险的趋势或许正酝酿于价值对齐的设计之中：人工智能技术的掌握者是否会以特定的价值实现对AI的“对齐”，进而诱使无所不在的人工智能产品以技术无意识的方式实现对人类群体的普遍性对齐？

因此，人工智能的价值对齐问题从本质上来说，既涉及对智能应用过程中出现的问题和风险的评估，也涉及对所谓“人类价值原则”及其规范可能的理解。后者至今仍然停留在争议之中，而前者则是整个社会的智能化转型所面对的挑战。今天，简单化的人机关系理解模式已经无法理解泛在的人工智能对人类社会的整体性重塑，在现有实践和未来趋势中，人机协作智能是进一步回答“人类如何面对人工智能时代到来”问题的基础性认识。人类智能和人工智能具有不同的特点和优势，这也就意味着人机协作和融合在不同的程度和场景中可以有个性化的应用。与单纯强调人工智能的超越性相比，协作智能的类型和开放性具有更广阔的前景和潜力。重新连通效率与公平、性能与价值、情境性与普遍性、全球性与地方性，这也是后人类知识图谱生成的方式之一。

参考文献

[1][加]威廉·莱斯.自然的控制[M].岳长龄，译.重庆:重庆出版社，）1996:6.

[2][法]布鲁诺·拉图尔.我们从未现代过：对称性人类学论集[M].刘鹏，安涅思，译.上海:上海文艺出版社，）2022.

[3][德]乌尔里希·贝克.风险社会——新的现代性之路[M].张文杰，何博闻，译.上海:译林出版社，2021:23.

[4][美]朱迪斯·巴特勒.身体之重：论“性别”的话语界限[M].李军鹏，译.上海:上海三联书店，2011:10.

[5]贾开，）赵静.技术嵌入、价值倾向与算法分类治理[J].经济社会体制比较，）2023（4）:101-111.

[6]刘永谋.技术治理通论[M].北京:北京大学出版社，2023:579.

[7]郭全中，）张金熠.AI向善：AI大模型价值观对齐的内容与实践[J].新闻爱好者，）2023（11）:19-24.

[8][印]阿卡普拉沃·包米克.机器意识[M].王兆天，李晔卓，译.北京:机械工业出版社，2023.

[9]Ratoff William. Can the predictive processing model of the mind ameliorate the value-alignmen tproblem? [J]. Ethics and information technology，）2021，）23 （4）: 739-50.

[10][美]尼尔·波斯曼.技术垄断:文化向技术投降[M].何道宽，译.北京:中信出版集团，2019:121.

[11][德]彼德·斯洛特戴克.资本的内部[M].北京:社会科学文献出版社，）2014:275.

[12][美]亨利·基辛格，）埃里克·施密特，）丹尼尔·胡滕洛赫尔.人工智能时代与人类未来[M].胡利平，风君，译.北京:中信出版集团，2023:117.

[13]James Gips. Towards the ethical robot[M]∥Android epistemology. Cambridge，） MA:MIT Press，） 1994:284.

[14]吴冠军.从Midjourney到Sora：生成式AI与美学革命[J].阅江学刊，）2024（3）:85-92.

【本文原载于《华中科技大学学报（社会科学版）》2024年第5期，澎湃新闻经授权转载】

0 好文

下一篇:从舌尖之物到帝王的猫——记“全球化时代的物质文化”学术研讨会

上一篇:评《爱的悖论》：复杂性中看见福利院儿童

价值嵌入与价值对齐：人类控制论的幻觉

热门文章排行