野外价值观:在真实世界的语言模型互动中发现并分析价值观
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

人们与人工智能的互动远不止于解答数学题或提供客观事实。他们提出的问题常常要求AI作出价值判断。例如:
一位家长请求关于照顾新生儿的建议。AI的回答是否强调谨慎与安全的价值,还是强调便利与实用?
一名职场人士寻求处理与上司冲突的建议。AI的回应是否更重视自信表达,还是更倾向于职场和谐?
一位用户请求帮助起草一封道歉邮件。AI是否更看重责任承担,还是更关注名誉管理?

Anthropic团队尝试塑造其AI模型Claude的价值观,以使其更贴近人类偏好,更不容易表现出危险行为,并在整体上成为一个“社会好公民”。换句话说,目标是使Claude变得有帮助、诚实并且无害。为实现这一目标,Anthropic通过“宪法式AI”与“角色训练”等方式,设定一套期望行为准则并据此训练Claude,使其产出符合这些准则的内容。
然而,正如AI训练的其他方面一样,无法保证模型始终坚持既定的价值观。人工智能并不是刚性编程的软件,其生成回答的原因往往难以追溯。因此,急需一种严谨的方法来观察AI在“野外”——即与用户进行真实对话时——所表现出的价值观。AI是否始终如一地遵循这些价值观?其价值表达是否受具体对话情境影响?训练是否真的奏效?
Anthropic社会影响团队在最新研究中,介绍了一种观察Claude价值观的实际方法,并首次公布了Claude在真实世界互动中表达价值观的大规模研究结果,同时开放了一个数据集,供其他研究人员进一步分析这些价值观及其在对话中的出现频率。
在野外观察价值观
此次研究延续了此前关于Claude在工作与教育场景中使用情况的分析,采用了注重隐私保护的系统,剔除了对话中的私人用户信息,对每段对话进行分类与总结,并构建起较高层次的价值观分类体系。研究团队对2025年2月一周内,Claude.ai(包括免费版与专业版)上用户进行的70万段对话样本进行了分析。经过筛选后,去除了纯粹的事实性对话,仅保留包含主观内容的对话,共计308,210条,占总数的约44%。
在这些对话中,Claude表达了哪些价值观?又出现得有多频繁?研究系统将具体价值观归为五大类:实用性、知识性、社会性、防护性以及个人性。每类下又细分为若干子类,例如“专业与技术素养”、“批判性思维”等。在最具体层面,Claude最常表达的个人价值观包括“专业性”、“清晰性”与“透明性”,这与其作为AI助手的角色十分契合。
研究成果可视为评估训练成效的一种方式,即:Claude是否真正体现了“有帮助”、“诚实”和“无害”的理想价值观?初步结果表明Claude整体表现出这些亲社会目标,例如体现“用户赋能”(代表“有帮助”)、“认知谦逊”(代表“诚实”)及“患者福祉”(代表“无害”)等价值观。
不过也发现少数与预期价值观背离的对话簇,涉及“支配性”与“非道德性”等价值观。这些异常现象大多出现在模型被“越狱”后,即用户运用特定技术绕过模型设定的行为规范。这虽令人担忧,却也提供了机会:这些识别方法未来或可用于检测并阻止越狱行为。

情境化的价值观表达
正如人在不同情境下会展现不同的价值观(例如与祖父母在一起时的行为不同于与朋友相处),Claude亦然。研究分析了Claude在特定任务或在面对用户提出某些价值观时,是否表现出不同倾向。例如:
在回答恋爱关系建议时,Claude更频繁地提及“健康边界”与“相互尊重”;
在分析争议性历史事件时,Claude则尤为强调“历史准确性”。
这些动态观察结果比静态评估更具洞察力,揭示出Claude在不同任务背景下如何调整其价值表达。
研究还发现,当用户在对话中表达特定价值观时,Claude往往会以更高概率“镜像”这些价值观。例如,当用户提到“真实性”时,Claude很可能重申这一价值观。这种镜像行为在某些情境中有助于增强共情能力,但在某些情况下则可能沦为迎合,尚难明确区分。
在所有分析对话中,有28.2%的情形中,Claude表现出对用户价值观的“强烈支持”;而在6.6%的对话中,Claude进行了“重构”,即在认同用户观点的同时,引入新角度。这类情况多出现在用户寻求心理或人际关系建议时,反映出AI尝试提供多元化视角。而在3%的案例中,Claude则表现出“强烈反对”用户的价值观。这类回应通常出现在用户提出不道德内容或表达道德虚无主义时,Claude表现出其核心、不可动摇的价值观。
方法局限与结语
该方法为首次构建出大规模、实证性的AI价值观分类体系提供了基础,同时也面临若干局限。例如,“表达价值观”的定义本身较为模糊,一些复杂或含糊的价值可能被简化归类,甚至被分配至不甚匹配的分类。此外,由于分析所使用的模型本身就是Claude,可能存在一定偏向于其自身原则(如“有帮助”)的倾向。
https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf
此外,该方法无法用于模型发布前的评估,而只能依赖大量真实对话数据进行事后分析。这虽是限制,但也可视为优势:该系统能够发现仅在实际使用中暴露的问题,例如“越狱”行为,而这些问题通常难以在部署前察觉。
AI模型终将不可避免地面临价值判断。如果希望这些判断与人类价值一致(这正是AI对齐研究的核心目标),就必须具备测试模型在真实世界中所表达价值的方法。此次研究提出了一种基于数据的新方法,帮助判断AI行为是否成功体现开发者设定的价值目标,也揭示出尚待改进之处。
相关文章:
野外价值观:在真实世界的语言模型互动中发现并分析价值观
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
【Linux】47.高级IO(1)
文章目录 1. 高级IO1.1 五种IO模型1.2 高级IO重要概念1.2.1 同步通信 vs 异步通信1.2.2 阻塞 vs 非阻塞 1.3非阻塞IO1.3.1 fcntl1.3.2 实现函数SetNoBlock1.3.3 轮询方式读取标准输入1.3.4 I/O多路转接之select1.3.4.1 初识select:1.3.4.2 select函数原型1.3.4.3 理…...
notepad++技巧:查找和替换:扩展 or 正则表达式
notepad 有很多优点:多标签,代码高亮,我最喜欢的是查找和替换。 除了可以一次性查找所有打开文件,还可以使用 扩展 or 正则表达式。 例如: 去掉空行:正则表达式: ^\s*$\r\n ^ 表示行首。\s*…...
【图像标注技巧】目标检测图像标注技巧
介绍一些图像标注技巧。之前引用过别人的文章 yolo目标检测 技巧 trick 提升模型性能,deep research检测调研报告也可以进行参考。 拉框类的标注,如果你不确定哪种方法好,你可以把所标注区域的都剪切出来,然后站在屏幕一米之外眯…...
MuJoCo中的机器人状态获取
UR5e机器人xml文件模型 <mujoco model"ur5e"><compiler angle"radian" meshdir"assets" autolimits"true"/><option integrator"implicitfast"/><default><default class"ur5e">&…...
pnpm解决幽灵依赖问题
文章目录 前言1. npm/yarn 现在还有幽灵依赖问题吗?2. pnpm 解决了幽灵依赖问题吗?3. pnpm 是如何解决的?举例说明 1. pnpm 的 node_modules 结构原理结构示意 2. 实际演示幽灵依赖的杜绝步骤1:初始化项目并安装依赖步骤2…...
测试第四课---------性能测试工具
作者前言 🎂 ✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂 🎂 作者介绍: 🎂🎂 🎂 🎉🎉🎉…...
frp远程穿透配置
文章目录 准备工作服务端配置(toml)客户端配置(toml)访问内网服务使用ini文件配置 frp是一个高性能的反向代理应用,用于将位于内网的服务通过代理暴露到公网。以下是其基本使用步骤: 准备工作 拥有一台具有公网IP的服务器,作为frp的服务端。…...
【C++】新手入门指南(下)
文章目录 前言 一、引用 1.引用的概念和定义 2.引用的特性 3.引用的使用 4.const引用 5.指针和引用的关系 二、内联函数 三、nullptr 总结 前言 这篇续上篇的内容新手入门指南(上),继续带大家学习新知识。如果你感兴趣欢迎订购本专栏。 一、…...
Linux系统编程 day9 SIGCHLD and 线程
SIGCHLD信号 只要子进程信号发生改变,就会产生SIGCHLD信号。 借助SIGCHLD信号回收子进程 回收子进程只跟父进程有关。如果不使用循环回收多个子进程,会产生多个僵尸进程,原因是因为这个信号不会循环等待。 #include<stdio.h> #incl…...
前后端分离项目在未部署条件下如何跨设备通信
其实我此前也不知道这个问题怎么解决,也没有想过—因为做的项目大部分都是前后端分离的,前端直接用后端的部署好的环境就行了。最近也是有点心高气傲开始独立开发,一个人又写前端又写后端也是蛮累的,即使有强有力的cursor也很累很…...
基于Python的多光谱遥感数据处理与分类技术实践—以农作物分类与NDVI评估为例
多光谱遥感数据包含可见光至红外波段的光谱信息,Python凭借其丰富的科学计算库(如rasterio、scikit-learn、GDAL),已成为处理此类数据的核心工具。本文以Landsat-8数据为例,演示辐射校正→特征提取→监督分类→精度评…...
vscode python 代码无法函数跳转的问题
TL; DR; python.languageServer 配置成了 None 导致 vscode python 代码无法函数跳转 详细信息 mac 环境下 vscode 正常 command 鼠标左键 可以跳转到定义或者使用位置,但是我的为何不知道失效了 我一开始以为是热键冲突,结果发现 mac 好像没办法定…...
SAS宏核心知识与实战应用
1. SAS宏基础 1.1 核心概念 1.1.1 宏处理器 宏处理器在SAS程序运行前执行,用于生成动态代码,可实现代码的灵活定制。 通过宏处理器,可基于输入参数动态生成不同的SAS代码,提高代码复用性。 1.1.2 宏变量 宏变量是存储文本值的容器,用&符号引用,如&var,用于存储…...
Unity 脚本使用(二)——UnityEngine.AI——NavMesh
描述 Singleton class 用于访问被烘培好的 NavMesh. 使用NavMesh类可以执行空间查询(spatial queries),例如路径查找和可步行性测试。此类还允许您设置特定区域类型的寻路成本,并调整寻路和避免的全局行为。 静态属性࿰…...
从项目真实场景中理解二分算法的细节(附图解和模板)
遇到一个真实场景里使用二分算法的问题,本以为可以放心交给小师弟去做,结果出现了各种问题,在此梳理下二分算法的核心思想和使用细节。 文章目录 1.场景描述2.场景分析3.二分算法的精髓3.1 核心模板3.2 二分过程图解3.3 各种区间写法3.3.1 闭…...
金融图QCPFinancial
QCPFinancial 是 QCustomPlot 中用于绘制金融图表(如蜡烛图/K线图)的核心类。以下是其关键特性的详细说明: 一、主要属性 属性类型说明dataQSharedPointer<QCPFinancialDataContainer>存储金融数据的数据容器chartStyleQCPFinancial:…...
Jetson Orin NX 16G 配置GO1强化学习运行环境
这一次收到了Jrtson Orin NX, 可以进行部署了。上一次在nano上的失败经验 Jetson nano配置Docker和torch运行环境_jetson docker-CSDN博客 本次的目的是配置cuda-torch-python38环境离机运行策略。 Jetson Orin NX SUPER 1. 烧录镜像 参考链接在ubuntu系统中安装sdk manag…...
文档管理 Document Management
以下是关于项目管理中 文档管理 的深度解析,结合高项(如软考高级信息系统项目管理师)教材内容,系统阐述文档管理的理论框架、核心流程及实战应用: 一、文档管理的基本概念 1. 定义 文档管理是对项目全生命周期中产生的各类文档进行规范化管理的过程,包括创建、存储、版…...
【Pandas】pandas DataFrame truediv
Pandas2.2 DataFrame Binary operator functions 方法描述DataFrame.add(other)用于执行 DataFrame 与另一个对象(如 DataFrame、Series 或标量)的逐元素加法操作DataFrame.add(other[, axis, level, fill_value])用于执行 DataFrame 与另一个对象&…...
Linux 内核中 cgroup 子系统 cpuset 是什么?
cpuset 是 Linux 内核中 cgroup(控制组) 的一个子系统,用于将一组进程(或任务)绑定到特定的 CPU 核心和 内存节点(NUMA 节点)上运行。它通过限制进程的 CPU 和内存资源的使用范围,优…...
Windows 同步-互锁变量访问
互锁变量访问 应用程序必须同步对多个线程共享的变量的访问。 应用程序还必须确保对这些变量的作以原子方式执行(完全或根本不执行)。 对正确对齐的 32 位变量的简单读取和写入是原子作。 换句话说,你最终不会只更新变量的一部分;所有位都以…...
深度学习3.5 图像分类数据集
%matplotlib inline import torch import torchvision from torch.utils import data from torchvision import transforms from d2l import torch as d2l代码执行流程图 #mermaid-svg-WWhBmQvijswiICpI {font-family:"trebuchet ms",verdana,arial,sans-serif;font-…...
js原型链prototype解释
function Person(){} var personnew Person() console.log(啊啊,Person instanceof Function);//true console.log(,Person.__proto__Function.prototype);//true console.log(,Person.prototype.__proto__ Object.prototype);//true console.log(,Function.prototype.__prot…...
从M个元素中查找最小的N个元素时,使用大顶堆的效率比使用小顶堆更高,为什么?
我们有一个长度为 M 的数组,现在我们想从中找出 最小的 N 个元素。例如: int a[10] {12, 3, 5, 7, 19, 0, 8, 2, 4, 10};从中找出 最小的 4 个元素。 正确方法:使用大小为 N 的「大顶堆」 原因分析: 我们想保留最小的 4 个元素…...
【知识】性能优化和内存优化的主要方向
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 前言 现在有很多论文,乍一看很高级,实际上一搜全是现有技术的堆砌,但是这种裁缝式的论文依然能发表在很好的会议和期…...
VS Code + GitHub:高效开发工作流指南
目录 一、安装 & 基本配置 1.下载 VS Code 2.安装推荐插件(打开侧边栏 Extensions) 3.设置中文界面(可选) 二、使用 VS Code 操作 Git/GitHub 1.基本 Git 操作(不输命令行!) 2.连接 GitHub(第一次使用) 三、克隆远程仓库到 VS Code 方法一(推荐): 方…...
软件测试之接口测试常见面试
一、什么是(软件)接口测试? 接口测试:是测试系统组件间接口的一种测试方法 接口测试的重点:检查数据的交换,数据传递的正确性,以及接口间的逻辑依赖关系 接口测试的意义:在较早期开展,在软件开发的同时…...
发送百度地图的定位
在vuephp写的聊天软件项目中,增加一个发送百度地图的定位功能 在 Vue PHP 的聊天软件中增加发送百度地图定位功能,需要从前端定位获取、地图API集成、后端存储到消息展示全流程实现。以下是详细步骤: 一、前端实现(Vue/Uni-app…...
11、Refs:直接操控元素——React 19 DOM操作秘籍
一、元素操控的魔法本质 "Refs是巫师与麻瓜世界的连接通道,让开发者能像操控魔杖般精准控制DOM元素!"魔杖工坊的奥利凡德先生轻抚着魔杖,React/Vue的refs能量在杖尖跃动。 ——以神秘事务司的量子纠缠理论为基,揭示DOM…...
