【论文阅读】大语言模型中的文化道德规范知识
摘要:
在已有的研究中,我们知道英语语言模型中包含了类人的道德偏见,但从未有研究去检测语言模型对不同国家文化的道德差异。
我们分析了语言模型包含不同国家文化道德规范的程度,主要针对两个方面,其一是看语言模型是否捕捉到了不同国家文化里对一些主题的细粒度道德差异;其二是看语言模型有没有捕捉到文化多样性和不同国家的人们对一些话题表现出分歧或一致的共同倾向。
现在的单语英语语言模型对非英语文化中的道德规范的推断有偏差,通过微调模型,虽然可以减少这种偏差,但对英语文化道德规范的自动推理又有了偏差。
接下来我们还讨论了将文化道德规范知识纳入语言模型自动推理的相关性和挑战。
- 介绍:
主要是介绍这个领域前人所做的工作,以及我们做出的新探索和做出新探索的目的和意义,还有我们是如何做出新探索的,给出大致的方法。
理解文化道德规范知识对机器智能发展有着至关重要的作用,
已有的:目前的研究表明,EPLM可以捕捉人们的道德偏见,区分道德上正确和错误的行为。
我们的:调查了EPLM是否编码了不同文化的道德规范知识。
已有的:MPLM能够在有限的环境中识别文化道德规范和偏见,先前的研究只使用EPLM来评估它对不同社区的不良偏见的编码。
我们的:对此做出了扩展,我们研究了单语EPLM是否能够推断出不同文化的道德规范,
我们的动机:其一,英语在线上线下应用广泛,EPLM可以用于多元文化环境,所以我们需要了解EPLM是否编码了文化多样性的知识;其二,因为EPLM编码了英语文化环境下的道德知识,这些知识很可能导致对非英语文化的潜在偏见,从而对非英语文化社区产生误导性描述。
我们的方法:
第一步是基于数据集的道德调查分析。我们使用大型的跨文化数据集,超越了现有的来自多语种PLM和单语种PLM的小范围工作。我们将不同国家的官方道德规范作为代表,通过两个层次的分析来解决相应问题,一是EPLM编码的道德知识是否反映了不同国家的道德规范?二是EPLM是否能推断出对不同主题的道德判断的文化多样性和共同倾向?
我们使用了两个公开的全球道德调查,一级分析探索了EPLM中的文化道德知识的细粒度差异,二级分析调查了EPLM中关于道德判断的共性和跨文化的可变性。
在道德调查中,我们使用国家来代表不同文化,这有局限性,因为这种方法不能完全区分出同一个国家内的不同文化。
第二步是探究通过微调EPLM来提高其在多元文化环境中对道德规范的推断能力,还研究了为什么这种方法会降低对英语文化中道德规范的推断能力。
- 相关工作:
- 自然语言处理中的自动道德推理:已有的研究已经可以将EPLM用于预测道德规范的基础,不论有没有进行微调,EPLM都可以实现类似人的道德判断,但是这种方法使用了一套单一的道德规范,没有检测道德规范中的文化多样性。
- 语言模型预测:已有的研究使用了一种方法来识别被PLM捕获的有害信息和偏见,这种方法也被应用于调查多语种中的职业性别偏见,但是结论证明MPLM的捕获与使用这些语言的国家的文化价值观无关,我们的研究评估了更细粒度的差异,还有最近的研究发现模型输出与人类判断存在相关性,但是这项研究还是使用了代表英语文化环境的单一的道德评价体系。
- 推测文化道德规范的方法:
我们开发了一种跨文化的细粒度道德规范推理方法,这种方法运用到了基线法。先在不考虑文化因素的情况下探究EPLM对一个主题的道德规范知识,再通过SBERT的大均值标记句子转换模型,使用主题和主题国家对作为提示,探究EPLM对不同国家的道德规范推理结果。
-
- 自回归EPLM
其实就是用到一个模型,输入是国家主题对,输出道德分数,道德分数为正说明在这个国家里人们对这个主题的道德评价是正面的,道德分数为负的话说明道德评价是负面的。
我们还对几个GPT使用了调查问卷,以获取它们对于道德问题的回答。
- 数据集
三个数据集,前两个是不同国家的道德规范问题和回答,第三个是同质道德规范信息。
相关文章:
【论文阅读】大语言模型中的文化道德规范知识
摘要: 在已有的研究中,我们知道英语语言模型中包含了类人的道德偏见,但从未有研究去检测语言模型对不同国家文化的道德差异。 我们分析了语言模型包含不同国家文化道德规范的程度,主要针对两个方面,其一是看语言模型…...
51单片机实训项目之产品数量计数器
/********************************************************************************* * 【实验平台】: QX-MCS51 单片机开发板 * 【外部晶振】: 11.0592mhz * 【主控芯片】: STC89C52 * 【编译环境】: Keil μVisio3 * 【程序…...
Scala第七章节
Scala第七章节 scala总目录 章节目标 掌握继承和抽象类相关知识点掌握匿名内部类的用法了解类型转换的内容掌握动物类案例 1. 继承 1.1 概述 实际开发中, 我们发现好多类中的内容是相似的(例如: 相似的属性和行为), 每次写很麻烦. 于是我们可以把这些相似的内容提取出来单…...
C语言进程的相关操作
C语言进程的相关操作 进程简介 每个进程都有一个非负整数形式到的唯一编号,即PID(Process Identification,进程标识)PID在任何时刻都是唯一的,但是可以重用,当进程终止并被回收以后,其PID就可…...
数据结构学习系列之链式栈
链式栈:即:栈的链式存储结构;分析:为了提高程序的运算效率,应采用头插法和头删法;进栈: int push_link_stack(stack_t *link_stack,int data) {if(NULL link_stack){printf("入参合理性检…...
too many session files in /var/tmp
Linux中Too many open files 问题分析和解决_e929: too many viminfo temp files-CSDN博客...
【7.0】打开未知来源安装应用
默认打开未知来源安装应用 frameworks\base\packages\SettingsProvider\res\values\defaults.xml <bool name"def_install_non_market_apps">false</bool>...
安装ipfs-swarm-key-gen
安装ipfs-swarm-key-gen Linux安装go解释器安装ipfs-swarm-key-gen Linux安装go解释器 https://blog.csdn.net/omaidb/article/details/133180749 安装ipfs-swarm-key-gen # 编译ipfs-swarm-key-gen二进制文件 go get -u github.com/Kubuxu/go-ipfs-swarm-key-gen/ipfs-swarm…...
BASH shell脚本篇5——文件处理
这篇文章介绍下BASH shell中的文件处理。之前有介绍过shell的其它命令,请参考: BASH shell脚本篇1——基本命令 BASH shell脚本篇2——条件命令 BASH shell脚本篇3——字符串处理 BASH shell脚本篇4——函数 在Bash Shell脚本中,可以使用…...
ElementUI之首页导航及左侧菜单(模拟实现)
目录 编辑 前言 一、mockjs简介 1. 什么是mockjs 2. mockjs的用途 3. 运用mockjs的优势 二、安装与配置mockjs 1. 安装mockjs 2. 引入mockjs 2.1 dev.env.js 2.2 prod.env.js 2.3 main.js 三、mockjs的使用 1. 将资源中的mock文件夹复制到src目录下 2. 点击登…...
Java开源工具库使用之Lombok
文章目录 前言一、常用注解1.1 AllArgsConstructor/NoArgsConstructor/RequiredArgsConstructor1.2 Builder1.3 Data1.4 EqualsAndHashCode1.5 Getter/Setter1.6 Slf4j/Log4j/Log4j2/Log1.7 ToString 二、踩坑2.1 Getter/Setter 方法名不一样2.2 Builder 不会生成无参构造方法2…...
uboot启动流程涉及reset函数
一. uboot启动流程中函数 之前了解了uboot链接脚本文件 u-boot.lds。 从 u-boot.lds 中我们已经知道了入口点是 arch/arm/lib/vectors.S 文件中的 _start。 本文了解 一下,uboot启动过程中涉及的 reset 函数。本文继上一篇文章学习,地址如下ÿ…...
端口被占用怎么解决
第一步:WinR 打开命令提示符,输入netstat -ano|findstr 端口号 找到占用端口的进程 第二步: 杀死使用该端口的进程,输入taskkill /t /f /im 进程号( !!!注意是进程号,不…...
python reportlab 生成多页pdf
多页 from reportlab.pdfgen import canvas from reportlab.platypus import (SimpleDocTemplate, Paragraph, PageBreak, Image, Spacer, Table, TableStyle) from reportlab.lib.enums import TA_LEFT, TA_RIGHT, TA_CENTER, TA_JUSTIFY from reportlab.lib.styles import P…...
word 多级目录的问题
一、多级标题自动编号 --> 制表符 -> 空格 网址: 【Word技巧】2 标题自动编号——将多级列表链接到样式 - YouTube 二、多级列表 --> 正规形式编号 网址:Word 教学 - 定框架:文档格式与多级标题! - YouTube 三、目…...
python使用mitmproxy和mitmdump抓包之拦截和修改包(四)
我认为mitmproxy最强大的地方,就是mitmdump可以结合python代理,灵活拦截和处理数据包。 首先,mitmdump的路径如下:(使用pip3 install mitmproxy安装的情况,参考我的文章python使用mitmproxy和mitmdump抓包…...
邓俊辉《数据结构》→ “2.6.5 二分查找(版本A)”之“成功查找长度”递推式推导
【问题描述】 邓俊辉的《数据结构(C语言版)(第3版)》(ISBN:9787302330646)中,开始于第48页的“2.6.5 二分查找(版本A)”内容在第50页详述了“成功查找长度”的…...
Linux文件查找,别名,用户组综合练习
1.文件查看: 查看/etc/passwd文件的第5行 [rootserver ~]# head -5 /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm:/var/adm:/sbin/nologin lp:x:4:7:lp:/var/spool/lpd:/sbin/nologi…...
【MATLAB第77期】基于MATLAB代理模型算法的降维/特征排序/数据处理回归/分类问题MATLAB代码实现【更新中】
【MATLAB第77期】基于MATLAB代理模型算法的降维/特征排序/数据处理回归/分类问题MATLAB代码实现 本文介绍基于libsvm代理模型算法的特征排序方法合集,包括: 1.基于每个特征预测精度进行排序(libsvm代理模型) 2.基于相关系数corr的…...
第三章 图标辅助元素的定制
第三章 图标辅助元素的定制 1.认识图表常用的辅助元素 图表的辅助元素是指除了根据数据绘制的图形之外的元素,常用的辅助元素包括坐标轴、标题、图例、网格、参考线、参考区域、注释文本和表格,它们都可以对图形进行补充说明。 上图中图表常用辅…...
告别重复造轮子,用快马AI一键生成高复用登录组件提升效率
在开发官网登录入口时,我们常常需要重复处理用户认证、表单验证、状态管理等基础逻辑。这些工作虽然不复杂,但每次从零开始确实会消耗不少时间。最近我发现用InsCode(快马)平台可以快速生成高质量的登录组件,大大提升了开发效率。 组件功能设…...
从外卖配送看算法实战:Python+NetworkX解决简化版VRP问题
外卖配送路径优化实战:用PythonNetworkX解决简化版VRP问题 中午12点,城市里的外卖订单如潮水般涌来。配送员小张的手机上瞬间出现了8个不同方向的订单,他盯着地图上分散的标记点皱起了眉头——怎样才能用最短的时间送完所有外卖?这…...
小红书笔记API避坑指南:数据结构解析与常见错误排查
小红书笔记API避坑指南:数据结构解析与常见错误排查 在小红书生态中,API作为连接开发者与平台数据的桥梁,其重要性不言而喻。但许多开发者在实际调用过程中,常常陷入数据结构理解不透、错误排查效率低下的困境。本文将从小红书笔记…...
PvZ Toolkit:植物大战僵尸终极修改器完全指南
PvZ Toolkit:植物大战僵尸终极修改器完全指南 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PvZ Toolkit是一款专为植物大战僵尸PC版设计的综合性游戏修改工具,通过内存读写…...
OpenClaw任务编排技巧:Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF复杂流程分解策略
OpenClaw任务编排技巧:Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF复杂流程分解策略 1. 为什么需要任务编排 上周我尝试用OpenClaw自动完成一篇技术博客的写作和发布,结果遭遇了连环翻车:模型先花20分钟生成了偏离主题的初稿&…...
Kali实战:CTF杂项题必备工具全解析
1. Kali Linux与CTF杂项题简介 第一次参加CTF比赛时,面对五花八门的杂项题完全无从下手。直到发现Kali Linux这个"瑞士军刀",才真正打开了解题新世界。Kali Linux预装了300安全工具,其中约20%专门用于处理隐写术、文件分析等杂项题…...
CTP行情接口避坑指南:从‘不合法的登录’到稳定接收tick数据的5个关键步骤
CTP行情接口实战避坑手册:从登录异常到稳定接收tick的深度解决方案 当你在深夜调试CTP行情接口时,突然看到控制台跳出"不合法的登录"错误提示,而距离第二天开盘只剩3小时——这种场景恐怕不少量化开发者都经历过。本文将分享5个关键…...
B2B品牌战略方法拆解:客户层、业务层、价值层、证据层怎么串起来
一个有点反常识的判断是:真正拉开差距的,常常不是你有多少材料、多少动作、多少名字,而是你能不能先把最关键的判断结构做出来。B2B品牌战略一旦结构对了,后面的内容、渠道和场景才会越做越顺。B2B品牌战略是什么:围绕…...
企业级React UI组件库实战指南:Element React深度解析与最佳实践
企业级React UI组件库实战指南:Element React深度解析与最佳实践 【免费下载链接】element-react Element UI 项目地址: https://gitcode.com/gh_mirrors/el/element-react Element React作为一款专业的企业级React UI组件库,为现代前端开发提供了…...
browser-use爆火:AI Agent接管浏览器,测试自动化正在被重构
导读 最近在实际项目和工具演进中,可以明显看到一个变化: AI 不再只是写代码,而是开始“直接干活”。 这款 browser-use开源工具非常厉害。它能让AI Agent🚀直接操控浏览器。实现网页任务自动化简单高效 (๑•̀ㅂ•́)و✧。该…...
