论文解读 | ACL2024 Outstanding Paper:因果指导的主动学习方法:助力大语言模型自动识别并去除偏见...
点击蓝字

关注我们
AI TIME欢迎每一位AI爱好者的加入!
点击阅读原文观看作者直播讲解回放!
作者简介
孙洲浩,哈尔滨工业大学SCIR实验室博士生
概述
尽管大语言模型(LLMs)展现出了非常强大的能力,但它们仍然面临与各种偏见相关的挑战。传统的自动去偏见方法主要针对判别式模型,在应对生成式LLMs固有的复杂偏见方面存在困难。为了解决这些局限性,作者设计了因果指导的主动学习方法来自动自主地识别LLMs的偏见模式并减轻LLMs的偏见。具体来说,首先通过因果不变理论揭示了语义信息和偏见信息的本质区别,然后据此自动识别有偏数据并归纳可解释的偏见模式,最终利用这些识别出的有偏数据和偏见模式通过上下文学习的方法来减轻LLMs的偏见。实验结果表明,所提出的因果主动学习方法能够有效地识别有偏数据并归纳可解释的偏见模式,并利用有偏数据和偏见模式对LLMs进行去偏。
论文地址:https://www.arxiv.org/abs/2408.12942
代码地址:https://github.com/spirit-moon-fly/CAL
数据集偏见
生成式大模型近年来因其强大的能力而广受欢迎。然而,这些模型在预训练过程中可能会吸收数据集中的偏见。由于生成式大模型通过预测上下文中下一个词的概率来进行训练,因此大模型仅仅被动地捕捉上下文之间的关联性。如果训练数据存在偏见,这种关联性也会被模型所学习,从而导致模型泛化能力下降,并可能对社会造成负面影响。
例如,如果模型存在位置偏见,它可能会错误地认为问题中的第一个选项总是正确的,即使在某个数据集中正确答案通常位于第二个位置。这种偏见会影响模型的泛化能力。此外,刻板印象偏见,如性别或种族偏见,也可能通过模型的输出反映出来,对社会造成潜在的负面影响。

前人工作与动机
去偏化研究主要分为两大类方法:基于先验知识的去偏方法和自动去偏方法。基于先验知识的去偏方法依赖于人工识别数据集中的偏见,并通过上下文学习或对齐技术来消除这些偏见。然而,由于偏见的多样性,人工逐一识别大模型中所有的偏见类型是不切实际的。与此同时,前人的自动去偏方法通常为判别式模型设计,难以直接应用于生成式模型,这促使研究者寻求适合生成式大模型的自动去偏技术。

针对这一挑战,本文提出了一种因果指导的主动学习方法。通过引入因果不变性理论,这种方法可以利用大模型自身来自动识别有偏数据,并归纳出可解释的偏见模式。在因果不变性理论框架下,偏见与语义信息具有本质区别。问题的答案由文本的语义信息决定,这种关系在所有数据上都成立(因果),而偏见虽然可能与答案相关,但这种关系在不同数据集上不一定成立,因此它是一种相关关系而非因果关系。
此外,本文对主动学习的概念在去偏场景下进行了扩展。在传统主动学习中,首先选择最有信息量的样本,然后利用外部工具进行标注。而在去偏场景中,作者选择对归纳偏见模式最有帮助的有偏数据,然后利用大模型进行偏见模式的归纳,这种方法的关键在于识别那些能够显著改进模型对偏见理解与归纳的数据点。
因果指导的主动学习框架
本文提出的主要框架旨在有效识别和抑制模型偏差,它由三个关键部分组成。首先,第一部分专注于基于因果不变性的有偏数据识别,这一步骤利用因果不变理论来区分数据中的偏见和语义信息,确保识别出的偏差实例具有代表性和准确性。其次,第二部分进一步分析这些偏差实例,通过识别出更具信息量的偏差实例,进行深入的偏差模式归纳,从而揭示数据中的潜在偏见结构。最后,第三部分引入了基于情景学习的模型偏差抑制方法。

基于因果不变性的有偏数据识别
本项工作的核心部分:基于因果不变性的有偏数据识别。识别过程利用了偏见信息与语义信息在因果不变性上的本质差异。具体地,通过判断模型捕获的信息是否违背了因果不变性原则,来识别出有偏数据。在数据集中,存在成对数据,它们的偏见信息相同而语义信息不同,导致标准答案不一致,这类数据对被称为反例对,识别它们是本部分的主要目标。

如果大模型主要捕获了数据的语义信息,并且对两条数据的表示相似,这表明它们的语义信息相近,标准答案也应相似。相反,如果两条数据的表示相似但标准答案差异显著,则表明模型并未主要捕获语义信息,而是包含了偏见信息。反例对的识别标准基于两个方面:一是大模型表示的相似性,用符号S表示;二是它们的标准答案不同。此外,为了排除模型仅捕获无关信息这一特殊情况,作者引入了一个预测性准则。该准则要求模型在处理两条数据时至少有一条是正确的。如果模型在这两条数据上至少有一条是正确的,那么可以推断模型并非仅捕获了无关信息。
信息性偏见实例选择与偏见模式归纳

第二部分是关于信息性偏见实例选择和偏见模式归纳。在这一部分,该研究采用了"Typical Criteria"和"Influential Criteria"两种策略来选择信息性强的有偏数据。"Typical Criteria"通过比较模型对两条数据输出的相似度来进行选择。如果两条数据的输出差异显著,说明偏见信息对这两条数据产生了不同的影响,在这种情况下,即使是人类分析者也可能难以直接从这些数据中识别出偏见模式,即哪些偏见因素导致了什么样的结果。因此,我们利用"Typical Criteria"来排除模型对两条数据的输出相似度低的有偏数据(反例对)。此外,研究还引入了" Influential Criteria ",特别关注那些模型预测错误且偏见信息对模型影响较大的样本,这些样本通常具有较高的信息价值。
在筛选出信息性强的有偏数据后,本研究进行了聚类处理,将具有相似偏见模式的数据归为一类。聚类完成后,利用大模型对这些数据进行总结和归纳,以识别和总结出多种偏见模式,例如选项位置偏见和偏见等。
基于情境学习的偏见抑制方法
最后一个部分介绍了基于情境学习的偏见抑制方法,该方法针对的是零样本(zero-shot)和少样本(few-shot)两种场景。在零样本场景中,该方法的核心是通过明确告知模型,偏见信息与任务目标无关,促使模型忽略这些偏见信息,从而减少偏见对模型预测的影响。这种方法直接指导模型识别和忽略与任务无关的偏见因素,有助于提高模型在未知类别上的泛化能力。

对于少样本场景,作者设计了反事实情境学习方法来对大模型进行去偏。具体地,之前筛选出的反例对中的预测错误的样例(反例),可以看作对正例(预测正确的样例)的语义信息进行干预后生成的反事实样例。因此,可以通过利用这些反事实样例通过情境学习的方法来对大模型进行去偏。具体的实施细节和效果评估,建议参考原论文。
实验结果
主实验
主实验旨在验证所提方法对提升模型泛化性和降低危害性的效果。通过从MNLI和Chatbot数据集中识别有偏数据并归纳偏见模式,然后在HANS和MTBench数据集上进行测试,可以验证方法对于提升模型泛化性的效果。此外,为了评估模型的无害性,研究者在BBQ数据集上识别有偏数据并归纳偏见模式然后在UnQover数据集上进行测试,这两个数据集专门被设计来探究刻板印象偏见的。
实验结果中,CAL代表本研究提出的因果指导的主动学习方法。ZS-known是基于prompt对人工识别偏见进行去偏的方法,而ZS和FS分别代表零样本和少样本的基线方法。对比结果显示,因果引导的主动学习方法在多个数据集上均优于基线方法,这说明本方法能够有效识别有偏数据并归纳偏见模式,进而可以利用这些有偏数据和偏见模式进行模型去偏。
同时,与ZS-known方法相比,本方法在某些数据集上展现出更优的性能,这一方面证明了本方法的有效性,另一方面也表明自动识别所有的偏见模式是十分具有挑战性的。这些结果表明,本研究所提出的方法在提升模型泛化性和减少危害性方面具有显著潜力。

BBQ数据集上的实例分析
在BBQ数据集上的实例分析表明,根据不同聚类类别的有偏数据可以归纳出不同的偏见模式,如图中所示,包括外貌(physical appearance)、年龄(age)、国籍(nationality)等。这些模式反映了数据集中存在的各种刻板印象偏见。
另一张图展示了归纳出职业状态这一偏见模式的反例对。在这个例子中,无论模型是否被告知Roberto的贫困状况,它都会受到职业偏见的影响,即错误地认为农民比药剂师更可能贫穷,从而预测农民更应得到政府的援助。这表明模型在预测时,可能会基于职业等偏见因素做出判断,而非仅仅基于文本中的语义信息。这种分析有助于我们理解模型如何受到偏见的影响,并指导我们如何改进模型以减少这种偏见。

归纳出的偏见模式的通用性
最后,研究探讨了偏见模式的通用性问题。由于大模型训练时使用的语料可能存在重叠,这可能导致它们共享相似的偏见模式。例如,在Llama2-13B大模型上识别出的某些偏见模式可能同样存在于GPT-4等其他大模型中。
为了验证这一点,研究尝试利用从Llama2模型中总结的偏见模式来对GPT-4进行去偏。实验在Zero-Shot场景下进行,即在没有额外训练数据的情况下,直接利用已识别的偏见模式通过上下文学习的方式对模型进行去偏。结果显示,在Zero-Shot场景下对这些偏见模式进行去偏后,GPT-4的泛化能力和无害性有所提升。

这一发现进一步证明大模型之间存在共享的偏见模式,并表明通过识别和应用这些共享的模式,可以在不同的模型间进行有效的去偏化处理。
本篇文章由陈研整理

往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

我知道你
在看
提出观点,表达想法,欢迎
留言

点击 阅读原文 观看作者直播讲解回放!
相关文章:
论文解读 | ACL2024 Outstanding Paper:因果指导的主动学习方法:助力大语言模型自动识别并去除偏见...
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击阅读原文观看作者直播讲解回放! 作者简介 孙洲浩,哈尔滨工业大学SCIR实验室博士生 概述 尽管大语言模型(LLMs)展现出了非常强大的能力,但它们仍然…...
xLSTM模型学习笔记
笔记来源:bilibili LSTM 回顾 原始的 LSTM 是为了解决 RNN 时序反向传播中梯度消失和爆炸问题而提出的。 其所谓的门控机制,其实就是一种时序上的注意力机制,相当于把不同时间进行"掺和",是对时序信息的一种选择性控制…...
woocommerce 调用当前product_tag 为标题
要在 WooCommerce 中调用当前产品标签(product tag)作为标题,你可以使用以下代码。这段代码将获取当前产品标签的名称,并将其显示为标题。 <?php // 获取当前产品标签名称 $current_tag single_term_title(, false);// 检查是…...
音视频开发:基于sdl的pcm播放器
源码 /*** SDL2播放PCM*** 本程序使用SDL2播放PCM音频采样数据。SDL实际上是对底层绘图* API(Direct3D,OpenGL)的封装,使用起来明显简单于直接调用底层* API。* 测试的PCM数据采用采样率44.1k, 采用精度S16SYS, 通道数2** 函数调…...
[产品管理-6]:NPDP新产品开发 - 4 - 战略 - 创新支持战略,支持组织的总体创新战略(平台战略、技术战略、营销战略、知识产权战略、能力建设战略)
目录 一、创新支持战略概述 二、平台战略:大平台小产品战略 2.1 概述 1、平台战略的定义 2、平台战略的特点 3、平台战略的应用领域 4、平台战略的成功案例 5、平台战略的发展趋势 2.2 大平台小产品战略 1)大平台的建设 2)、小产品…...
Cursor:程序员的AI助手,开启智能编程新时代
在当今快节奏的软件开发世界,效率和准确性是成功的关键。而 Cursor,作为一款创新的人工智能编程工具,正在极大地改变着编程的面貌,为开发者带来前所未有的便捷与惊喜。 智能代码生成 Cursor 利用强大的人工智能模型,…...
OpenAI 刚刚发布了新的Sora视频——实现的真人效果令人惊叹
在 YouTube 上发布了两段由专业创作者制作的新的“Sora Showcase”视频。这些视频展示了尚未发布的 Sora AI 视频模型的惊人潜力。 Sora 于今年二月首次宣布,但由于生成时间、成本和错误信息的潜在风险,光年AI 仅向一小部分创作者 开放了该模型。 自So…...
计算机视觉学习路线
计算机视觉是一门让机器理解和解释视觉世界的科学,它涉及到图像识别、图像处理、模式识别等多个方向。学习计算机视觉的路线通常包括以下几个阶段: 数学和编程基础:需要掌握微积分、线性代数、概率论等数学知识,以及Python或C等编…...
JNPF快速开发平台在企业中的应用
随着数字化转型的浪潮席卷全球,企业纷纷寻求高效、灵活的解决方案以适应快速变化的市场需求。在这一背景下,低代码开发平台应运而生,成为数字经济的“软基建”。今天,我们就来探讨JNPF快速开发平台如何在企业中发挥作用࿰…...
Mysql高级篇(中)—— 索引优化
Mysql高级篇(中)—— 索引优化 一、索引分析案例案例 1:单表查询案例 2:两表连接查询案例 3:三表连接查询 二、避免索引失效常见索引失效场景简述场景 1场景 2场景 3场景 4场景 5场景 6 三、索引优化文字版示例版 一、…...
electron: 将网址打包成exe桌面应用
项目场景: 在项目开发的过程中,需要将应用搭建在不同的硬件上。如需要在一个触屏显示器上展示企业相关的应用。 如果专门去开发一个这样的应用,不划算;这时候考虑将网址打包成exe应用,并安装触屏器上,就可…...
【Python篇】PyQt5 超详细教程——由入门到精通(中篇二)
文章目录 PyQt5超详细教程前言第7部分:生成图表与数据可视化7.1 matplotlib 与 PyQt5 的结合7.2 在 PyQt5 中嵌入 matplotlib 图表示例 1:嵌入简单的 matplotlib 图表代码详解: 7.3 动态生成图表示例 2:动态更新图表代码详解&…...
2024/9/10 小型PLC典型应用1:含步进电机+变频器+触摸屏
主要是讲脉冲控制步进,因为etherCat是标准化的,直接通过轴控指令即可控制;canopen也涉及轴控指令,但配置稍微有点不一样。 控制本体端口的步进,通过发脉冲或者脉冲定位信号。 但这个4PM只有单独的轴控指令,…...
RGB与CMYK互转
先定义一个CMYK数据结构: typedef struct struCMYK {int m_nC;int m_nM;int m_nY;int m_nK; }CMYK;RGB转CMYK void CvtRGB2CMYK(COLORREF& clr, CMYK& cmyk) {double dR GetBValue(clr) / 255.0;double dG GetGValue(clr) / 255.0;double dB GetRValue…...
滴~“TOP期刊体验卡”已到期!公认水刊的尽头,还得是你MDPI
【SciencePub学术】本期,给大家介绍的是1本MDPI旗下的计算机类SCI——《Remote Sensing》。 优点VS缺点 • 期刊分区一直维持在较高水平 • 审稿速度极快,1-2个月录用见刊 • 年刊文量大,收稿多 • 期刊自引率较高 • 期刊系统初筛较难 • …...
ASUS华硕ROG幻16 Air 2024款锐龙AI版GA605WI,GA605WV工厂模式原厂Win11系统,含MyASUS WinRE恢复重置还原功能
适用型号:【GA605WI、GA605WV】,原装出厂Windows11系统工厂包下载 链接:https://pan.baidu.com/s/1IVolLwB7fddGKZY0IxOqaA?pwd62e2 提取码:62e2 华硕原装系统工厂安装包,带有MyASUS WinRE RECOVERY恢复功能、自带…...
想入行在线教育?你必须知道的十件事
在最近几年受新冠疫情和异常天气的影响,越来越多的教育活动被迫转移到线上。然而,在线课程的短板也很明显,大部分在线教育工作者难以有效地引导学生集中注意力,并且无法像线下授课一样进行同步考试。 那么,有什么办法…...
EasyExcel相关整理
一、实体类常用注解 1、字段注解ExcelProperty,一般常用value标明表头,index标明列 2、实体类注解(导出样式设置) 3、导出特殊类型转换 二、导出 1、导出多个sheet 2、导出数据量大导致内存溢出 三、导入 待更新...
2024年【汽车驾驶员(技师)】考试题及汽车驾驶员(技师)找解析
题库来源:安全生产模拟考试一点通公众号小程序 汽车驾驶员(技师)考试题根据新汽车驾驶员(技师)考试大纲要求,安全生产模拟考试一点通将汽车驾驶员(技师)模拟考试试题进行汇编&#…...
[C#学习笔记]接口的特性与用法
视频地址:一期视频看透C#接口的全部特性及用法_哔哩哔哩_bilibili 强烈推荐学习C#和WPF的朋友关注此UP,知识点巨多,讲解透彻! 一、总览 public interface IOverall {/// <summary>/// 最普通的方法/// </summary>v…...
湿敏电阻HR202/CM-R的两种驱动方案详解:IO充放电法 vs. 交流方波AD采样
湿敏电阻HR202/CM-R的两种驱动方案深度解析:从原理到实战选择 在环境监测和智能家居领域,湿敏电阻作为成本效益突出的湿度传感方案,其驱动电路的设计直接影响测量精度和系统稳定性。HR202和CM-R作为市面上常见的湿敏电阻型号,工程…...
极简TextCNN,五分钟看懂文本分类基线算法
TextCNN引入 TextCNN是基于卷积神经网络实现的用于文本分类的首选基线模型,它没有复杂的循环结构,也不用花费大量时间训练预训练模型,仅通过简单的卷积、池化操作,就能快速捕捉文本中的关键特征,实现文本分类。 Text…...
Vivado编译加速:Jobs与Threads参数配置实战指南
1. 项目概述:从一次编译卡顿说起那天下午,我正在赶一个FPGA项目的最后集成,Vivado里点下“Run Implementation”,进度条就像被冻住了一样,半天不动。电脑风扇倒是转得挺欢,可CPU占用率看着也就50%上下。我第…...
STM32图像识别实战:从传统CV到TinyML的边缘AI部署
1. 项目概述:当STM32遇上图像识别在嵌入式开发领域,STM32系列微控制器因其出色的性能、丰富的外设和极高的性价比,早已成为工程师和爱好者的“瑞士军刀”。从简单的LED闪烁到复杂的电机控制、通信协议栈,STM32几乎无所不能。但提到…...
EMD vs NEMD:分子动力学算热导率,新手到底该选哪个?
EMD与NEMD方法实战指南:如何为你的热导率计算选择最佳方案 在纳米材料和新型功能材料的研究中,热导率的精确计算是理解材料热输运性能的关键。面对平衡态分子动力学(EMD)和非平衡态分子动力学(NEMD)两种主流方法,许多研究者常常陷入选择困境。…...
麒麟系统离线部署OnlyOffice,我踩过的那些坑(附Docker镜像包和完整配置)
麒麟系统离线部署OnlyOffice实战避坑指南 在国产化替代浪潮中,麒麟系统作为主流国产操作系统,正逐步应用于各类关键信息基础设施领域。而办公软件作为日常刚需,如何在麒麟系统上实现高效、安全的文档协作成为许多技术团队面临的挑战。OnlyOff…...
UE5动画进阶:用Control Rig的Aim节点,5分钟搞定角色头部平滑跟随任意Actor
UE5动画进阶:Control Rig的Aim节点实现角色头部动态跟随 在游戏开发中,角色与环境的动态交互是提升沉浸感的关键要素之一。想象一个场景:NPC能够自然地跟随玩家的移动而转动头部,或是怪物精准锁定目标时的头部动作——这些细节往往…...
LabVIEW TCP通讯实战:从零搭建一个工业数据采集服务器
1. LabVIEW TCP通讯在工业数据采集中的应用价值 工业现场的数据采集系统对通讯稳定性有着近乎苛刻的要求。记得我第一次参与某汽车生产线改造项目时,产线上的PLC和传感器每分钟要上传近万条数据,传统的串口通讯根本吃不消。当时团队尝试了多种方案&#…...
C++二叉树构建、深拷贝与可视化输出实战解析
1. 项目概述:从零构建与复制二叉树在C的日常开发中,尤其是涉及到算法、数据结构或者需要处理层次化数据的场景,二叉树是一个绕不开的基础结构。最近我在重构一个旧的项目模块,其中核心需求就是需要动态生成一个数据结构࿰…...
Zynq开发中XSA文件更新全流程:从硬件修改到软件调试
1. 项目概述:为什么需要更新XSA文件?在基于Xilinx Zynq系列SoC的开发流程里,XSA文件(Xilinx Support Archive)是一个承上启下的核心枢纽。它本质上是一个压缩包,里面封装了硬件平台(Hardware Pl…...

