讨论人机交互研究中大语言模型的整合与伦理问题
概述
论文地址:https://arxiv.org/pdf/2403.19876.pdf
近年来,大规模语言模型发展迅速。它们给研究和教育领域带来了许多变化。这些模型也是对人机交互(HCI)研究过程的有力补充,可以分析定性和定量数据,再现社会科学实验,模拟新的社会动态。另一方面,已经发现了错误信息、歧视和侵犯隐私的风险,因此需要仔细考虑如何安全使用大规模语言模型。
过去曾对人机交互领域的伦理问题进行过研究,但大规模语言模型的应用带来了前所未有的挑战。关于如何将大规模语言模型纳入项目、存在哪些伦理问题以及如何解决这些问题,已经进行了大量的研究和讨论,以填补实际应用中的空白,实现大规模语言模型的有效和伦理整合。
本文通过对 50 名人机交互研究人员进行问卷调查和 16 次访谈得出的数据,展示了大规模语言模型在整个人机交互研究过程中的应用情况。这包括从创意生成到系统开发和论文撰写的一系列应用。本文还探讨了研究人员对与大规模语言模型相关的潜在伦理问题的预期和应对措施。
最后,基于这些发现,报告提出了研究伦理的重要性以及相关的具体建议,如与伦理审查委员会等合作、改进知情同意程序、扩大伦理教育机会、修改研究激励结构等。人机交互领域一直在与大型语言模型合作,这表明未来的主要挑战将是如何在整合模型时促进这些伦理考虑因素。
问卷调查
本文重点探讨人机交互研究人员如何将大规模语言模型纳入其研究过程,以及他们如何解决伦理方面的问题。为了全面了解这方面的情况,我们采用了顺序解释设计(SED)方法,通过调查和半结构化访谈来收集来自不同角度的意见。通过这种方法,可以深入调查研究人员处理伦理问题的具体方法。请注意,本研究项目已获得贵机构 IRB 的批准。
调查使用 Qualtrics 实施的在线问卷,收集了 50 名受访者的数据。参与者是通过社交媒体广告、直接电子邮件和大学邮件列表等多种渠道招募的。调查开始时已征得参与者的知情同意,个人身份信息不予记录。选择标准是,参与者必须是从事人机交互相关领域工作的研究人员,并具有使用大规模语言模型的经验。
在最后 77 名参与者中,有 50 人完成了所有部分(不包括人口信息)。在回答人口统计学信息的 43 位参与者中,许多人表示他们在学术界、工业界或非营利组织工作。这些参与者来自美国、阿富汗、德国、阿尔及利亚、香港、中国、西班牙、尼日利亚、澳大利亚和日本等不同国家,在人机交互领域的不同子领域工作。参与者从事人机交互研究的平均时间为四年。
它还使用了一份由 18 个问题组成的调查问卷。其中包括 14 个多项选择题和 4 个开放式问题。调查问卷将大规模语言模型定义为 “生成式(和多模态)语言模型的一个子集,其规模随参数数量和训练数据规模的增加而增加”,并将GPT-4、GPT-3.5、Llama 2 和 Vicuna描述为具体示例。
调查参与者被要求根据他们在近期研究项目中使用大规模语言模型的经验回答问题,这些问题分为三个部分
- 关于在人机交互研究项目中使用大规模语言模型的问题
- 在人机交互研究中使用大规模语言模型的伦理问题。
- 与研究相关的人口统计学问题。
问卷的第一部分用一句话描述了该项目,并询问了所使用的主要研究方法、人机交互子领域以及纳入大规模语言模型的研究过程的各个阶段。它还重点关注了与使用大规模语言模型相关的潜在伦理考虑因素,询问 "您在研究项目中是否遇到或观察到任何与大规模语言模型相关的伦理挑战?"来询问有关伦理挑战的封闭式和开放式问题。它还询问了这些伦理挑战是如何发现、解决和报告的。最后,还包括有关受访者机构类型、国家和从事人机交互研究年限的人口统计学问题。请注意,此回答为可选回答。
数据分析使用 SPSS 计算描述性统计,分析研究人员如何处理与大规模语言模型相关的伦理问题。特别是,它纳入了提供多项选择答案的问题的统计数据(例如,使用大规模语言模型时的伦理问题)。对于只有部分受访者完成的问题,我们会计算特定问题的回复率以及回答该问题的受访者比例。
访谈调查
2023 年 10 月至 11 月间,16 位使用大规模语言模型开展研究项目的人机交互研究人员接受了采访。每次访谈都从描述参与者最近的项目开始,探讨大规模语言模型在项目中的应用情况。访谈的重点是大规模语言模型在整个研究过程中的使用、具体的伦理考虑因素、如何驾驭伦理考虑因素、IRB 的作用、伦理框架和工具包的作用、激励机制和责任。
参与者是通过分发名单、专业网络和个人联系等方式招募的,并采用滚雪球式抽样和目的性抽样进行重复抽样。样本包括来自美国、中国、新加坡和德国的研究人员,其中许多是在学术界工作的男性和女性研究人员。
访谈通过视频会议在线进行,所有环节均以英语进行。访谈前,我们会向参与者解释访谈目的,并获得电子版知情同意书,参与者可以随时拒绝回答问题或要求暂停录制。每次访谈大约持续 40-60 分钟,逐字记录的笔记和视频将用于日后分析。参与者可获得价值 30 美元的礼品卡。
采用了布劳恩和克拉克的反思性专题分析方法来分析定性数据。研究小组多次阅读每次访谈的记录,首先对伦理因素和问题进行开放式编码。研究小组定期召开会议,根据初始编码反复确定主题和类别。由此确定了研究过程、伦理问题和伦理考虑方法等类别,并最终将这些类别作为最高级别纳入研究结果中。
研究结果:人机交互研究人员在日常工作中使用的大规模语言模型
本文介绍了人机交互研究人员如何将大规模语言模型纳入日常研究工作的发现。它揭示了大规模语言模型是如何应用于研究的各个阶段的,包括构思、文献综述、研究设计、数据分析、系统构建、评估和撰写论文。

特别是,它们最常用于论文撰写和研究设计阶段,其次是项目范围界定、系统开发、数据生成和收集以及分析。研究表明,人们认识到,大规模语言模型为研究 “开辟了新的可能性”,而且 “如果使用得当,它们可以让人们做一些很酷的事情,真正增强能力”。
在研究的早期阶段,参与者使用大规模语言模型确定新的研究问题,然后将这些问题细化为具体的研究目标。例如,一位学员在大规模语言模型中输入了一个广泛的主题领域,并根据生成的研究问题确定了研究目标。另一位参与者则利用大规模语言模型寻求职业导师的建议,并探索人工智能与网络安全交叉领域的研究课题。这些活动让人机交互研究人员迅速产生了各种各样的想法,对头脑风暴大有帮助。
此外,大规模语言模型在数据相关任务中的应用也在不断扩大。许多研究人员正在利用大规模语言模型综合网络来源的信息,从而大大简化了通常需要花费大量时间和精力的任务。大规模语言模型还被纳入数据分析的每个过程,包括定性数据编码、绘图和数据可视化,有助于提高研究的质量和速度。
这项研究的结果表明了人机交互领域中法律硕士的多样化应用和潜力,并为研究人员提供了新的研究方法。
研究结果:人机交互研究人员对使用大规模语言模型的伦理关切
人机交互研究人员在使用大规模语言模型时遇到了各种伦理挑战。研究结果显示,30 位研究人员发现了伦理问题,10 位感到不确定,10 位没有意识到这些问题。数据隐私、版权、有害输出、版权问题和同意等问题尤为突出。这些问题在研究设计、执行、分析和撰写阶段都很常见。
当大规模语言模型被整合到与用户直接交互的系统和工具中时,研究对象接触有害输出结果的伦理问题也日益受到关注。大规模语言模型的输出结果可能会通过社会偏见和刻板印象造成不成比例的伤害,尤其是对那些不被认为重要的群体。
此外,大规模语言模型还可能带来新的风险,强化对残疾人的偏见。大规模语言模型生成的信息看似权威,实则捏造,会影响研究的可信度。特别是,识别大规模语言模型生成的虚假引文和不一致的文章参考文献对研究人员来说是一个巨大的挑战。
在研究设计和评估阶段从大规模语言模型中继承的偏见也是一个问题。研究人员对大规模语言模型产生同质内容和概括不同观点的倾向表示担忧。这种 "扁平化人类多样性和细微差别 "的趋势强调了在研究中捕捉生活经验复杂性的重要性。
研究人员对输入到大规模语言模型中的数据如何使用以及隐私如何受到侵犯也非常关注。尤其令人担忧的是大规模语言模型如何处理语音转录和导航数据等敏感信息。这些数据泄露给外界甚至可能导致人身伤害。研究人员还非常关注与 LLM 提供商共享数据所带来的个人数据泄露风险,指出安全漏洞可能会导致个人数据意外泄露。
此外,知识完整性也是一个问题,因为大规模语言模型生成的文本和视觉效果的所有权并不明确。在共同生产过程中,很难区分哪些部分是研究人员的原创贡献,哪些部分是大规模语言模型的功劳。当大规模语言模型成为研究成果的一部分时,还有关于剽窃风险的争论。研究人员对大规模语言模型生成的内容的所有权提出了质疑,尤其是在论文的写作阶段,因此需要适当地注明出处。
此外,使用大规模语言模型的研究成果的可重复性尤其受到技术快速和不透明更新的影响。如果研究人员不知道他们使用的是哪个版本的 LLM,那么过去有效的方法在未来就可能无法很好地发挥作用。这可能会削弱研究成果的可靠性。
随着大规模语言模型使用范围的扩大,这些问题使得加强人机交互研究中的道德准则和提高透明度势在必行。
研究结果:解决人机交互研究人员对大规模语言建模的伦理问题
在此,我们调查了人机交互研究人员如何应对与使用大规模语言模型相关的伦理挑战。我们发现,研究人员会根据大规模语言模型的使用环境和研究领域来调整他们的伦理对策。
研究表明,许多人机交互研究人员都意识到潜在的伦理问题,但却发现很难具体确定或解决这些问题。例如,当一个研究领域被认为风险较低时,大规模语言建模的伦理挑战往往会被忽视,并被认为不那么紧迫。另一方面,高风险领域需要采取更加积极主动的伦理措施,但在实践中却很少采取此类措施。
受访的研究人员将具体情况和伦理考虑作为优先考虑的理由,并表示与使用大规模语言模型相关的一般伦理问题并不适用于他们自己的研究。这种被动处理问题的方法导致人们寻求解决问题的直接办法,但解决根本问题往往被搁置一旁。
此外,由于大多数人机交互研究都是在实验室环境中进行的,因此伦理问题的表现形式与日常问题不同,短期可用性测试不太可能面对大规模语言建模的有害输出。然而,在长期研究中可能会出现更严重的问题。
人机交互研究人员也将大规模语言模型视为常规工具。因此,许多参与者显然认为没有必要向研究参与者、伦理审查委员会(IRB)或更广泛的学术界正式报告他们使用大规模语言模型的情况。
这项调查显示了人机交互研究人员如何看待大规模语言建模的伦理问题。
总结:人机交互研究中大规模语言模型的整合与伦理问题
本文揭示了人机交互(HCI)研究人员如何使用大规模语言模型(LLM)以及他们面临的伦理问题。本文基于通过问卷调查和访谈收集的数据,探讨了研究人员如何将 LLMs 整合到他们的研究中,以及他们如何应对遇到的伦理问题。
研究表明,尽管人机交互研究人员在研究的各个阶段都使用了大规模语言模型,但他们在有效识别和解决伦理问题方面却举步维艰。在每个项目中明确识别和充分解决伦理问题被认为是一项挑战。
本文还提出了一种新的方法来制定伦理规范,以促进在人机交互研究中负责任地使用大规模语言模型。它鼓励研究人员与伦理审查委员会(IRB)合作,并与政策制定者和生成式人工智能公司合作制定指导方针。他们还指出,有必要重新评估知情同意程序,并提供技术援助以中断大规模语言模型的供应链。此外,还需要在人机交互领域提供更多的伦理教育机会,并改变学术激励机制,以关注伦理问题。
希望这些举措将有助于在未来营造一个更加合乎伦理的研究环境。
相关文章:
讨论人机交互研究中大语言模型的整合与伦理问题
概述 论文地址:https://arxiv.org/pdf/2403.19876.pdf 近年来,大规模语言模型发展迅速。它们给研究和教育领域带来了许多变化。这些模型也是对人机交互(HCI)研究过程的有力补充,可以分析定性和定量数据,再…...
OpenCV结构分析与形状描述符(23)确定一个点是否位于多边形内的函数pointPolygonTest()的使用
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 进行点在轮廓内的测试。 该函数确定点是在轮廓内、轮廓外,还是位于一条边上(或与顶点重合)。它返回正值&…...
GitLab CI_CD 从入门到实战笔记
第1章 认识GitLab CI/CD 1.3 GitLab CI/CD的几个基本概念 GitLab CI/CD由以下两部分构成。 (1)运行流水线的环境。它是由GitLab Runner提供的,这是一个由GitLab开发的开源软件包,要搭建GitLab CI/CD就必须安装它,因…...
微服务实战系列之玩转Docker(十五)
前言 博主的玩转Docker系列,今天正式开启第十五篇的征程! 在过去的十四篇中,涉及的内容有知识、有原理、有工具、更有实践。当你打开每一篇文章时,均会获得一个特定主题的知识和技巧,助你在云原生的世界里,…...
本地调试spark,访问kerberos鉴权的hdfs、hive
文章目录 准备连接hive的配置申请kerberos tgt在scala项目启动本地spark本地Jupyter Notebook启动pyspark 解决在wsl下进行开发、调试时,需要连接kerberos鉴权的hdfs、hive的问题 准备连接hive的配置 core-site.xml、hdfs-site.xml、yarn-site.xml、hive-site.xml复…...
Ubuntu 安装包下载(以20版本 阿里镜像站为例子)
Ubuntu安装包下载 上一篇文章写了一些国内常用的镜像站,这篇以阿里云镜像站Ubuntu20版本为例。 https://mirrors.aliyun.com/ubuntu-releases/ 1.点击自己想要下载的版本 2.点击以amd64.iso为结尾的文件,这个是安装文件,如果是桌面端&…...
会声会影Corel VideoStudio2025旗舰版最新中文旗舰版新功能讲解及使用会声会影使用教程
会声会影Corel VideoStudio2025旗舰版一款功能丰富的视频编辑软件。具有拖放式标题、转场、覆叠和滤镜,色彩分级、动态分屏视频和新增强的遮罩创建器,超越基本编辑,实现影院级效果。优化分屏剪辑功能,简化多时间轴编辑的工作流程&…...
【人工智能】OpenAI发布GPT-o1模型:推理能力的革命性突破,这将再次刷新编程领域的格局!
在人工智能领域,推理能力的提升一直是研究者们追求的目标。就在两天前,OpenAI正式发布了其首款具有推理能力的大语言模型——o1。这款模型的推出,不仅标志着AI技术的又一次飞跃,也为开发者和用户提供了全新的工具来解决复杂问题。…...
2024年TCGA基因表达数据下载(最新版)
文章目录 前言一、如何使用TCGA数据库获取公共数据?二、使用步骤1.点击Cohort Builder2.数据筛选3. Repository4.数据下载4.1 继续选择筛选条件4.2 添加cart并进入4.3 下载 总结 前言 TCGA 全称 The Cancer Genome Atlas ,即癌症基因组图谱。它是一个大型的癌症研…...
1. 运动控制指令概要(omron 机器自动化控制器)
机器自动化控制器——第一章 运动控制指令概要 1-1 运动控制指令PLCopen运动控制用功能块运动控制指令概要▶ 运动控制指令的种类▶ 状态变化▶ 运动控制指令的启动和状态▶ 异常处理▶ 执行运动控制指令时输入变量的变更(指令重启)▶ 通过选择缓存模式执行指令多重启动▶ 通过…...
依赖注入(Dependency Injection)
依赖注入是一种设计原则,主要用于减少类之间的紧耦合度,通过将对象的选择和创建逻辑外包给一个容器来实现动态注入。 适用场景: 当需要将对象的生命周期管理和依赖关系外包给外部容器时(如Spring DI容器)。当应用程序…...
PHP环境搭建
PHP环境搭建教程 PHP 是一种流行的后端开发语言,用于构建动态网站和 Web 应用程序。在开发和部署 PHP 项目之前,您需要设置一个适当的 PHP 环境。本教程将帮助您在不同操作系统上快速搭建 PHP 环境。 1. 环境准备 1.1 操作系统 本教程将介绍在以下操作…...
小叶OJ 2716: 过河问题 ← 贪心算法
【题目来源】http://xiaoye.ac.cn/problem.php?id2716【题目描述】 有 n 个人要渡河,但只有一条小船,这条小船一次只能坐下最多两个人,并且只有一副船桨。每个人划船的速度不一样,如果两个人一起上船,由于重量变大&am…...
LeetCode509:斐波那契数列
代码如下 class Solution { public:int fib(int n) {//这个是为了特殊n,当n 0时, 当 n 1时。if(n 0) return 0;if(n 1) return 1;//第一次开dp专题,连dp数组都忘记定义了。只写了下面,哭vector<int> dp(n 1, 0);dp[…...
5G前传-介绍
1. 引用 知识分享系列一:5G基础知识-CSDN博客 5G前传的最新进展-CSDN博客 灰光和彩光_通信行业5G招标系列点评之二:一文读懂5G前传-光纤、灰光、彩光、CWDM、LWDM、MWDM...-CSDN博客 术语: 英文缩写描述BBU:Building Baseba…...
【Python机器学习】循环神经网络(RNN)——超参数
几乎所有模型都可以根据数据和样本进行调整,它们都有各自的优势和相应的利弊权衡方式。寻找最优超参数集通常是一个棘手的问题,但是人类的直觉和经验可以为我们提供解决问题的方法。比如之前的例子: #设置任意输入序列的最大长度 maxlen100 …...
【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树
在安卓源码的设计中,将将屏幕分为了37层,不同的窗口将在不同的层级中显示。 对这一块的概念以及相关源码做了详细分析,整理出以下几篇。 【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树 【Android 13源码分析】WindowCon…...
Node.js的学习2——内置模块(一)
Node.js的内置模块 module模块global全局变量Console控制台Errors错误模块捕获异常异步方法通过回调函数传递异常事件触发器对象异常捕获 module模块 使用module模块可以查看Node.js所有的内置模块、在所有模块中都可以使用的全局变量、程序在运行过程中可能会出现的四类错误。…...
信息安全工程师(5)域名与域名解析
一、域名 1. 定义与功能 域名(Domain Name)是互联网上用于标识网站或服务器地址的名称,由一串由点分隔的字符组成,如“example.com”。域名的主要功能是提供一种便于记忆和输入的地址形式,以代替难以记忆的IP地址。域名…...
idear导入他人项目如何快速运行
最近idear经常导入别人的项目,结果永远在加载依赖项。网上查了一堆资料,什么jdk问题,环境变量问题,maven仓库路径问题,总之就是没啥用。那有没有什么简单粗暴的办法,能够导入项目后快速运行呢。 解决方法&a…...
观成科技:隐蔽隧道工具Ligolo-ng加密流量分析
1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具,该工具基于TUN接口实现其功能,利用反向TCP/TLS连接建立一条隐蔽的通信信道,支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式,适应复杂网…...
【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...
2024年赣州旅游投资集团社会招聘笔试真
2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...
python如何将word的doc另存为docx
将 DOCX 文件另存为 DOCX 格式(Python 实现) 在 Python 中,你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是,.doc 是旧的 Word 格式,而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...
ios苹果系统,js 滑动屏幕、锚定无效
现象:window.addEventListener监听touch无效,划不动屏幕,但是代码逻辑都有执行到。 scrollIntoView也无效。 原因:这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作,从而会影响…...
Java线上CPU飙高问题排查全指南
一、引言 在Java应用的线上运行环境中,CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时,通常会导致应用响应缓慢,甚至服务不可用,严重影响用户体验和业务运行。因此,掌握一套科学有效的CPU飙高问题排查方法&…...
sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!
简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...
基于 TAPD 进行项目管理
起因 自己写了个小工具,仓库用的Github。之前在用markdown进行需求管理,现在随着功能的增加,感觉有点难以管理了,所以用TAPD这个工具进行需求、Bug管理。 操作流程 注册 TAPD,需要提供一个企业名新建一个项目&#…...
AirSim/Cosys-AirSim 游戏开发(四)外部固定位置监控相机
这个博客介绍了如何通过 settings.json 文件添加一个无人机外的 固定位置监控相机,因为在使用过程中发现 Airsim 对外部监控相机的描述模糊,而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置,最后在源码示例中找到了,所以感…...
C++.OpenGL (20/64)混合(Blending)
混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...
