当前位置：首页 > news >正文

视觉语言模型中的人脸社会感知

news 2026/2/8 17:54:06

本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集，通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现，尽管CLIP是在多样化的图像和文本数据上训练的，但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了CLIP在处理受法律保护的属性（年龄、性别和人种）时存在系统性的偏见，尤其是对黑人女性面孔的社会感知显示出极端值。此外，研究指出面部表情对社会感知的影响大于年龄和照明条件。这些发现表明，在研究视觉语言模型的社会偏见时，控制非受保护的视觉属性是非常重要的，以避免得出错误的结论。

在这里插入图片描述

1 数据集介绍

数据集由合成的人脸图像组成，这些图像通过生成对抗网络（GAN）产生。每个数据集从一个“种子”人脸开始，然后通过变化生成六个原型，分别代表三种不同的人种（亚洲人、黑人、白人）和两种性别（女性和男性）。这些原型人脸保持尽可能多的相似特征（如面部比例、穿着、背景），仅在人种和性别上有所不同。接下来，每个原型人脸在年龄、微笑程度、光照条件和头部姿态上进行变化，产生了每种原型30个图像变体。因此，对于每一种性别-人种组合（共有六种），都生成了180张人脸图像。整个数据集包括来自100个不同种子的图像，每个种子有六个原型，每个原型又有30个变体，共计18,000张独特的人脸图像。这些图像被系统地独立变化，使得能够进行实验性的分析并支持因果关系的结果解释。为了确保属性变化的成功，每张图像都经过了九个人类注释者的评估。

在这里插入图片描述

2 实验设计

实验设计旨在通过系统性地操纵人脸图像的不同属性来评估视觉语言模型（VLMs）中的社会感知偏见。使用CausalFace合成人脸图像数据集，该数据集通过生成对抗网络（GAN）创建，并且能够独立变化受法律保护的属性（如年龄、性别和人种）以及非保护属性（如表情、光线和姿势）。通过这种方式，研究者可以控制变量并精确测量每个属性对模型社会感知的影响。具体来说，这项研究关注的是CLIP模型，发现它能做出类似人类的精细社会判断，并揭示了模型在处理不同年龄、性别和人种的脸部图像时存在的偏见，尤其是对黑人女性脸部的极端反应。此外，研究还强调了面部表情对社会感知的影响大于年龄，而光线则与年龄影响相当，这表明在研究中控制非保护属性的重要性。通过比较实验方法得到的结果与使用野外采集的数据集获得的结果，研究人员证明了实验方法的优势，因为它可以更准确地识别和量化偏见。

研究结果表明，CLIP模型在分析人脸图像时展现出类似于人类的社会判断能力，并且这种判断受到年龄、性别和人种等因素的影响。特别是对于黑人女性的脸部图像，模型表现出了一种极端的社会感知模式，无论是在不同的年龄段还是表情上。此外，研究发现面部表情对社会感知的影响比年龄更大，而光线条件对社会感知的影响与年龄相似。这些发现提示我们，在不控制非保护属性的情况下进行的研究可能会得出错误的结论。通过对三个不同数据集（CausalFace、FairFace和UTKFace）的比较，研究还指出，未经控制的属性可能导致噪声测量，并掩盖某些有趣的现象。总体而言，研究强调了在视觉语言模型中存在显著的社会偏见，并提出了进一步探索这些现象的具体方向。

3 结语

文章探讨了视觉语言模型CLIP在处理人脸图像时的社会感知偏见，发现模型在受法律保护的属性（如年龄、性别和人种）方面存在系统性的偏见，并且对面部表情的敏感度高于年龄和光照条件。

论文题目： Social perception of faces in a vision-language model

论文链接： https://arxiv.org/abs/2408.14435

PS: 欢迎大家扫码关注公众号^_，我们一起在AI的世界中探索前行，期待共同进步！
在这里插入图片描述

视觉语言模型中的人脸社会感知

1 数据集介绍

2 实验设计

3 结语

相关文章：

视觉语言模型中的人脸社会感知

JAVA学习-练习试用Java实现“最小覆盖子串”

关于axios同步获取数据的问题

java-在ANTLR中，如何从java文件中提取类名和方法名0.1.8

十大护眼灯钢琴灯品牌是智商税吗？十大钢琴灯品牌排行榜

搜维尔科技：CyberGlove将实时捕捉运动信号和触觉反馈，将其重新定位到人形机器人进行驱动

数据结构：堆的算法

python画图|3D直方图基础教程

C语言中的函数，实参，形参，递归

ICM20948 DMP代码详解（15）

NC 和为K的连续子数组

JS设计模式之装饰者模式：优雅的给对象增添“魔法”

准备好了吗？JAVA从业AI开发的学习路线详解

神经网络通俗理解学习笔记（1）

有n个人，他们需要分配m元钱(m＞n)，每个人至少分到1元钱，且每个人分到的钱数必须是整数。请问有多少种分配方案?

光耦——创新引擎助推中国经济高质量发展

Go 中 RPC 的使用教程

挖耳勺可以伸进耳朵多深？安全可视挖耳勺推荐！

SuperMap GIS基础产品FAQ集锦(20240911)

从状态管理到性能优化：全面解析 Android Compose

XCTF-web-easyupload

基于大模型的 UI 自动化系统

Flask RESTful 示例

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法（ISWC2024）

Android Bitmap治理全解析：从加载优化到泄漏防控的全生命周期管理

10-Oracle 23 ai Vector Search 概述和参数

算法岗面试经验分享-大模型篇

Redis：现代应用开发的高效内存数据存储利器

【学习笔记】erase 删除顺序迭代器后迭代器失效的解决方案

Golang——7、包与接口详解