当前位置: 首页 > news >正文

大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于构建生产级别架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

Anthropic的模型可解释性团队,一直想和大模型的灵魂交流,最近在研究Claude 3 Sonnet的内部的参数结构和工作原理时,获得十分有趣的结论。总所周知,大模型基于人工神经网络,里面的神经元的激活模式运用十分广泛。研究人员认为研究这些激活模式以及对应神经元的分布就可以大致的将神经网络的学习和掌握到的知识概念可视化。

研究思路

大模型理解一行诗词或者意境主要是基于线性表示假设叠加假设。从更抽象以及更高维度上,线性表示假设表明神经网络将具有一定意义的知识概念表示为其激活空间(N维)中的方向。而叠加假设则在线性表示假设的基础上,并进一步提出了神经网络是利用高维空间中的各种方向(几乎正交的向量)的叠加来表示比N维数量更多的特征。这两种假设的前提下诞生了一种研究标注方法就是字典学习(Dictionary learning)。

有论文表明这种解释对于Transformer语言模型来说非常有效,例如一种称为稀疏自动编码器就非常有效,它近似的等同于字典学习。

稀疏自动编码器在标准自动编码器的基础上增加了稀疏性约束。稀疏性约束通过在隐藏层中引入额外的惩罚项,限制隐藏单元的激活数量,使得大多数隐藏单元的激活值接近零。

假设有一个简单的稀疏自动编码器,输入层有4个单元,隐藏层有3个单元,输出层有4个单元。目标是学习一个稀疏的3维隐藏层表示,同时稀疏性的约束让隐藏层的大多数单元的激活值接近零。

具体来说,研究人员使用了一种“字典学习”的技术。该技术主要是训练一个单独的神经网络B,以尽可能紧凑重建被研究模型某些特定层的激活场景。然后,网络B经过训练后,权重会形成一个激活模式的“词典”,称为特征。每个特征代表模型已学习的一个知识概念

上面这段话的意思就是看下图,用一个稀疏的自动编码器将激活层进行分解,形成特征。分解成的特征比神经元的数量还多。这是因为MLP层可能使用叠加示比神经元更多的特征。事实上在最大的实验中,可以扩展到比神经元多256倍(131072)的特征。

换句话说,它利用大模型的激活值来训练一个类似等同的稀疏自动编码器,因为是稀疏自动编码器,所以可以比较直观的观察激活情况。注意下面的图表,它采集了mlp的激活值大约8B进行训练。

Sparse AutoEncoders(SAE)

本次研究人员使用的SAE是“稀疏字典学习”算法系列的一个实例,旨在将数据分解为稀疏的激活组件的加权和。

本次的SAE由两层组成,第一层(“编码器”)通过学习的线性变换和ReLU激活函数将输入映射到更高维度空间。我们将这个高维的层称为“特征(feature”。第二层(“解码器”)尝试通过激活的“特征”的线性变换来重建模型激活。当然训练模型的过程是采用最小化重建误差鼓励稀疏的“特征”激活为目标进行迭代训练。

一旦SAE 训练完成,它就会提供一个模型激活的近似分解,将其分解为“特征方向”(SAE解码器权重)的线性组合,其系数等于“特征”激活。稀疏性惩罚确保对于模型的许多给定输入,只有极小一部分特征具有非零激活。因此,对于任何给定上下文中的任何给定标记,模型激活都由一小部分活动特征(从大量可能特征中)“解释”。

本次训练三个不同大小SAE:1,048,576(~1M)、4,194,304(~4M)和 33,554,432(~34M)个特征。对于三个SAE,给定 token 上活跃的特征(即具有非零激活)的平均数量少于 300,并且 SAE 重构至少解释了模型激活方差的 65%。在训练结束时,1M SAE 的死特征比例约为 2%,4M SAE 为 35%,34M SAE 为 65%。

即较小SAE中的特征在较大SAE中“分裂”成多个特征的现象,这些特征在几何上接近且在语义上与原始特征相关,但表示更具体的概念。例如,1M SAE中的“旧金山”特征在4M SAE中分裂成两个特征,在34M SAE中分裂成11个细粒度特征。

除了特征分裂之外,还看到一些示例,其中较大的SAE包含一些特征,这些特征代表了较小的 SAE中的特征无法捕捉到的概念。例如,4M和34M SAE中有一组地震特征,在 1M SAE中没有类似的特征,而且最近的 1M SAE的特征似乎也没有任何关联。

示例:金门大桥

SAE提取的特征涵盖范围广泛,从知名的公众人物、地点、到程序代码中的句法元素,再到同情或讽刺等抽象概念。下面的示例特征展示了来自 SAE 数据集中前 20 个文本输入的代表性示例,按它们激活该特征的强度进行排序。单击特征ID 可以找到更大的随机采样激活集。突出显示的颜色表示每个标记的激活强度(白色:无激活,橙色:最强激活)。

聚焦金门大桥特征周围的一个小街区,会发现其中有与旧金山特定位置相对应的特征,例如恶魔岛和要塞。在更远的地方还看到相关程度降低的特征,例如与太浩湖、优胜美地国家公园和索拉诺县(靠近旧金山)相关的特征。在更远的距离,我们还看到以更抽象的方式相关的特征,例如与其他地区的旅游景点相对应的特征(例如“法国梅多克葡萄酒产区”;“苏格兰斯凯岛”)。总体而言,解码器空间中的距离似乎粗略地映射到概念空间中的相关性,通常是以有趣和意想不到的方式。

紧接着来看看金门大桥特征34M/31164353。其最大激活基本上是对大桥的所有引用,较弱的激活还包括相关的旅游景点、类似的桥梁和其他纪念碑。接下来,脑科学特征34M/9493533激活了神经科学书籍和课程以及认知科学、心理学和相关哲学的讨论。在 1M 训练运行中,我们还发现一个特征强烈激活了各种交通基础设施1M/3,包括火车、渡轮、隧道、桥梁甚至虫洞!最后一个特征1M/887839  响应了热门旅游景点,包括埃菲尔铁塔、比萨斜塔、金门大桥和西斯廷教堂。

X轴代表激活值,蓝色为不相关,红色为直接相关。虽然分析方法仅适用于文本数据,但许多特征对相应概念的文本提及和图像都很敏感。

研究人员发现了一个特征,它对提及金门大桥有特定的反应。当这个特征被人为地激活到最大值的十倍时,模型甚至开始将自己与这座大桥联系起来,并产生诸如“我是金门大桥,我将旧金山与马林县连接起来”这样的陈述。

免疫学特色1M/533737为中心,可以看到这个邻域内有几个不同的聚类。在图的顶部,可以看到一个聚类专注于免疫功能低下的人、免疫抑制、导致免疫功能受损的疾病等等。向下向左移动时,它转变为一个专注于特定疾病(感冒、流感、一般呼吸道疾病)的特征聚类,然后是与免疫反应相关的特征,然后是代表与免疫有关的器官系统的特征。相反,当从免疫功能低下的聚类向右向下移动时,可以看到更多与免疫系统的微观方面(例如免疫球蛋白)相对应的特征,然后是免疫学技术(例如疫苗)等等。

在最底部与其他部分截然不同,看到了一组与非医学背景(例如法律/社会)中的免疫相关的特征。

研究人员还发现了特征层次结构证据。例如在更详细分析时,一般特征“旧金山”会分解为针对单个地标和街区的几个更具体的特征。同样,国家特征(例如“加拿大”或“冰岛”)会分解为“地理”、“文化”和“政治”等子特征。

研究人员表示:“我们发现的特征仅代表模型在训练期间学习到的所有概念的一小部分,而使用我们当前的技术找到一整套特征的成本将非常高昂(我们当前方法所需的计算量将大大超过用于训练模型的计算量)。”

研究人员还发现了该模型的潜在问题特征。例如,有些特征对生物武器的开发、欺骗或操纵很敏感,可能会影响模型的行为。

论文指出,仅仅存在这些特征并不一定意味着模型(更)危险。然而,这表明需要更深入地了解这些特征何时以及如何被激活,然而打开大模型的黑匣子将可以帮助未来更好地理解语言模型。

相关文章:

大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技…...

大模型框架:vLLM

目录 一、vLLM 介绍 二、安装 vLLM 2.1 使用 GPU 进行安装 2.2 使用CPU进行安装 2.3 相关配置 三、使用 vLLM 3.1 离线推理 3.2 适配OpenAI-API的API服务 一、vLLM 介绍 vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAtten…...

SQL 使用心得【持续更新】

COUNT(字段) 不会统计 NULL 值,但是COUNT(*)会只要有子查询,就需要给子查询定义别名!where 后面的条件表达式中不能存在聚合函数,但是 Having 可以聚合函数基本上都是需要配合 group…...

基于Spring Boot的高校图书馆管理系统

项目和论文都有企鹅号2583550535 基于Spring Boot的图书馆管理系统||图书管理系统_哔哩哔哩_bilibili 第1章 绪论... 1 1.1 研究背景和意义... 1 1.2 国内外研究现状... 1 第2章 相关技术概述... 2 2.1 后端开发技术... 2 2.1.1 SpringBoot 2 2.1.2 MySQL.. 2 2.1.3 My…...

python(4) : pip安装使用国内源

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests...

让写书人勇敢穿越纸海的迷雾

坚守纸海:让写书人勇敢穿越纸海的迷雾 你作为一位写书人,在创作过程中你需要坚守初心是非常重要的。在创作的过程中,你会遇到各种挑战和困难,你要勇敢面对迷雾中的挑战,并通过不懈的努力和决心,成功地穿越…...

ROS2学习——节点话题通信(2)

目录 一、ROS2节点 1.概念 2.实例 (1)ros2 run (2)ros2 node list (3)remapping重映射 (4)ros2 node info 二、话题 (1) ros2 topic list &#xf…...

【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理,以及遇到的困难和总结

💓 博客主页:从零开始的-CodeNinja之路 ⏩ 收录文章:【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理,以及遇到的困难和总结 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 什么是搜索引…...

配置docker阿里云镜像地址

一、安装docker的步骤: 1.yum install -y yum-utils 2.yum-config-manager --add-repo http://mirrors.aliyun.com/docker- ce/linux/centos/docker-ce.repo --配置阿里云仓库3.yum makecache fast4.yum install docker-ce -y5.docker version …...

ICML 2024 Mamba 论文总结

2024ICML(International Conference on Machine Learning,国际机器学习会议)在2024年7月21日-27日在奥地利维也纳举行 🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀 欢迎大家关注时空探索之旅 …...

Sass详解

Sass简介 Sass(Syntactically Awesome Stylesheets)是一种CSS预处理器,它在CSS的语法基础上添加了一些功能和语法糖,提供了更强大和灵活的样式表语言。 Sass可以通过定义变量、嵌套规则、混合、继承等功能,帮助开发者…...

如何实现一个高效的排序算法?

要实现一个高效的排序算法,可以考虑以下几个方面: 1.选择合适的排序算法:根据数据规模和特点选择合适的排序算法。例如,对于小规模的数据可以选择插入排序或选择排序,而对于大规模数据可以选择归并排序或快速排序。 …...

Linux--10---安装JDK、MySQL

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 安装JDK[Linux命令--03----JDK .Nginx. 数据库](https://blog.csdn.net/weixin_48052161/article/details/108997148) 第一步 查询系统中自带的JDK第二步 卸载系统中…...

【大数据】MapReduce JAVA API编程实践及适用场景介绍

目录 1.前言 2.mapreduce编程示例 3.MapReduce适用场景 1.前言 本文是作者大数据系列专栏的其中一篇,前文我们依次聊了大数据的概论、分布式文件系统、分布式数据库、以及计算引擎mapreduce核心概念以及工作原理。 书接上文,本文将会继续聊一下mapr…...

图像分类和文本分类(传统机器学习和深度学习)

1. 传统机器学习—决策树 1.1 图像分类代码 from sklearn import tree from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split# 加载数据集 iris load_iris() X, y iris.data, iris.target# 划分数据集 X_train, X_test, y_train,…...

基于SpringBoot和Hutool工具包实现的验证码案例

目录 验证码案例 1. 需求 2. 准备工作 3. 约定前后端交互接口 需求分析 接口定义 4. Hutool 工具介绍 5. 实现验证码 后端代码 前端代码 6. 运行测试 验证码案例 随着安全性的要求越来越高,目前项目中很多都会使用验证码,只要涉及到登录&…...

python-找出四位数中的玫瑰花数

【问题描述】玫瑰花数指一个n位数(n>4),其每位上的数字的n次幂之和等于本身。 请求出所有四位数中的玫瑰花数 【输入形式】 【输出形式】 【样例输入】 【样例输出】1634 8208 9474 【样例说明】 【评分标准】 完整代码如下: for n in ra…...

Linux-命令上

at是一次性的任务,crond是循环的定时任务 如果 cron.allow 文件存在,只有在文件中出现其登录名称的用户可以使用 crontab 命令。root 用户的登录名必须出现在 cron.allow 文件中,如果这个文件存在的话。系统管理员可以明确的停止一个用户&am…...

青鸟云报修系统:实现高效、便捷的维修申请处理

在日常生活和工作中,故障报修难免会遇到,售后报修服务则成为了解决问题的关键。纸质化售后报修维修申请单,作为报修流程中的重要一环,在一定程度上能够记录和追踪售后报修维修流程,但在实际操作过程中却存在着诸多弊端…...

Python解析网页

目录 1、Beautiful Soup 2、解析数据 3、遍历文档树 4、搜索文档树 一、Beautiful Soup 1、什么是Beautiful Soup 定义:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库. 功能:它能够通过你喜欢的转换器实现惯用的文档导航,查找,修…...

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 ​ 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...

shell脚本--常见案例

1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件: 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者:Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位:中南大学地球科学与信息物理学院论文标题:BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接:https://arxiv.…...

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块&#xff0c;用户不点击提交按钮&#xff0c;只要输入框失去焦点&#xff0c;就会提前提示验证码是否正确。 一&#xff0c;模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

微信小程序云开发平台MySQL的连接方式

注&#xff1a;微信小程序云开发平台指的是腾讯云开发 先给结论&#xff1a;微信小程序云开发平台的MySQL&#xff0c;无法通过获取数据库连接信息的方式进行连接&#xff0c;连接只能通过云开发的SDK连接&#xff0c;具体要参考官方文档&#xff1a; 为什么&#xff1f; 因为…...

代理篇12|深入理解 Vite中的Proxy接口代理配置

在前端开发中,常常会遇到 跨域请求接口 的情况。为了解决这个问题,Vite 和 Webpack 都提供了 proxy 代理功能,用于将本地开发请求转发到后端服务器。 什么是代理(proxy)? 代理是在开发过程中,前端项目通过开发服务器,将指定的请求“转发”到真实的后端服务器,从而绕…...

C/C++ 中附加包含目录、附加库目录与附加依赖项详解

在 C/C 编程的编译和链接过程中&#xff0c;附加包含目录、附加库目录和附加依赖项是三个至关重要的设置&#xff0c;它们相互配合&#xff0c;确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中&#xff0c;这些概念容易让人混淆&#xff0c;但深入理解它们的作用和联…...

【从零开始学习JVM | 第四篇】类加载器和双亲委派机制(高频面试题)

前言&#xff1a; 双亲委派机制对于面试这块来说非常重要&#xff0c;在实际开发中也是经常遇见需要打破双亲委派的需求&#xff0c;今天我们一起来探索一下什么是双亲委派机制&#xff0c;在此之前我们先介绍一下类的加载器。 目录 ​编辑 前言&#xff1a; 类加载器 1. …...