当前位置: 首页 > news >正文

大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于构建生产级别架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

Anthropic的模型可解释性团队,一直想和大模型的灵魂交流,最近在研究Claude 3 Sonnet的内部的参数结构和工作原理时,获得十分有趣的结论。总所周知,大模型基于人工神经网络,里面的神经元的激活模式运用十分广泛。研究人员认为研究这些激活模式以及对应神经元的分布就可以大致的将神经网络的学习和掌握到的知识概念可视化。

研究思路

大模型理解一行诗词或者意境主要是基于线性表示假设叠加假设。从更抽象以及更高维度上,线性表示假设表明神经网络将具有一定意义的知识概念表示为其激活空间(N维)中的方向。而叠加假设则在线性表示假设的基础上,并进一步提出了神经网络是利用高维空间中的各种方向(几乎正交的向量)的叠加来表示比N维数量更多的特征。这两种假设的前提下诞生了一种研究标注方法就是字典学习(Dictionary learning)。

有论文表明这种解释对于Transformer语言模型来说非常有效,例如一种称为稀疏自动编码器就非常有效,它近似的等同于字典学习。

稀疏自动编码器在标准自动编码器的基础上增加了稀疏性约束。稀疏性约束通过在隐藏层中引入额外的惩罚项,限制隐藏单元的激活数量,使得大多数隐藏单元的激活值接近零。

假设有一个简单的稀疏自动编码器,输入层有4个单元,隐藏层有3个单元,输出层有4个单元。目标是学习一个稀疏的3维隐藏层表示,同时稀疏性的约束让隐藏层的大多数单元的激活值接近零。

具体来说,研究人员使用了一种“字典学习”的技术。该技术主要是训练一个单独的神经网络B,以尽可能紧凑重建被研究模型某些特定层的激活场景。然后,网络B经过训练后,权重会形成一个激活模式的“词典”,称为特征。每个特征代表模型已学习的一个知识概念

上面这段话的意思就是看下图,用一个稀疏的自动编码器将激活层进行分解,形成特征。分解成的特征比神经元的数量还多。这是因为MLP层可能使用叠加示比神经元更多的特征。事实上在最大的实验中,可以扩展到比神经元多256倍(131072)的特征。

换句话说,它利用大模型的激活值来训练一个类似等同的稀疏自动编码器,因为是稀疏自动编码器,所以可以比较直观的观察激活情况。注意下面的图表,它采集了mlp的激活值大约8B进行训练。

Sparse AutoEncoders(SAE)

本次研究人员使用的SAE是“稀疏字典学习”算法系列的一个实例,旨在将数据分解为稀疏的激活组件的加权和。

本次的SAE由两层组成,第一层(“编码器”)通过学习的线性变换和ReLU激活函数将输入映射到更高维度空间。我们将这个高维的层称为“特征(feature”。第二层(“解码器”)尝试通过激活的“特征”的线性变换来重建模型激活。当然训练模型的过程是采用最小化重建误差鼓励稀疏的“特征”激活为目标进行迭代训练。

一旦SAE 训练完成,它就会提供一个模型激活的近似分解,将其分解为“特征方向”(SAE解码器权重)的线性组合,其系数等于“特征”激活。稀疏性惩罚确保对于模型的许多给定输入,只有极小一部分特征具有非零激活。因此,对于任何给定上下文中的任何给定标记,模型激活都由一小部分活动特征(从大量可能特征中)“解释”。

本次训练三个不同大小SAE:1,048,576(~1M)、4,194,304(~4M)和 33,554,432(~34M)个特征。对于三个SAE,给定 token 上活跃的特征(即具有非零激活)的平均数量少于 300,并且 SAE 重构至少解释了模型激活方差的 65%。在训练结束时,1M SAE 的死特征比例约为 2%,4M SAE 为 35%,34M SAE 为 65%。

即较小SAE中的特征在较大SAE中“分裂”成多个特征的现象,这些特征在几何上接近且在语义上与原始特征相关,但表示更具体的概念。例如,1M SAE中的“旧金山”特征在4M SAE中分裂成两个特征,在34M SAE中分裂成11个细粒度特征。

除了特征分裂之外,还看到一些示例,其中较大的SAE包含一些特征,这些特征代表了较小的 SAE中的特征无法捕捉到的概念。例如,4M和34M SAE中有一组地震特征,在 1M SAE中没有类似的特征,而且最近的 1M SAE的特征似乎也没有任何关联。

示例:金门大桥

SAE提取的特征涵盖范围广泛,从知名的公众人物、地点、到程序代码中的句法元素,再到同情或讽刺等抽象概念。下面的示例特征展示了来自 SAE 数据集中前 20 个文本输入的代表性示例,按它们激活该特征的强度进行排序。单击特征ID 可以找到更大的随机采样激活集。突出显示的颜色表示每个标记的激活强度(白色:无激活,橙色:最强激活)。

聚焦金门大桥特征周围的一个小街区,会发现其中有与旧金山特定位置相对应的特征,例如恶魔岛和要塞。在更远的地方还看到相关程度降低的特征,例如与太浩湖、优胜美地国家公园和索拉诺县(靠近旧金山)相关的特征。在更远的距离,我们还看到以更抽象的方式相关的特征,例如与其他地区的旅游景点相对应的特征(例如“法国梅多克葡萄酒产区”;“苏格兰斯凯岛”)。总体而言,解码器空间中的距离似乎粗略地映射到概念空间中的相关性,通常是以有趣和意想不到的方式。

紧接着来看看金门大桥特征34M/31164353。其最大激活基本上是对大桥的所有引用,较弱的激活还包括相关的旅游景点、类似的桥梁和其他纪念碑。接下来,脑科学特征34M/9493533激活了神经科学书籍和课程以及认知科学、心理学和相关哲学的讨论。在 1M 训练运行中,我们还发现一个特征强烈激活了各种交通基础设施1M/3,包括火车、渡轮、隧道、桥梁甚至虫洞!最后一个特征1M/887839  响应了热门旅游景点,包括埃菲尔铁塔、比萨斜塔、金门大桥和西斯廷教堂。

X轴代表激活值,蓝色为不相关,红色为直接相关。虽然分析方法仅适用于文本数据,但许多特征对相应概念的文本提及和图像都很敏感。

研究人员发现了一个特征,它对提及金门大桥有特定的反应。当这个特征被人为地激活到最大值的十倍时,模型甚至开始将自己与这座大桥联系起来,并产生诸如“我是金门大桥,我将旧金山与马林县连接起来”这样的陈述。

免疫学特色1M/533737为中心,可以看到这个邻域内有几个不同的聚类。在图的顶部,可以看到一个聚类专注于免疫功能低下的人、免疫抑制、导致免疫功能受损的疾病等等。向下向左移动时,它转变为一个专注于特定疾病(感冒、流感、一般呼吸道疾病)的特征聚类,然后是与免疫反应相关的特征,然后是代表与免疫有关的器官系统的特征。相反,当从免疫功能低下的聚类向右向下移动时,可以看到更多与免疫系统的微观方面(例如免疫球蛋白)相对应的特征,然后是免疫学技术(例如疫苗)等等。

在最底部与其他部分截然不同,看到了一组与非医学背景(例如法律/社会)中的免疫相关的特征。

研究人员还发现了特征层次结构证据。例如在更详细分析时,一般特征“旧金山”会分解为针对单个地标和街区的几个更具体的特征。同样,国家特征(例如“加拿大”或“冰岛”)会分解为“地理”、“文化”和“政治”等子特征。

研究人员表示:“我们发现的特征仅代表模型在训练期间学习到的所有概念的一小部分,而使用我们当前的技术找到一整套特征的成本将非常高昂(我们当前方法所需的计算量将大大超过用于训练模型的计算量)。”

研究人员还发现了该模型的潜在问题特征。例如,有些特征对生物武器的开发、欺骗或操纵很敏感,可能会影响模型的行为。

论文指出,仅仅存在这些特征并不一定意味着模型(更)危险。然而,这表明需要更深入地了解这些特征何时以及如何被激活,然而打开大模型的黑匣子将可以帮助未来更好地理解语言模型。

相关文章:

大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技…...

大模型框架:vLLM

目录 一、vLLM 介绍 二、安装 vLLM 2.1 使用 GPU 进行安装 2.2 使用CPU进行安装 2.3 相关配置 三、使用 vLLM 3.1 离线推理 3.2 适配OpenAI-API的API服务 一、vLLM 介绍 vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAtten…...

SQL 使用心得【持续更新】

COUNT(字段) 不会统计 NULL 值,但是COUNT(*)会只要有子查询,就需要给子查询定义别名!where 后面的条件表达式中不能存在聚合函数,但是 Having 可以聚合函数基本上都是需要配合 group…...

基于Spring Boot的高校图书馆管理系统

项目和论文都有企鹅号2583550535 基于Spring Boot的图书馆管理系统||图书管理系统_哔哩哔哩_bilibili 第1章 绪论... 1 1.1 研究背景和意义... 1 1.2 国内外研究现状... 1 第2章 相关技术概述... 2 2.1 后端开发技术... 2 2.1.1 SpringBoot 2 2.1.2 MySQL.. 2 2.1.3 My…...

python(4) : pip安装使用国内源

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests...

让写书人勇敢穿越纸海的迷雾

坚守纸海:让写书人勇敢穿越纸海的迷雾 你作为一位写书人,在创作过程中你需要坚守初心是非常重要的。在创作的过程中,你会遇到各种挑战和困难,你要勇敢面对迷雾中的挑战,并通过不懈的努力和决心,成功地穿越…...

ROS2学习——节点话题通信(2)

目录 一、ROS2节点 1.概念 2.实例 (1)ros2 run (2)ros2 node list (3)remapping重映射 (4)ros2 node info 二、话题 (1) ros2 topic list &#xf…...

【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理,以及遇到的困难和总结

💓 博客主页:从零开始的-CodeNinja之路 ⏩ 收录文章:【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理,以及遇到的困难和总结 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 什么是搜索引…...

配置docker阿里云镜像地址

一、安装docker的步骤: 1.yum install -y yum-utils 2.yum-config-manager --add-repo http://mirrors.aliyun.com/docker- ce/linux/centos/docker-ce.repo --配置阿里云仓库3.yum makecache fast4.yum install docker-ce -y5.docker version …...

ICML 2024 Mamba 论文总结

2024ICML(International Conference on Machine Learning,国际机器学习会议)在2024年7月21日-27日在奥地利维也纳举行 🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀 欢迎大家关注时空探索之旅 …...

Sass详解

Sass简介 Sass(Syntactically Awesome Stylesheets)是一种CSS预处理器,它在CSS的语法基础上添加了一些功能和语法糖,提供了更强大和灵活的样式表语言。 Sass可以通过定义变量、嵌套规则、混合、继承等功能,帮助开发者…...

如何实现一个高效的排序算法?

要实现一个高效的排序算法,可以考虑以下几个方面: 1.选择合适的排序算法:根据数据规模和特点选择合适的排序算法。例如,对于小规模的数据可以选择插入排序或选择排序,而对于大规模数据可以选择归并排序或快速排序。 …...

Linux--10---安装JDK、MySQL

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 安装JDK[Linux命令--03----JDK .Nginx. 数据库](https://blog.csdn.net/weixin_48052161/article/details/108997148) 第一步 查询系统中自带的JDK第二步 卸载系统中…...

【大数据】MapReduce JAVA API编程实践及适用场景介绍

目录 1.前言 2.mapreduce编程示例 3.MapReduce适用场景 1.前言 本文是作者大数据系列专栏的其中一篇,前文我们依次聊了大数据的概论、分布式文件系统、分布式数据库、以及计算引擎mapreduce核心概念以及工作原理。 书接上文,本文将会继续聊一下mapr…...

图像分类和文本分类(传统机器学习和深度学习)

1. 传统机器学习—决策树 1.1 图像分类代码 from sklearn import tree from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split# 加载数据集 iris load_iris() X, y iris.data, iris.target# 划分数据集 X_train, X_test, y_train,…...

基于SpringBoot和Hutool工具包实现的验证码案例

目录 验证码案例 1. 需求 2. 准备工作 3. 约定前后端交互接口 需求分析 接口定义 4. Hutool 工具介绍 5. 实现验证码 后端代码 前端代码 6. 运行测试 验证码案例 随着安全性的要求越来越高,目前项目中很多都会使用验证码,只要涉及到登录&…...

python-找出四位数中的玫瑰花数

【问题描述】玫瑰花数指一个n位数(n>4),其每位上的数字的n次幂之和等于本身。 请求出所有四位数中的玫瑰花数 【输入形式】 【输出形式】 【样例输入】 【样例输出】1634 8208 9474 【样例说明】 【评分标准】 完整代码如下: for n in ra…...

Linux-命令上

at是一次性的任务,crond是循环的定时任务 如果 cron.allow 文件存在,只有在文件中出现其登录名称的用户可以使用 crontab 命令。root 用户的登录名必须出现在 cron.allow 文件中,如果这个文件存在的话。系统管理员可以明确的停止一个用户&am…...

青鸟云报修系统:实现高效、便捷的维修申请处理

在日常生活和工作中,故障报修难免会遇到,售后报修服务则成为了解决问题的关键。纸质化售后报修维修申请单,作为报修流程中的重要一环,在一定程度上能够记录和追踪售后报修维修流程,但在实际操作过程中却存在着诸多弊端…...

Python解析网页

目录 1、Beautiful Soup 2、解析数据 3、遍历文档树 4、搜索文档树 一、Beautiful Soup 1、什么是Beautiful Soup 定义:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库. 功能:它能够通过你喜欢的转换器实现惯用的文档导航,查找,修…...

IDEA连接MySQL后如何管理数据库

上一节讲解了IDEA如何连接MySQL数据库管理系统,接下来我们就可以在IDEA里使用MySQL来管理数据库了。那么如果我们现在还没有创建需要的数据库怎么办?本节就来教大家如何在IDEA连接MySQL后管理数据库(创建/修改/删除数据库、创建/修改/删除表、插入/更新/…...

linux新机快速配置ssh

配置SSH以实现证书登录 要配置新的Linux机器以实现证书登录,您需要执行以下步骤: 安装SSH服务器: sudo apt-get install openssh-server修改SSH端口(可选): SSH配置文件(通常位于/etc/ssh/sshd…...

使用elementUI的form表单校验时,错误提示位置异常解决方法

问题 最近在做项目时遇到一个问题&#xff0c;使用elementUI的Descriptions 描述列表与form表单校验时&#xff0c;遇到校验信息显示的位置不对&#xff0c;效果如图&#xff1a; 期望显示在表格中。 效果 代码 html <el-form :model"form":rules"rules…...

Android面试题之Kotlin常见集合操作技巧

本文首发于公众号“AntDream”&#xff0c;欢迎微信搜索“AntDream”或扫描文章底部二维码关注&#xff0c;和我一起每天进步一点点 list 创建和修改 不可变list,listOf var list listOf("a","d","f") println(list.getOrElse(3){"Unkn…...

网络拓扑—DNS服务搭建

文章目录 DNS服务搭建网络拓扑配置网络DNSPC 安装DNS服务配置DNS服务创建正向查找区域创建反向查找区域创建子域名 PC机DNS域名解析 DNS服务搭建 网络拓扑 为了节省我的U盘空间&#xff0c;没有用路由器&#xff0c;所以搭建的环境只要在同网段即可。 //交换机不用考虑 DNS&a…...

Mybatis-Plus笔记

1.MP基础 1.1 MP常见注解 TableName(“指定表明”) TableName("tb_user") // 指定表名 Data NoArgsConstructor AllArgsConstructor Builder public class User {private Long id;private String userName;private String password;private String name;private I…...

“高考钉子户”唐尚珺决定再战2024年高考

“高考钉子户”唐尚珺决定在2024年再次参加高考&#xff0c;这个选择确实很特别也很有趣。十几年连续参加高考&#xff0c;他已经积累了大量的备考经验和应试技巧。这样的经验对于高考辅导机构来说无疑是非常宝贵的资源&#xff0c;他如果选择去辅导机构当老师&#xff0c;应该…...

Hive安装教程

前置条件:hadoop&mysql docker容器安装mysql-CSDN博客 以下的/opt/bigdata目录根据自己实际情况更改 1.上传hive包并解压 tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /opt/bigdata/ 2.修改路径 mv /opt/bigdata/apache-hive-3.1.3-bin/ hive cd /opt/bigdata/hive/…...

使用Python Tkinter创建GUI应用程序

大家好&#xff0c;当我们谈及使用Python Tkinter创建GUI应用程序时&#xff0c;我们涉及的不仅是技术和代码&#xff0c;更是关于创造力和用户体验的故事。Tkinter作为Python标准库中最常用的GUI工具包&#xff0c;提供了丰富的功能和灵活的接口&#xff0c;让开发者能够轻松地…...

使用 RT 矩阵进行 3D 点云变换详解(基于 PCL 和 Eigen 库)

在 3D 点云处理中&#xff0c;RT 矩阵是一个常用的工具&#xff0c;用于对点云进行旋转和平移操作。本文将详细介绍 RT 矩阵的概念&#xff0c;并通过一个示例程序演示如何基于 PCL 和 Eigen 库将一帧点云进行矩阵变换再输出。 本教程的示例代码和点云数据可在 GitHub 下载。 什…...