当前位置：首页 > news >正文

论文阅读-Transformer Layers as Painters

news 2026/2/10 4:40:40

1. 摘要

尽管大语言模型现在已经被广泛的应用于各种任务，但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响，本文设计了一系列的实验。通过实验表明，预训练语言模型中的lower和final layers与中间层分布不一致，并且中间层有着惊人的一致性。

2. 模型和benchmark

模型：BERT-Large和Llama2
- llama-7B：32layers，每层包括202M参数
- llava-13B：40layers
- llava-70B：80layers
- BERT-large：24layers和340M参数
benchmark for llama2
- ARC：science exam question
- HellaSwag：commonsense
- GSM8K：Math Word Problems
- WinoGrande：Winograd Schema Challenge
- LAMBADA：word prediction，measures perplexity
benchmark for bert：
- GLUE
  - CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic
    theory.
  - MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.
  - QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.
  - RTE (The Recognizing Textual Entailment): Textual entailment
  - SST2 (The Stanford Sentiment Treebank): Sentiment prediction.
  - STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.
  - WNLI (The Winograd Schema Challenge): Sentence referent selection.

3. 实验

在这里插入图片描述

3.1 Do layers “speak the same language”?

**实验：**跳过某层或将前后两层调换顺序，实验结果如下图所示：
在这里插入图片描述
从上图中可以看出，对中间的模型层调换前后2层顺序及跳过某层，在benchmark上效果波动不大；但first和last few layers则相反。因此，可以推断出middle layer和first及last few layers有不同的表征空间，且中间层间的表征空间比较相似。
为了更进一步验证这个猜想，衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示：
在这里插入图片描述
从上图中可以看出，模型基本有三种表征空间，“beginning”，“middle”和“ending”。另外，“beginning”层和“middle”层的层数似乎随着模型总层数的增加而增加，而“ending”层则会固定到单层上。