当前位置: 首页 > article >正文

NLP/大模型八股专栏结构解析

1.transformer 结构相关

(1)transformer的基本结构有哪些,分别的作用是什么,代码实现。
NLP高频面试题(一)——Transformer的基本结构、作用和代码实现
(2)LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(二)——LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
NLP高频面试题(三)——普通RNN的梯度消失和梯度爆炸问题
(3)为什么要多头注意力机制?

(4)为什么要有QKV三个不同的向量,目前对这块有哪些优化?

(5)self-attention和cross-attention的区别与联系

(6)BN和LN的区别与联系,为什么attention要用LN

NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN

NLP高频面试题(三十四)——深度解析Layer Normalization与Batch Normalization:区别、联系及Transformer为何偏爱LN

2. bert及其变体相关

(1)BERT的基本结构介绍、预训练任务、下游任务
NLP高频面试题(五)——BERT的基本结构介绍、预训练任务、下游任务

(2)BERT和传统的文本表示模型的区别与联系

(3)Bert和transformer论文中有哪些不一样的地方

(4)GPT的基本结构介绍

(5)decoder-only、encoder-only和encoder-decoder的区别与联系
NLP高频面试题(六)——decoder-only、encoder-only和encoder-decoder的区别与联系

(6)GPT和Bert的mask有什么区别?
NLP高频面试题(七)——GPT和Bert的mask有什么区别?

(7)GPT1,2,3分别有哪些改进

NLP高频面试题(八)——GPT三个版本的区别
(8)

3. NLP任务相关

4. 大模型相关

(1)目前常见的几种大模型架构是啥样的
NLP高频面试题(十)——目前常见的几种大模型架构是啥样的

(2)RLHF的流程有哪些
NLP高频面试题(十一)——RLHF的流程有哪些

(3)Lora微调的原理、什么是Qlora
NLP高频面试题(十二)——Lora微调的原理、什么是Qlora

(4)什么是大模型幻觉,如何解决大模型幻觉
NLP高频面试题(十三)——什么是大模型幻觉,如何解决大模型幻觉

(5)DPO、PPO等强化学习训练方法介绍
NLP高频面试题(十四)——DPO、PPO等强化学习训练方法介绍

(6)大模型解码常见参数解析
NLP高频面试题(九)——大模型常见的几种解码方案

NLP高频面试题(二十九)——大模型解码常见参数解析

(7)RAG相关内容简介
NLP高频面试题(二十四)——RAG相关内容简介
(8)RAG的reranker模块结果,原理和目前存在的挑战
NLP高频面试题(二十五)——RAG的reranker模块结果,原理和目前存在的挑战

(9)RAG的retriever模块作用,原理和目前存在的挑战
NLP高频面试题(二十六)——RAG的retriever模块作用,原理和目前存在的挑战
(10)SFT有哪几种参数微调方法?有什么优缺点?
NLP高频面试题(二十七)——SFT有哪几种参数微调方法?有什么优缺点?
(11)Reward model是如何训练的,怎么训练一个比较好的Reward model
NLP高频面试题(二十八)——Reward model是如何训练的,怎么训练一个比较好的Reward model

(12)LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十)——LLama系列模型介绍,包括LLama LLama2和LLama3
NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别
(13)多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
NLP高频面试题(三十一)——多模态预训练模型的主要结构、特征对齐与融合方法及对比损失函数详解
(14)介绍一下CLIP和CLIP2
NLP高频面试题(三十二)——介绍一下CLIP和CLIP2
(15)Vision Transformer(ViT)模型架构介绍
NLP高频面试题(三十三)——Vision Transformer(ViT)模型架构介绍
(16)深入理解思维链(Chain-of-Thought)提示方法
NLP高频面试题(三十六)——深入理解思维链(Chain-of-Thought)提示方法

5. AI Infra相关

(1)有哪几种分布式训练方式
NLP高频面试题(十五)——有哪几种分布式训练方式

(2)deepspeed原理
NLP高频面试题(十六)——deepspeed原理

(3)什么是KV Cache
NLP高频面试题(十七)——什么是KV Cache

(4)什么是prefill和decoder分离架构
NLP高频面试题(十八)——什么是prefill和decoder分离架构

(5)VLLM推理加速原理
NLP高频面试题(十九)——VLLM推理加速原理

(6)flash attention原理
NLP高频面试题(二十)——flash attention原理

6. DeepSeek相关

(1)deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的

(2)deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用
NLP高频面试题(二十二)——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用

7. 其他

(1)对抗训练的发展脉络,原理,演化路径
NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径

相关文章:

NLP/大模型八股专栏结构解析

1.transformer 结构相关 (1)transformer的基本结构有哪些,分别的作用是什么,代码实现。 NLP高频面试题(一)——Transformer的基本结构、作用和代码实现 (2)LSTM、GRU和Transformer结…...

grep命令: 过滤

[rootxxx ~]# grep root /etc/passwd [rootxxx ~]# grep -A 2 root /etc/passwd -A #匹配行后两行 [rootxxx ~]# grep -B 2 root /etc/passwd -B #匹配行前两行 [rootxxx ~]# grep -C 2 root /etc/passwd -C #前后2行 [rootxxx ~]# grep -n root /…...

SpringBoot洗衣店订单管理系统设计与实现

一个基于SpringBoot的洗衣店订单管理系统的设计与实现。 系统概述 支持管理员管理顾客与店家信息、店家管理店铺与洗衣信息,以及顾客预约、查看洗衣信息与交流等功能。 部分功能模块 1. 管理员模块 ​顾客信息管理 ​店家信息管理 2. 店家模块 ​店铺信息管 …...

模版的特性及其编译分离

1.模版的分类 模版参数分为 类型形参 和 非类型形参 类型形参:出现在模版参数列表中,跟在class和typename之后的参数类型名称 非类型形参:就是用一个常量作为类(函数)模版的一个参数,在类(函…...

基于 Ubuntu 24.04 LTS(Noble Numbat)的完整安装指南

以下是基于 Ubuntu 24.04 LTS(Noble Numbat)的完整安装指南,整合了多平台安装方法与优化建议,涵盖物理机、虚拟机及服务器场景: 一、准备工作 1. 系统要求 硬件配置: CPU:2 GHz双核或更高 内存…...

7-12 最长对称子串(PTA)

对给定的字符串,本题要求你输出最长对称子串的长度。例如,给定Is PAT&TAP symmetric?,最长对称子串为s PAT&TAP s,于是你应该输出11。 输入格式: 输入在一行中给出长度不超过1000的非空字符串。 输出格式&…...

NO.66十六届蓝桥杯备战|基础算法-贪心-区间问题|凌乱的yyy|Rader Installation|Sunscreen|牛栏预定(C++)

区间问题是另⼀种⽐较经典的贪⼼问题。题⽬⾯对的对象是⼀个⼀个的区间,让我们在每个区间上做出取舍。 这种题⽬的解决⽅式⼀般就是按照区间的左端点或者是右端点排序,然后在排序之后的区间上,根据题⽬要求,制定出相应的贪⼼策略&…...

搭建redis主从同步实现读写分离(原理剖析)

搭建redis主从同步实现读写分离(原理剖析) 文章目录 搭建redis主从同步实现读写分离(原理剖析)前言一、搭建主从同步二、同步原理 前言 为什么要学习redis主从同步,实现读写分析。因为单机的redis虽然是基于内存,单机并发已经能支撑很高。但是随着业务量…...

Rust切片、结构体、枚举

文章目录 切片类型字符串切片其他结构的切片 结构体结构体实例元组结构体结构体所有权输出结构体结构体的方法结构体关联函数单元结构体 枚举match语法Option枚举类if let 语句 切片类型 切片(Slice)是对数据值的部分“引用” 我们可以从一个数据集合中…...

使用人车关系核验API快速核验车辆一致性

一、 引言 随着车辆交易的日益频繁,二手车市场和金融领域的汽车抵押业务蓬勃发展。然而,欺诈和盗窃行为也时有发生,给行业带来了不小的冲击。例如,3月20日央视曝光的“新能源车虚假租赁骗补”产业链,以及某共享汽车平…...

【学习笔记】深度学习环境部署相关

文章目录 [AI硬件科普] 内存/显存带宽,从 NVIDIA 到苹果 M4[工具使用] tmux 会话管理及会话持久性[A100 02] GPU 服务器压力测试,gpu burn,cpu burn,cuda samples[A100 01] A100 服务器开箱,超微平台,gpu、…...

股票日数据使用_未复权日数据生成前复权日周月季年数据

目录 前置: 准备 代码:数据库交互部分 代码:生成前复权 日、周、月、季、年数据 前置: 1 未复权日数据获取,请查看 https://blog.csdn.net/m0_37967652/article/details/146435589 数据库使用PostgreSQL。更新日…...

Java程序设计第1章:概述

一、Hello World 1.代码: public class HelloWorld {public static void main(String[] args){System.out.println("Hello World!");} } 2.运行结果: Hello World! 二、输出姓名、学号、班级 1.题目: 编写一个Application&a…...

【LeetCode Solutions】LeetCode 146 ~ 150 题解

CONTENTS LeetCode 146. LRU 缓存(中等)LeetCode 147. 对链表进行插入排序(中等)LeetCode 148. 排序链表(中等)LeetCode 149. 直线上最多的点数(困难)LeetCode 150. 逆波兰表达式求值…...

《 如何更高效地学习》

🚀个人主页:BabyZZの秘密日记 📖收入专栏:个人谈心 🌍文章目入 一、明确学习目标二、制定学习计划三、选择合适的学习方法(一)主动学习(二)分散学习(三&#…...

常用中间件合集

简介 在游戏或者web服务器开发过程中 难免会使用一些中间件 正所谓有现成的 就没必要重复造轮子了 以下大概介绍下常用的中间件nginx etcd nats docker k8s nginx 简介 Nginx是一个 轻量级/高性能的反向代理Web服务器,他实现非常高效的反向代理、负载平衡,他可以处理2-3万…...

分布式数据一致性场景与方案处理分析|得物技术

一、引言 在经典的CAP理论中一致性是指分布式或多副本系统中数据在任一时刻均保持逻辑与物理状态的统一,这是确保业务逻辑正确性和系统可靠性的核心要素。在单体应用单一数据库中可以直接通过本地事务(ACID)保证数据的强一致性。 然而随着微服务架构的普及和业务场…...

JAVA:使用 Curator 进行 ZooKeeper 操作的技术指南

1、简述 Apache Curator 是一个基于 ZooKeeper 的 Java 客户端库,它极大地简化了使用 ZooKeeper 的开发工作。Curator 提供了高层次的 API,封装了很多复杂的 ZooKeeper 操作,例如连接管理、分布式锁、Leader 选举等。 在分布式系统中&#…...

C++ - 宏基础(简单常量替换宏、函数样式的宏、多行宏、预定义宏、字符串化宏、连接宏、可变参数日志宏)

宏概述 在编程中,宏(Macro)是一种预处理器指令 宏可以让程序员在源代码中定义一段值或代码的别名,在编译程序之前,预处理器会查找这些宏,并将其替换为相应的值或代码 C 宏 在 C 中,宏可以通过…...

Linux中的调试器gdb与冯·诺伊曼体系

一、Linux中的调试器:gdb 1.1安装与版本查看 可以使用yum进行安装: yum install -y gdb 版本查看:使用指令 gdb --version 1.2调试的先决条件:release版本与debug版本的切换 debug版本:含有调试信息 release版本…...

STM32 + keil5 跑马灯

硬件清单 1. STM32F407VET6 2. STLINK V2下载器(带线) 环境配置 1. 安装ST-LINK 2. 安装并配置 keil5 https://blog.csdn.net/qq_36535414/article/details/108947292 https://blog.csdn.net/weixin_43732386/article/details/117375266 3. 接线并下载 点击"LOAD“&a…...

Ruby语言的代码重构

Ruby语言的代码重构:探索清晰、可维护与高效的代码 引言 在软件开发的过程中,代码的质量直接影响到项目的可维护性、扩展性和整体性能。随着时间的推移,系统的需求变化,代码可能会变得混乱和难以理解,因此&#xff0…...

leetcode 数组总结篇

基础理论 数组&#xff1a;下标时从 0 开始的&#xff0c;地址是连续的&#xff0c;不能删除&#xff0c;只能覆盖&#xff1b;数组的实现&#xff1a;vector动态数组 常用操作 头文件 #include <iostream> #include <vector> #include <cstdint> // IN…...

盲盒小程序开发平台搭建:打造个性化、高互动性的娱乐消费新体验

在数字化浪潮席卷消费市场的今天&#xff0c;盲盒小程序以其独特的趣味性和互动性&#xff0c;迅速成为了年轻人追捧的娱乐消费新宠。盲盒小程序不仅为用户带来了拆盒的惊喜和刺激&#xff0c;更为商家提供了创新的营销手段。为了满足市场对盲盒小程序日益增长的需求&#xff0…...

DuckDB系列教程:如何分析Parquet文件

Parquet 是一种强大的、基于列的存储格式&#xff0c;适用于实现更快捷和更高效的数据分析。您可以使用 DuckDB 这种内存型分析数据库来处理 Parquet 文件并运行查询以对其进行分析。 在这篇文章中&#xff0c;我们将逐步介绍如何使用 DuckDB 对存储在 Parquet 文件中的餐厅订单…...

深入解析:使用Python爬取Bilibili视频

深入解析&#xff1a;使用Python爬取Bilibili视频 引言 Bilibili&#xff0c;作为中国领先的年轻人文化社区&#xff0c;拥有海量的视频资源。对于想要下载Bilibili视频的用户来说&#xff0c;手动下载不仅费时费力&#xff0c;而且效率低下。本文将介绍如何使用Python编写一…...

GRE,MGRE

GRE&#xff1a;静态过程&#xff0c;有局限性 R1 &#xff1a; [r1]interface Tunnel 0/0/0 --- 创建一个虚拟的隧道接口 [r1-Tunnel0/0/0]ip address 192.168.3.1 24 --- 给隧道接口分配一个 IP 地址 [r1-Tunnel0/0/0]tunnel-protocol gre --- 定义接口的封装方式 [r1-Tun…...

【linux学习】linux系统调用编程

目录 一、任务、进程和线程 1.1任务 1.2进程 1.3线程 1.4线程和进程的关系 1.5 在linux系统下进程操作 二、Linux虚拟内存管理与stm32的真实物理内存区别 2.1 Linux虚拟内存管理 2.2 STM32的真实物理内存映射 2.3区别 三、 Linux系统调用函数 fork()、wait()、exec(…...

Azure Speech 赋能,为智能硬件注入 AI 语音 “新灵魂”

在人工智能技术飞速发展的今天&#xff0c;智能硬件正逐步渗透到人们生活的方方面面。AI玩具、AI眼镜、AI鼠标等创新产品不仅提升了用户体验&#xff0c;更带来了前所未有的交互方式。领驭科技凭借微软Azure Speech的强大技术能力&#xff0c;为硬件厂商提供一站式AI语音解决方…...

力扣DAY35 | 热100 | LRU缓存

前言 中等 ⚪ 这个题原本打算用双链表最小堆做&#xff0c;发现无解。没想到双向链表。 题目 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类&#xff1a; LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int …...