LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)
欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/145188660
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
Scaling Laws (缩放法则) 是大模型领域中,用于描述 模型性能(Loss) 与 模型规模N、数据量D、计算资源C 之间关系的经验规律,揭示在大模型中,随着模型参数数量、数据集大小和计算资源的增加,模型性能的变化模式,指导更高效地分配资源,优化模型训练过程,实现更好的性能。这些规律不仅有助于预测不同规模模型的表现,还能为模型设计和训练提供理论依据,是推动大模型发展和应用的重要理论基础。
论文:ESM3 - Simulating 500 million years of evolution with a language model
在 蛋白质大语言模型(Protein Language Model, PLM) 方向,使用数据集约 200B Tokens (AA氨基酸),基于 C=6ND,以及 Loss 与 模型规模(N) 的 IsoFLOPs 曲线,确定 FLOPs 与 模型规模(N)、FLOPs 与 数据量(D) 之间的关系,构建 ScalingLaws 公式,验证不同目标 CLM(Causal Language Model) 与 MLM(Masked Language Model) 的系数差异,即给定计算量C的情况下,确定最优模型规模N、最优数据量D。其中,计算出的公式:
C C L M = 6.45 × N × D C M L M = 5.98 × N × D \begin{align} C_{CLM} &= 6.45 \times N \times D \\ C_{MLM} &= 5.98 \times N \times D \end{align} CCLMCMLM=6.45×N×D=5.98×N×D
参考:大模型 ScallingLaws 的 C=6ND 公式推导
1. 数据集(D)
数据扩展(Scaling up data),构建蛋白质序列的数据集 200B Tokens ,即 UniMeta200B
,其中序列 939M (即9亿),Tokens 是194B (即1940亿),即平均序列长度 215,用于验证 Scaling Laws 以及预训练。
- UR50/S:Uniref50 默认数据集,以最大相似度 50% 聚类。
- Uniref90/50:Uniref90 默认数据集,以最大相似度 90% 聚类,去除 Uniref50 数据。
- ColabFoldDB: 宏基因组数据源,以最大相似度 30% 聚类,c 表示 cluster,聚类中心,m 表示 member,聚类成员。
即:
参考:GitHub - Availability of UR50/S, UR50/D also UR100/S and UR100/D
UR50/S 是从 Uniref 下载的 UR50 数据集。UR50/D 对于 UR50/S 中的每个聚类进行采样,然后在每个训练迭代中,对聚类中的每个序列进行采样,可以从聚类成员文件中,创建。因此,UR50/D 的数据量大于 UR50/S。
通过实验可知,证明数据量对于不同模型参数量的影响:
- 使用
UR50/S
数据集(即 54M Seq., 5.2B Tokens) 与3B
模型, 即小数据和大模型,在 MLM 模型导致严重的过拟合。 - 其余均表现出,模型越大,数据越多,性能(Loss 和 PPL) 越好。
2. Scaling Law (MLM & CLM)
标准的 Scaling Law 公式,其中 C C C 是计算量(FLOPs), N N N 是模型尺寸, D D D 是数据量(Tokens 数量),即:
C = 6 × N × D C=6 \times N \times D C=6×N×D
实验条件:
- C: FLOPs 计算量从 1 × 1 0 18 ∼ 1 × 1 0 21 1 \times 10^{18} \sim 1 \times 10^{21} 1×1018∼1×1021,累计 7 个计数,间隔大约 3 倍;
- N: 模型参数量,累计使用 39 个模型 ( 4 M ∼ 10.7 B 4M \sim 10.7B 4M∼10.7B);
- D: 数据集,使用之前构建的 200B Tokens 蛋白质序列数据集。
数据量预估 D = C 6 ∗ N D = \frac{C}{6*N} D=6∗NC,例如,在 计算量是 1 × 1 0 21 1 \times 10^{21} 1×1021 下:
- 1.2B 的模型 (MLM的最优模型),计算量是 1 × 1 0 21 1 \times 10^{21} 1×1021,数据量是 D = 1 × 1 0 21 6 × 1.2 × 1 0 9 = 1.388 × 1 0 11 = 133.8 B D=\frac{1 \times 10^{21}}{6 \times 1.2 \times 10^{9}}=1.388 \times 10^{11}=133.8B D=6×1.2×1091×1021=1.388×1011=133.8B
- 1.7B 的模型 (CLM的最优模型),计算量是 1 × 1 0 21 1 \times 10^{21} 1×1021,数据量是 D = 1 × 1 0 21 6 × 1.7 × 1 0 9 = 0.9803 × 1 0 11 = 98.03 B D=\frac{1 \times 10^{21}}{6 \times 1.7 \times 10^{9}}=0.9803 \times 10^{11}=98.03B D=6×1.7×1091×1021=0.9803×1011=98.03B
训练过程,确保模型经过完整的余弦学习率衰减周期,通过 最小二乘法(least_squares
) 拟合得到模型参数。
IsoLoss 在探索不同的模型参数和数据规模组合时,发现一些组合下,最终损失的差异非常小,即被定义为 IsoLoss (Isometric Loss) 条件,即等距损失,因为在训练效果上是相近的。参考:Demystify Transformers: A Guide to Scaling Laws
在 IsoFLOPs(等距计算量) 曲线图中,模型尺寸(Model Size) 最大的点 是 7.2 B = 7.2 × 1 0 9 7.2B=7.2 \times 10^9 7.2B=7.2×109,黄线最低点是 1.2 B = 1.2 × 1 0 9 1.2B=1.2 \times 10^9 1.2B=1.2×109,黄线的计算量是 1 × 1 0 21 1 \times 10^{21} 1×1021,参考:
2.1 Scaling Laws for MLM and CLM
通过 IsoFLOPs,拟合模型参数量 N N N,与数据量 D D D,与计算量 C C C 之间的曲线:
N = a × C α D = b × C β \begin{align} N &= a \times C^{\alpha} \\ D &= b \times C^{\beta} \\ \end{align} ND=a×Cα=b×Cβ
通过 IsoFLOPs,计算 CLM 与 MLM 的 Scaling Laws 参数:
使用 Latex 计算数值,可以使用 SymboLab 工具
例如:
CLM 模型在 1 × 1 0 21 1 \times 10^{21} 1×1021 计算量下的 最优参数量(N) 是 1.73B
,与实验近似,参考:
N = ( 1.26 × 1 0 − 3 ) × C 0.578 N = 1.26 × 1 0 − 3 × ( 1 × 1 0 21 ) 0.578 = 1.26 × 1 0 − 3 × 1 0 12.138 = 1.26 × 1 0 9.138 = 1.7313 × 1 0 9 ≈ 1.73 B \begin{align} N &= (1.26 \times 10^{-3}) \times C^{0.578} \\ N &= 1.26 \times 10^{-3} \times (1 \times 10^{21})^{0.578} \\ &= 1.26 \times 10^{-3} \times 10^{12.138} \\ &= 1.26 \times10^{9.138} \\ &= 1.7313 \times 10^{9} \\ &\approx 1.73B \\ \end{align} NN=(1.26×10−3)×C0.578=1.26×10−3×(1×1021)0.578=1.26×10−3×1012.138=1.26×109.138=1.7313×109≈1.73B
同时,反推 C 的公式:
C = ( N 1.26 ∗ 1 0 − 3 ) 1 0.578 = ( N 1.26 ∗ 1 0 − 3 ) 1.73 C = ( 1.73 ∗ 1 0 9 1.26 ∗ 1 0 − 3 ) 1.73 = ( 1.37 ∗ 1 0 12 ) 1.73 = 1 ∗ 1 0 21 \begin{align} C &= (\frac{N}{1.26*10^{-3}})^\frac{1}{0.578} = (\frac{N}{1.26*10^{-3}})^{1.73} \\ C &= (\frac{1.73 * 10^{9}}{1.26*10^{-3}})^{1.73} \\ &= (1.37*10^{12})^{1.73} \\ &= 1*10^{21} \end{align} CC=(1.26∗10−3N)0.5781=(1.26∗10−3N)1.73=(1.26∗10−31.73∗109)1.73=(1.37∗1012)1.73=1∗1021
CLM 模型在 1 × 1 0 21 1 \times 10^{21} 1×1021 计算量下的 最优数据量(D) 是 89.5B
,与实验近似,参考:
D = ( 1.23 × 1 0 2 ) × C 0.422 D = 1.23 × 1 0 2 × ( 1 × 1 0 21 ) 0.422 = 89.5 × 1 0 9 ≈ 89.5 B \begin{align} D &= (1.23 \times 10^{2}) \times C^{0.422} \\ D &= 1.23 \times 10^{2} \times (1 \times 10^{21})^{0.422} \\ &= 89.5 \times 10^9 \\ &\approx 89.5B \end{align} DD=(1.23×102)×C0.422=1.23×102×(1×1021)0.422=89.5×109≈89.5B
在 C = 1 × 1 0 21 C=1 \times 10^{21} C=1×1021 时,在蛋白质生成领域 CLM 的 Scaling Laws,满足:
C = α × N × D α = C N × D = 1 × 1 0 21 1.7313 × 1 0 9 × 89.5 × 1 0 9 = 6.45363 C = 6.45 × N × D \begin{align} C &= \alpha \times N \times D \\ \alpha &= \frac{C}{N \times D} \\ &= \frac{1 \times 10^{21}}{1.7313 \times10^{9} \times 89.5 \times 10^9} \\ &= 6.45363 \\ C &= 6.45 \times N \times D \end{align} CαC=α×N×D=N×DC=1.7313×109×89.5×1091×1021=6.45363=6.45×N×D
同理,推理 MLM 模型,在 1 × 1 0 21 1 \times 10^{21} 1×1021 计算量的 Scaling Laws:
N = ( 6.19 × 1 0 − 8 ) × C 0.776 = ( 6.19 × 1 0 − 8 ) × ( 1 × 1 0 21 ) 0.776 = 1.224 × 1 0 9 D = ( 2.02 × 1 0 6 ) × C 0.230 = ( 2.02 × 1 0 6 ) × ( 1 × 1 0 21 ) 0.230 = 136.57 × 1 0 9 α = C N × D = 1 × 1 0 21 1.224 × 1 0 9 × 136.57 × 1 0 9 = 5.98 C = 5.98 × N × D \begin{align} N &= (6.19 \times 10^{-8}) \times C^{0.776} = (6.19 \times 10^{-8}) \times (1 \times 10^{21})^{0.776} = 1.224 \times 10^9 \\ D &= (2.02 \times 10^{6}) \times C^{0.230} = (2.02 \times 10^{6}) \times (1 \times 10^{21})^{0.230} = 136.57 \times 10^9 \\ \alpha &= \frac{C}{N \times D} = \frac{1 \times 10^{21}}{1.224 \times 10^9 \times 136.57 \times 10^9} = 5.98 \\ C &= 5.98 \times N \times D \end{align} NDαC=(6.19×10−8)×C0.776=(6.19×10−8)×(1×1021)0.776=1.224×109=(2.02×106)×C0.230=(2.02×106)×(1×1021)0.230=136.57×109=N×DC=1.224×109×136.57×1091×1021=5.98=5.98×N×D
如果 计算量C 预算增加 10 倍:
- 对于 CLM 模型的大小增加 4 倍,训练数据增加 3 倍,近似等比例缩放。
- 对于 MLM 模型的大小增加 6 倍,训练数据增加 1.7 倍。
通过 IsoLoss,构建损失值 Loss,与 C 、 N 、 D C、N、D C、N、D 之间的 Scaling 关系:
L ( x ) = β x × x α x L(x) = \beta_{x} \times x^{\alpha_{x}} L(x)=βx×xαx
进而推导,数据量D 与 参数量N 的关联公式:
D ( N ) = ( β N β D ) 1 α D × N α N α D D(N)=(\frac{\beta_{N}}{\beta_{D}})^{\frac{1}{\alpha_{D}}} \times N^{\frac{\alpha_{N}}{\alpha_{D}}} D(N)=(βDβN)αD1×NαDαN
参数:
例如:1.7B 模型的参数量是 76.19B,注意通过 IsoLoss 与 IsoFLOPs 计算的公式,略有差别,即:
D ( N ) = ( 4.835 7.904 ) 1 − 0.051 × ( 1.7 × 1 0 9 ) − 0.037 − 0.051 = 76.19 B D(N)=(\frac{4.835}{7.904})^{\frac{1}{-0.051}} \times (1.7 \times 10^{9})^{\frac{-0.037}{-0.051}}=76.19B D(N)=(7.9044.835)−0.0511×(1.7×109)−0.051−0.037=76.19B
2.2 Scaling Laws 训练 2 个模型
在相同模型参数下,需要 同时(Simultaneously) 训练 CLM 与 MLM 两个模型,需要总投入的计算资源 C 确定,提高训练效率和效果,避免计算资源的不合理分配或浪费。
在 N ( C M L M ) = N ( C C L M ) N(C_{MLM})=N(C_{CLM}) N(CMLM)=N(CCLM) 的预估计算量 C M L M C_{MLM} CMLM 和 C C L M C_{CLM} CCLM, r ( N ) r(N) r(N) 表示训练令牌的分配比例,即:
C s u m ( N ) = C M L M ( N ) + C C L M ( N ) = ( N 6.19 × 1 0 − 8 ) 1 0.776 + ( N 1.26 × 1 0 − 3 ) 1 0.578 r ( N ) = D M L M ( N ) D C L M ( N ) C_{sum }(N)=C_{MLM}(N)+C_{CLM}(N)=(\frac{N}{6.19 × 10^{-8}})^{\frac{1}{0.776}}+(\frac{N}{1.26 × 10^{-3}})^{\frac{1}{0.578}} \\ r(N) = \frac{D_{MLM}(N)}{D_{CLM}(N)} Csum(N)=CMLM(N)+CCLM(N)=(6.19×10−8N)0.7761+(1.26×10−3N)0.5781r(N)=DCLM(N)DMLM(N)
求解公式得到:
N ( C s u m ) = 1.497 × 1 0 − 6 × C s u m 0.703 r ( N ) = 8.449 × 1 0 3 × N − 0.392 N(C_{sum})=1.497 \times 10^{-6} \times C_{sum}^{0.703} \\ r(N) = 8.449 \times 10^{3} \times N^{-0.392} N(Csum)=1.497×10−6×Csum0.703r(N)=8.449×103×N−0.392
在模型 参数量N 是10B 时,数据量的比例是1:1。即
r ( 10 B ) = 8.449 × 1 0 3 × ( 10 × 1 0 9 ) − 0.392 = 1 r(10B)=8.449 \times 10^{3} \times (10 \times 10^9)^{-0.392}=1 r(10B)=8.449×103×(10×109)−0.392=1
例如:模型大小 1.7B 需要的计算量,即:
C s u m ( N ) = ( 1.7 × 1 0 9 6.19 × 1 0 − 8 ) 1 0.776 + ( 1.7 × 1 0 9 1.26 × 1 0 − 3 ) 1 0.578 = 2.496 × 1 0 21 C_{sum}(N)=(\frac{1.7 \times 10^9}{6.19 × 10^{-8}})^{\frac{1}{0.776}}+(\frac{1.7 \times 10^9}{1.26 × 10^{-3}})^{\frac{1}{0.578}}=2.496 \times 10^{21} Csum(N)=(6.19×10−81.7×109)0.7761+(1.26×10−31.7×109)0.5781=2.496×1021
例如:计算量C是 2.5 × 1 0 21 2.5 \times 10^{21} 2.5×1021,最优模型规模是 1.65 B 1.65B 1.65B,最优数据量是 252 B 252B 252B,即:
N = 1.497 × 1 0 − 6 × ( 2.5 × 1 0 21 ) 0.703 = 1.652 × 1 0 9 ≈ 1.652 B r = 8.449 × 1 0 3 × ( 1.652 × 1 0 9 ) − 0.392 = 2.057 D ≈ C 6 × N = 2.5 × 1 0 21 6 × 1.652 × 1 0 9 = 252 × 1 0 9 ≈ 252 B D M L M = 252 × 2 3 × 1 0 9 = 168 B D C L M = 252 × 1 3 × 1 0 9 = 84 B \begin{align} N &= 1.497 \times 10^{-6} \times (2.5 \times 10^{21})^{0.703} = 1.652 \times 10^{9} \approx 1.652B \\ r &= 8.449 \times 10^{3} \times (1.652 \times 10^{9})^{-0.392} = 2.057 \\ D &\approx \frac{C}{6 \times N} = \frac{2.5 \times 10^{21}}{6 \times 1.652 \times 10^{9}} = 252 \times 10^{9} \approx 252B \\ D_{MLM} &= 252 \times \frac{2}{3} \times 10^{9} = 168B \\ D_{CLM} &= 252 \times \frac{1}{3} \times 10^{9} = 84B \end{align} NrDDMLMDCLM=1.497×10−6×(2.5×1021)0.703=1.652×109≈1.652B=8.449×103×(1.652×109)−0.392=2.057≈6×NC=6×1.652×1092.5×1021=252×109≈252B=252×32×109=168B=252×31×109=84B
C 与 N 的相关性,参考:
其他,Decoder 的不同模型参数,用于计算 Scaling Laws,即:
相关文章:

LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145188660 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 Scalin…...

开发神器之cursor
文章目录 cursor简介主要特点 下载cursor页面的简单介绍切换大模型指定ai学习的文件指定特定的代码喂给ai创建项目框架文件 cursor简介 Cursor 是一款专为开发者设计的智能代码编辑器,集成了先进的 AI 技术,旨在提升编程效率。以下是其主要特点和功能&a…...

使用 Ansys Motor-CAD 的自适应模板加速创新
应对现代电机设计挑战 电机设计不断发展,Ansys 正在通过创新解决方案引领潮流,不断突破可能的界限。随着电动汽车、工业自动化和可再生能源系统的快速增长,对优化电机的需求从未如此之高。工程师面临着越来越大的压力,他们需要开发…...

RabbitMQ前置概念
文章目录 1.AMQP协议是什么?2.rabbitmq端口介绍3.消息队列的作用和使用场景4.rabbitmq工作原理5.整体架构核心概念6.使用7.消费者消息推送限制(work模型)8.fanout交换机9.Direct交换机10.Topic交换机(推荐)11.声明队列…...

http转化为https生成自签名证书
背景 项目开发阶段前后交互采用http协议,演示环境采用htttps协议 ,此处为个人demo案例 组件 后端:springBoot 前端:vue web 服务:tomcat 部署环境:linux 生成自签名证书 创建目录 存储证书位置 # mkdir -p…...

《贪心算法:原理剖析与典型例题精解》
必刷的贪心算法典型例题! 算法竞赛(蓝桥杯)贪心算法1——数塔问题-CSDN博客 算法竞赛(蓝桥杯)贪心算法2——需要安排几位师傅加工零件-CSDN博客 算法(蓝桥杯)贪心算法3——二维数组排序与贪心算…...

【网络协议】【http】【https】RSA+AES-TLS1.2
【网络协议】【http】【https】RSAAES-TLS1.2 https并不是一个协议 而是在传输层之间添加了SSL/TLS协议 TLS 协议用于应用层协议(如 HTTP)和传输层(如 TCP)之间,增加了一层安全性来解决 HTTP 存在的问题,H…...

【数据库】MySQL数据库之约束与多表查询
约束 1.概述 概念:约束是作用于表中字段上的规则,用于限制存储在表中的数据目的:保证数据库中数据的正确性、有效性,完整性和一致性分类: 注意:约束是作用于表中字段上的,可以在创建表/修改表…...
【Pandas】pandas Series dot
Pandas2.2 Series Binary operator functions 方法描述Series.add()用于对两个 Series 进行逐元素加法运算Series.sub()用于对两个 Series 进行逐元素减法运算Series.mul()用于对两个 Series 进行逐元素乘法运算Series.div()用于对两个 Series 进行逐元素除法运算Series.true…...

02UML图(D2_行为图)
目录 学习前言 ---------------------------------- 讲解一:活动图 ---------------------------------- 讲解二:用例图 ---------------------------------- 讲解三:状态机图 ---------------------------------- 讲解四:…...

Kali环境变量技巧(The Environment Variable Technique Used by Kali
Kali环境变量技巧 朋友们好,我们今天继续更新《黑客视角下的Kali Linux的基础与网络管理》中的管理用户环境变量。为了充分利用我们的黑客操作系统Kali Linux,我们需要理解和善于使用环境变量,这样会使我们的工具更具便利,甚至具…...

【C++】如何从源代码编译红色警戒2地图编辑器
【C】如何从源代码编译红色警戒2地图编辑器 操作视频视频中的代码不需要下载三方库,已经包含三方库。 一、运行效果:二、源代码来源及编程语言:三、环境搭建:安装红警2安装VS2022下载代码,源代码其实不太多,…...

安路FPGA开发工具TD:问题解决办法 及 Tips 总结
安路科技(Anlogic)是一家专注于高性能、低功耗可编程逻辑器件(FPGA)设计和生产的公司。其提供的开发工具TD(TangDynasty)是专门为安路FPGA系列产品设计的集成开发环境(IDE)。以下是对…...

【Django开发】django美多商城项目完整开发4.0第12篇:商品部分,表结构【附代码文档】
本教程的知识点为: 项目准备 项目准备 配置 1. 修改settings/dev.py 文件中的路径信息 2. INSTALLED_APPS 3. 数据库 用户部分 图片 1. 后端接口设计: 视图原型 2. 具体视图实现 用户部分 使用Celery完成发送 判断帐号是否存在 1. 判断用户名是否存在 后…...

IDEA2023版中TODO的使用
介绍:TODO其实本质上还是注释,只不过加上了TODO这几个字符,可以让使用者快速找到。 注意:在类、接口等文件中,注释是使用// 即:// TODO 注释内容 在配置文件中,注释是使用# 即:# TO…...

windows 搭建flutter环境,开发windows程序
环境安装配置: 下载flutter sdk https://docs.flutter.dev/get-started/install/windows 下载到本地后,随便找个地方解压,然后配置下系统环境变量 编译windows程序本地需要安装vs2019或更新的开发环境 主要就这2步安装后就可以了࿰…...
支持向量机算法(三):非线性支持向量原理层层拆解,精读公式每一处细节
支持向量机算法(一):像讲故事一样讲明白它的原理及实现奥秘-CSDN博客 支持向量机算法(二):层层拆解,精读公式每一处细节-CSDN博客 支持向量机算法(一)、算法࿰…...

一文读懂iOS中的Crash捕获、分析以及防治
Crash系统性总结 Crash捕获与分析Crash收集符号化分析 Crash类别以及解法分析子线程访问UI而导致的崩溃unrecognized selector send to instance xxxKVO crashKVC造成的crashNSTimer导致的Crash野指针Watch Dog超时造成的crash其他crash待补充 参考文章: 对于iOS端开…...

代码随想录刷题day11|(链表篇)206.翻转链表
目录 一、链表理论基础 二、翻转链表思路 双指针解法 递归解法 三、相关算法题目 四、总结 一、链表理论基础 代码随想录 (programmercarl.com) 二、翻转链表思路 两种方法:双指针解法和递归解法 双指针解法 首先定义一个指针curr,初始化为原…...

【STM32-学习笔记-8-】I2C通信
文章目录 I2C通信Ⅰ、硬件电路Ⅱ、IIC时序基本单元① 起始条件② 终止条件③ 发送一个字节④ 接收一个字节⑤ 发送应答⑥ 接收应答 Ⅲ、IIC时序① 指定地址写② 当前地址读③ 指定地址读 Ⅳ、MPU6050---6轴姿态传感器(软件I2C)1、模块内部电路2、寄存器地…...
RestClient
什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端,它允许HTTP与Elasticsearch 集群通信,而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级ÿ…...

深度学习在微纳光子学中的应用
深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向: 逆向设计 通过神经网络快速预测微纳结构的光学响应,替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...
今日科技热点速览
🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售,主打更强图形性能与沉浸式体验,支持多模态交互,受到全球玩家热捧 。 🤖 人工智能持续突破 DeepSeek-R1&…...

第 86 场周赛:矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词
Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的row x col 的 grid,其中有多少个 3 3 的 “幻方” 子矩阵&am…...
Web 架构之 CDN 加速原理与落地实践
文章目录 一、思维导图二、正文内容(一)CDN 基础概念1. 定义2. 组成部分 (二)CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 (三)CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 …...

C++使用 new 来创建动态数组
问题: 不能使用变量定义数组大小 原因: 这是因为数组在内存中是连续存储的,编译器需要在编译阶段就确定数组的大小,以便正确地分配内存空间。如果允许使用变量来定义数组的大小,那么编译器就无法在编译时确定数组的大…...

抽象类和接口(全)
一、抽象类 1.概念:如果⼀个类中没有包含⾜够的信息来描绘⼀个具体的对象,这样的类就是抽象类。 像是没有实际⼯作的⽅法,我们可以把它设计成⼀个抽象⽅法,包含抽象⽅法的类我们称为抽象类。 2.语法 在Java中,⼀个类如果被 abs…...

水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关
在水泥厂的生产流程中,工业自动化网关起着至关重要的作用,尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关,为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多,其中不少设备采用Devicenet协议。Devicen…...

五子棋测试用例
一.项目背景 1.1 项目简介 传统棋类文化的推广 五子棋是一种古老的棋类游戏,有着深厚的文化底蕴。通过将五子棋制作成网页游戏,可以让更多的人了解和接触到这一传统棋类文化。无论是国内还是国外的玩家,都可以通过网页五子棋感受到东方棋类…...