当前位置：首页 > news >正文

LLama系列模型简要概述

news 2026/2/11 3:33:58

LLama-1（7B, 13B, 33B, 65B参数量；1.4T tokens训练数据量）

要做真正Open的AI

Efficient：同等预算下，增大训练数据，比增大模型参数量，效果要更好

训练数据：

书、Wiki这种量少、质量高的数据，训了2轮。

模型改动：

silu激活函数：

LLama-2 (7B, 13B, 70B参数量；2T tokens预训练数据量)

训练流程：

PreTrain + SFT微调 + RLHF强化学习；

安全Reward model, 有用Reward model；

效果：观察到，数据量继续增大的话，还可继续提升效果；

引入了GQA(Group Query Attention):

通过把K和V复制多份来实现的

只在70B模型上，用的GQA:

总共64个head，8个一组，一共有8个Query head和8个Value head。

LLama-3(8B,70B,即将放出的400B，15T tokens预训练数据量)

放出的400B测评，有些指标超过了GPT4；

Word embedding量从3.2万，扩大了4倍，到12.8万。好处：推理效率增加，原来1个中文字词被编码至多个tokens，现在只编码到1个token，减少了推理input和output的token数量。

训练数据：

有研究表明，Code训练数据，对大模型的推理能力提升，有重要作用。因此这里加大了Code的训练数据量。

用LLama2来做预训练数据的质量过滤器。

训练：

用小模型的表现，预测大模型的表现，OpenAI先掌握的，Meta后掌握。

2个24000张H100 GPU卡的集群。

LLama3-Instruct: SFT, Rejection Sampling, DPO, PPO

LLama系列模型简要概述

LLama-1（7B, 13B, 33B, 65B参数量；1.4T tokens训练数据量） 要做真正Open的AI Efficient：同等预算下，增大训练数据，比增大模型参数量，效果要更好训练数据： 书、Wiki这种量少、质量高…...

编程日记 2024/12/10 15:06:21

2022 年“泰迪杯”数据分析技能赛A 题竞赛作品的自动评判

2022 年“泰迪杯”数据分析技能赛A 题竞赛作品的自动评判完整代码请私聊博主一、背景在各类学科竞赛中，常常要求参赛者提交 Excel 或/和 PDF 格式的竞赛作品。本赛题以某届数据分析竞赛作品的评阅为背景，要求参赛者根据给定的评分准则和标准答案&a…...

编程日记 2024/12/10 15:04:17

MYSQL表联接算法深入研究

在关系型数据库中，表联接是一种常见的操作，它使得我们可以根据不同的条件将多个表中的数据进行连接。而MySQL作为一种常用的关系型数据库，其表联接算法包括NLJ、BNL、BKA、BNLH等多种，在实际应用中选择不同的算法还需要考虑到数据…...

编程日记 2024/12/10 15:03:15

markdown中画图功能mermaid

mermaid Mermaid 是一种开源的可交互式的数据可视化库，它使用 Markdown 标记语言来生成图表和流程图。它通常用于生成网站或文档中的图表。Mermaid 不属于任何公司，而是一个由社区开发和维护的开源项目。官方网站： https://mermaid-js.git…...

编程日记 2024/12/10 14:57:07

SCI论文丨机器学习与深度学习论文

目录第一章、ChatGPT-4o使用方法与技巧第二章、ChatGPT-4o辅助文献检索、总结与分析第三章、ChatGPT-4o辅助学术论文选题、创新点挖掘与实验方案设计第四章、ChatGPT-4o辅助学术论文开题与大纲生成第五章、ChatGPT-4o辅助学术论文写作马拉松活动介绍第六章、ChatGPT…...

编程日记 2024/12/10 14:56:06

linux系统编程（二）

1、fcntl #include <unistd.h> int fcntl(int fd, int cmd, ...)fcntl用于控制文件描述符，该系统调用有很多功能，功能用cmd来控制，fcntl后面的参数根据cmd来填充。我们常用的cmd有： F_GETFL：获取文件状态标志…...

编程日记 2024/12/10 14:55:05

uni-app登录界面样式

非常简洁的登录、注册界面模板，使用uni-app编写，直接复制粘贴即可，无任何引用，全部公开。废话不多说，代码如下： login.vue文件 <template><view class"screen"><view class"…...

编程日记 2024/12/10 14:53:01

windows C#-定义抽象属性

以下示例演示如何定义抽象属性。抽象属性声明不提供属性访问器的实现，它声明该类支持属性，而将访问器实现留给派生类。以下示例演示如何实现从基类继承抽象属性。此示例由三个文件组成，其中每个文件都单独编译，产生的程序集由…...

编程日记 2024/12/10 14:52:00

ERROR: KeeperErrorCode = NoNode for /hbase/master

原因分析通过上面的情景模拟，我们可以看到报错的原因在于zookeeper中出现问题，可能是zookeeper中的/hbase/master被删除，或者是在hbase集群启动之后重新安装了zookeeper，导致zookeeper中的/hbase/master节点数据异常。 1. 停止…...

编程日记 2024/12/10 14:50:58

Deepin 23 踩坑记

（首发地址：学习日记 https://www.learndiary.com/2024/12/deepin23-questions/） Deepin 23 是由统信软件技术有限公司牵头开发一款开源 Linux 桌面操作系统（参考链接1），从2022年发布预览版（参考…...

编程日记 2024/12/10 14:49:55

mysql笔记——索引

索引 InnoDB采用了B树索引结构。相比于二叉树，层级更少，搜索效率高。 B树中叶子节点和非叶节点都会存储数据，导致段页式存储中一页存储的键值减少，指针也会减少，要同样保存大量数据，只能增加树的高度&a…...

编程日记 2024/12/10 14:48:54

考研数据结构——简答题总结

数据结构的4种基本结构及特点： 数组（Array）： 特点：数组是一种线性数据结构，使用连续的内存空间存储元素，可以通过索引直接访问任意位置的元素。优点：访问速度快，因为元…...

编程日记 2024/12/10 14:47:53

Qt Creator 里面设置MSVC 为 utf-8

在使用 Qt Creator 和 MSVC（Microsoft Visual C++）编译器进行开发时，我们可能会遇到中文乱码的问题。这通常是由于编码设置不正确导致的。在 Qt Creator 中，你可以通过以下步骤设置默认编码为 UTF-8：打开 Qt Creator，选择菜单栏中的“工具”(Tools) > “选项”(Opti…...

编程日记 2024/12/10 14:46:51

Java阶段三06

第3章-第6节一、知识点理解MVC三层模型、理解什么是SpringMVC、理解SpringMVC的工作流程、了解springMVC和Struts2的区别、学会使用SpringMVC封装不同请求、接收参数二、目标理解MVC三层模型理解什么是SpringMVC 理解SpringMVC的工作流程学会使用SpringMVC封装请求…...

编程日记 2024/12/10 14:44:48

Helm安装Mysql8主从复制集群

目录一、Helm安装二、安装mysql 1、拉取镜像 2、修改配置文件 3、创建mysql-secret 4、安装一、Helm安装这里不再赘叙，具体安装请参考官网 Helm | 快速入门指南二、安装mysql 1、拉取镜像 #添加仓库 helm repo add bitnami https://charts.bitnami.c…...

编程日记 2024/12/10 14:41:44

嵌入式基础：Linux C语言:Day7

重点： strlen()函数\strcpy()函数\strcat实现\strcmp()实现数组的清空：bzero函数、memset函数一、字符数组 <1> 概念字符数组本质上就是一个数组，保存一个个字符，也一般用来保存字符串字符串由多个字符组成的一个字符…...

编程日记 2024/12/10 14:40:42

Tablesaw封装Plot.ly实现数据可视化

上文介绍tablesaw的数据处理功能，本文向你展示其数据可视化功能，并通过几个常用图表示例进行说明。 Plot.ly包装可视化是数据分析的重要组成部分，无论你只是“查看”新数据集还是验证机器学习算法的结果。Tablesaw是一个开源、高性能的Java…...

编程日记 2024/12/10 14:38:41

RAG与Embedding：现代NLP的核心技术

本篇文章简单梳理我在了解RAG以及Embedding技术时的想法，仅供参考文章目录 1. 引言背景为什么要关注RAG与Embedding技术 2. 基础概念与原理2.1 什么是RAG (Retrieval-Augmented Generation)定义工作流程优点与适用场景 2.2 什么是Embedding定义作用 3. Embedding在…...

编程日记 2024/12/10 14:36:37

力扣每日一题 - 1812. 判断国际象棋棋盘中一个格子的颜色

题目还需要你前往力扣官网查看详细的题目要求地址 1.给你一个坐标 coordinates ，它是一个字符串，表示国际象棋棋盘中一个格子的坐标。下图是国际象棋棋盘示意图。2.如果所给格子的颜色是白色，请你返回 true，如果是黑色&#xff…...

编程日记 2024/12/10 14:33:30

Map 那些事儿

1. map 的基本结构 Go 的 map 是一种哈希表，其核心思想是通过哈希函数将键映射到某个位置（桶）以存储对应的值。它主要包含以下关键部分： •桶（bucket）：存储键值对的容器，map 中的元…...

编程日记 2024/12/10 14:31:25

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2026/2/7 20:40:53

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2026/2/7 17:35:15

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2026/2/9 6:48:42

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例，模拟20个网页的爬取，每个网页假设要0.5-2秒完成。代码 Python多线程爬虫教程核心概念多线程：允许程序同时执行多个任务，提高IO密集型任务（如网络请求）的效率…...

编程新知 2025/12/16 18:04:55

NFT模式：数字资产确权与链游经济系统构建

NFT模式：数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命一、确权技术革新：构建可信数字资产基石 1. 区块链底层架构的进化跨链互操作协议：基于LayerZero协议实现以太坊、Solana等公链资产互通，通过零知…...

编程新知 2026/1/31 23:23:23

CSS设置元素的宽度根据其内容自动调整

width: fit-content 是 CSS 中的一个属性值，用于设置元素的宽度根据其内容自动调整，确保宽度刚好容纳内容而不会超出。效果对比默认情况（width: auto）： 块级元素（如 <div>）会占满父容器…...

编程新知 2025/10/16 16:03:09

《C++ 模板》

目录函数模板类模板非类型模板参数模板特化函数模板特化类模板的特化模板，就像一个模具，里面可以将不同类型的材料做成一个形状，其分为函数模板和类模板。函数模板函数模板可以简化函数重载的代码。格式：templa…...

编程新知 2025/6/11 3:20:47

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/12/25 4:05:41

C++课设：简易日历程序（支持传统节假日 + 二十四节气 + 个人纪念日管理）

名人说：路漫漫其修远兮，吾将上下而求索。—— 屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊）专栏介绍：《编程项目实战》目录一、为什么要开发一个日历程序？1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...

编程新知 2025/7/20 6:08:51

jmeter聚合报告中参数详解

sample、average、min、max、90%line、95%line,99%line、Error错误率、吞吐量Thoughput、KB/sec每秒传输的数据量 sample（样本数） 表示测试中发送的请求数量，即测试执行了多少次请求。单位，以个或者次数表示。示例：…...

编程新知 2025/12/18 6:00:45

相关文章：