当前位置: 首页 > news >正文

大语言模型理论基础

文章目录

  • 前言
  • 大语言模型必需知识概述
  • 大语言模型目标
  • 模型
  • 上下文
  • 神经网络的神经元
  • 常见激活函数
    • Sigmoid
    • Tanh
    • Relu
    • softmax
  • 通用近似定理
  • 多层感知机(MLP)
  • 拟合
  • 最后

前言

你好,我是醉墨居士,我们接下来对大语言模型一探究竟,看看大模型主要的核心的概念是什么

大语言模型必需知识概述

LLM(大语言模型)采用了Transformer架构,其中比较重要的部分有tokenizer,embedding,attention

训练流程:预训练 -> 微调 -> RLHF(基于人类反馈的强化学习)

训练方式:分布式训练,数据并行,流水并行,张量并行

高效推理能力

大语言模型目标

能够根据用户输入的文本预测并输出接下来要出现的内容,LLM简单的可以理解为是一个文本接龙的应用

模型

模型可以简单理解为一个能够模拟复杂映射关系的非线性函数,能够基于输入得到输出

上下文

其具备一个上下文窗口,用于记录历史对话,通过将上下文窗口内的数据提交给模型,模型就会返回预测的下文内容,然后并将下文内容追加到上下文窗口中,下次提问将携带该信息,上下文窗口具备一个最大长度,当上下文窗口填充满之后将会舍弃最旧的信息,就相当于一个FIFO(先进先出)队列

神经网络的神经元

在这里插入图片描述
神经元具备两个关键性能力

  1. 计算单元,基于输入参数的加权求和计算,每个输入参数都具备一个对应的参数权重
  2. 激活函数,对加权求和结果进行激活函数的变换,让神经元具备非线性近似的能力,提高神经元的表达能力

常见激活函数

Sigmoid

  • 函数表达式
    在这里插入图片描述

  • 导数表达式
    在这里插入图片描述

  • 图像
    在这里插入图片描述

Tanh

  • 函数表达式
    在这里插入图片描述

  • 导数表达式
    在这里插入图片描述

  • 图像
    在这里插入图片描述

Relu

  • 函数表达式
    在这里插入图片描述

  • 导数表达式
    在这里插入图片描述

  • 图像
    在这里插入图片描述

softmax

  • 函数表达式
    在这里插入图片描述

  • 导数表达式
    在这里插入图片描述

  • 图像
    在这里插入图片描述

  • 说明
    能够将多个输入转换成一组对应输入在[0, 1]范围内的概率值,并且输入对应的概率值之和为1,下图形象的表明了输出层经过Softmax变换的处理过程
    在这里插入图片描述

能够结合模型输出结果与理论输出结果通过交叉商执行损失函数计算损失值,评估预测结果与实际结果的偏离程度,进行梯度下降,不断缩小损失值,让模型能够不断拟合真实场景

通用近似定理

通用近似定理指出,只要神经网络包含足够多的隐层神经元,就可以使用任意精度来逼近任何预定的连续函数

多层感知机(MLP)

多层感知机由输入层(Input Layer),隐藏层(Hidden Layers),输出层(Output Layer)
隐藏层可以是多层也可以是单层,下图就是一个三层的隐藏层。隐藏层越多,神经网络能够拟合的函数也就越复杂,其表达能力也会越强
在这里插入图片描述
对于多层隐藏层来说,每一层的每一个神经元能够汇总上一层输出的所有结果

拟合

对于我们的神经网络内部参数的权重在神经网络初始化的时候都是随机数,如何能够使神经网络不断拟合实际函数,这就需要引入两个概念,分别是前向传播和反向传播

  • 正向传播
    给定神经网络输入,计算神经网络实际输出和理想输出的损失值,评估神经网络拟合程度,从输入层开始,计算输出,然后逐层向后传递这些输出作为输出,最终根据损失函数计算实际输出与理想输出的损失值

  • 反向传播
    让各个神经元沿着损失函数梯度下降方向,调整和优化神经元中的权重,减少损失值,使神经网络进一步拟合真实函数,从输出层开始,计算损失函数相对于每个参数的梯度,然后逐层向前传递这些梯度以更新参数

最后

我是醉墨居士,感谢您的阅读,后续我会持续输出优质的文章,让大家一起互相进步

相关文章:

大语言模型理论基础

文章目录 前言大语言模型必需知识概述大语言模型目标模型上下文神经网络的神经元常见激活函数SigmoidTanhRelusoftmax 通用近似定理多层感知机(MLP)拟合最后 前言 你好,我是醉墨居士,我们接下来对大语言模型一探究竟,…...

【 LLM论文日更|检索增强:大型语言模型是强大的零样本检索器 】

论文:https://aclanthology.org/2024.findings-acl.943.pdf代码:GitHub - taoshen58/LameR机构:悉尼科技大学 & 微软 & 阿姆斯特丹大学 & 马里兰大学领域:retrieval & llm发表:ACL2024 研究背景 研究…...

【基于轻量型架构的WEB开发】课程 作业3 Spring框架

一. 单选题(共12题,48分) 1. (单选题)以下有关Spring框架优点的说法不正确的是( )。 A. Spring就大大降低了组件之间的耦合性。 B. Spring是一种侵入式框架 C. 在Spring中,可以直接通过Spring配置文件管理…...

14.最长公共前缀-力扣(LeetCode)

题目: 解题思路: 解决本题的关键点是确定扫描的方式,大体上有两种方式:横向扫描和纵向扫描。 1、横向扫描:首先比较第一个字符串和第二个字符串,记录二者的公共前缀,然后用当前公共前缀与下一个…...

客户案例|智能进化:通过大模型重塑企业智能客服体验

01 概 述 随着人工智能技术的快速发展,客户对服务体验的期待和需求不断升级。在此背景下,大模型技术的崛起,为智能客服领域带来了创造性的变革。 在上篇文章《在后LLM时代,关于新一代智能体的思考》中有提到,智能客服…...

Flink Job更新和恢复

Checkpoints 的主要目的是为意外失败的作业提供恢复机制。 Savepoints的设计更侧重于可移植性和操作灵活性,尤其是在 job 变更方面。Savepoint 的用例是针对计划中的、手动的运维。例如,可能是更新你的 Flink 版本,更改你的作业图等等。 fli…...

读多写少业务中,MySQL如何优化数据查询方案?

小熊学Java​站点:https://www.javaxiaobear.cn 编程资料合集:https://pqgmzk7qbdv.feishu.cn/base/QXq2bY5OQaZiDksJfZMc30w5nNb?from=from_copylink 看一看当面试官提及“在读多写少的网络环境下,MySQL 如何优化数据查询方案”时,你要从哪些角度出发回答问题??? 案例…...

Bugku CTF_Web——点login咋没反应

Bugku CTF_Web——点login咋没反应 进入靶场 随便输个试试 看来确实点login没反应 抓包看看 也没有什么信息 看了下源码 给了点提示 一个admin.css try ?12713传参试试 拿到一个php代码 <?php error_reporting(0); $KEYctf.bugku.com; include_once("flag.php&q…...

attention 注意力机制 学习笔记-GPT2

注意力机制 这可能是比较核心的地方了。 gpt2 是一个decoder-only模型&#xff0c;也就是仅仅使用decoder层而没有encoder层。 decoder层中使用了masked-attention 来进行注意力计算。在看代码之前&#xff0c;先了解attention-forward的相关背景知识。 在普通的self-atten…...

什么是HTTP,什么是HTTPS?HTTP和HTTPS都有哪些区别?

什么是 HTTP&#xff1f; HTTP&#xff08;Hypertext Transfer Protocol&#xff0c;超文本传输协议&#xff09;是一种应用层协议&#xff0c;用于在互联网上进行数据通信。它定义了客户端&#xff08;通常是浏览器&#xff09;和服务器之间的请求和响应格式。HTTP 是无状态的…...

SkyWalking-安装

SkyWalking-简单介绍 是一个开源的分布式追踪系统&#xff0c;用于检测、诊断和优化分布式系统的功能。 支持 ElasticSearch、H2、MySQL、PostgreSql 等数据库 基于 ElasticSearch 的情况 ElasticSearch&#xff08;ES&#xff09; 安装 1、下载并解压 https://www.elastic…...

RabbitMQ运维

1. 单机多节点 1.1 搭建RabbitMQ ①安装RabbitMQ 略 ②确认RabbitMQ运⾏没问题 #查看RabbitMQ状态 rabbitmqctl status 节点名称: 端口号: 25672:Erlang分布式节点通信的默认端⼝, Erlang是RabbitMQ的底层通信协议.15672: Web管理界⾯的默认端⼝, 通过这个端⼝可以访问R…...

Go语言并发精髓:深入理解和运用go语句

Go语言并发精髓:深入理解和运用go语句 在Go语言的世界里,go语句是实现并发的核心,它简洁而强大,允许程序以前所未有的方式运行多个任务。本文将深入探讨go语句及其执行规则,揭示Go语言并发编程的内在机制,并提供实际案例帮助读者掌握其用法。 1. go语句的基本概念(Wha…...

基于STM32的智能家居系统:MQTT、AT指令、TCP\HTTP、IIC技术

一、项目概述 随着智能家居技术的不断发展&#xff0c;越来越多的家庭开始使用智能设备来提升生活质量和居住安全性。智能家居系统不仅提供了便利的生活方式&#xff0c;还能有效地监测家庭环境&#xff0c;保障家庭安全。本项目以设计一种基于STM32单片机的智能家居系统为目标…...

分糖果(相等分配)

题目&#xff1a;有n种不同口味的糖果&#xff0c;第i种糖果的数量为a[i]&#xff0c;现在需要把糖果分给m个人。分给每个人糖果的数量必须是相等的&#xff0c;并且每个人只能选择一种糖果。也就是说&#xff0c;可以把一种糖果分给多个人&#xff0c;但是一个人的糖果不能有多…...

docker构建jdk11

# 建立一个新的镜像文件&#xff0c;配置模板&#xff1a;新建立的镜像是以centos为基础模板 # 因为jdk必须运行在操作系统之上 FROM centos:7.9.2009# 作者名 MAINTAINER yuanhang# 创建一个新目录来存储jdk文件 RUN mkdir /usr/local/java#将jdk压缩文件复制到镜像中&#…...

唐帕科技校园语音报警系统:通过关键词识别,阻止校园霸凌事件

校园霸凌问题已成为全球教育领域的严峻挑战&#xff0c;给受害者带来了身心上的长期创伤。然而&#xff0c;随着科技的发展&#xff0c;尤其是人工智能和语音识别技术的不断进步&#xff0c;我们开始看到创新性解决方案的出现。校园语音报警系统便是其中一种利用技术手段保护学…...

酒店行业数据仓库

重要名词&#xff1a; PMS&#xff1a;酒店管理系统CRS&#xff1a;中央预定系统客户&#xff1a;可以分为会员、散客&#xff08;自行到店入住&#xff09;、协议&#xff08;与酒店长期合作&#xff0c;内部价&#xff09;、中介预定&#xff1a;可以分为线上预定、线下预定…...

A029-基于Spring Boot的物流管理系统的设计与实现

&#x1f64a;作者简介&#xff1a;在校研究生&#xff0c;拥有计算机专业的研究生开发团队&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取&#xff0c;记得注明来意哦~&#x1f339; 赠送计算机毕业设计600…...

Python Day5 进阶语法(列表表达式/三元/断言/with-as/异常捕获/字符串方法/lambda函数

Python 列表推导式是什么 列表推导式是 Python 语言特有的一种语法结构&#xff0c;也可以看成是 Python 中一种独特的数据处理方式&#xff0c; 它在 Python 中用于 转换 和 过滤 数据。 其语法格式如下所示&#xff0c;其中 [if 条件表达式] 可省略。 [表达式 for 迭代变量…...

OpCore-Simplify技术解构:自动化OpenCore EFI配置引擎的架构剖析

OpCore-Simplify技术解构&#xff1a;自动化OpenCore EFI配置引擎的架构剖析 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 在开源系统定制领域&…...

免费暗黑2存档编辑器终极指南:3分钟成为游戏存档修改大师

免费暗黑2存档编辑器终极指南&#xff1a;3分钟成为游戏存档修改大师 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2的存档问题烦恼吗&#xff1f;角色属性不够强、装备不理想、任务进度丢失……现在&#xf…...

从零开始学大模型Agent:收藏这份反向学习路线,助你避开99%小白踩坑!

本文揭示当前大模型Agent学习路线普遍顺序错误&#xff0c;建议反向学习&#xff1a;先理解底层机制&#xff08;动手写最小Agent&#xff09;&#xff0c;再掌握LangGraph流程建模&#xff08;重点StateGraph、条件边、Checkpointer&#xff09;&#xff0c;深入核心模块工程&…...

如何让普通PC也能运行macOS?OpCore-Simplify的智能解决方案

如何让普通PC也能运行macOS&#xff1f;OpCore-Simplify的智能解决方案 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 你是否曾经梦想过在自己的Wind…...

3分钟快速上手:AutoCAD字体管理终极方案FontCenter完整教程

3分钟快速上手&#xff1a;AutoCAD字体管理终极方案FontCenter完整教程 【免费下载链接】FontCenter AutoCAD自动管理字体插件 项目地址: https://gitcode.com/gh_mirrors/fo/FontCenter 还在为AutoCAD字体缺失问题烦恼吗&#xff1f;每次打开同事的图纸都遇到文字乱码、…...

技术赋能:ROS机器人仿真平台的虚拟试炼场

技术赋能&#xff1a;ROS机器人仿真平台的虚拟试炼场 【免费下载链接】wpr_simulation 项目地址: https://gitcode.com/gh_mirrors/wp/wpr_simulation 想象这样一个场景&#xff1a;你正在设计一款能够自主导航的家庭服务机器人&#xff0c;但面对高昂的硬件成本、漫长…...

CW32F003与CW32F030国产MCU深度对比:从选型到项目实战全解析

1. 项目概述与核心价值最近在整理手头的开发板&#xff0c;翻出了两块来自武汉芯源的CW32F003和CW32F030。这两款芯片和对应的开发板&#xff0c;在国产MCU的入门级市场里&#xff0c;算得上是“老朋友”了&#xff0c;尤其是对于成本敏感、需要快速验证方案的工程师和学生来说…...

XXMI启动器:二次元游戏模组管理的一站式解决方案,5分钟搞定复杂配置

XXMI启动器&#xff1a;二次元游戏模组管理的一站式解决方案&#xff0c;5分钟搞定复杂配置 【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher XXMI启动器是一款革命性的开源游戏模…...

【职场】职场“贵人“的真相:他们从不随机出现,也从不无缘无故消失

职场"贵人"的真相&#xff1a;他们从不随机出现&#xff0c;也从不无缘无故消失每个在职场里走得还不错的人&#xff0c;回头看&#xff0c;都能说出一两个名字。 那个在你最迷茫的时候&#xff0c;把你带进了某个重要的圈子&#xff1b;那个在关键会议上&#xff0c…...

别再死记硬背公式了!用Python实战SCS模型,5分钟搞定城市降雨径流估算

用Python实战SCS模型&#xff1a;5分钟自动化城市降雨径流分析 水文工程师们是否厌倦了手动查表计算CN值&#xff1f;环境分析师是否还在为重复的径流公式推导头疼&#xff1f;今天我们将用Python彻底改变传统工作流——无需记忆复杂公式&#xff0c;只需5行核心代码即可完成从…...