当前位置: 首页 > article >正文

4.大语言模型预备数学知识

大语言模型预备数学知识

复习一下在大语言模型中用到的矩阵和向量的运算,及概率统计和神经网络中常用概念。

矩阵的运算

矩阵

在这里插入图片描述

矩阵加减法

条件:行数列数相同的矩阵才能做矩阵加减法

在这里插入图片描述

数值与矩阵的乘除法

在这里插入图片描述
在这里插入图片描述

矩阵乘法

条件:矩阵A的列数 = 矩阵B的行数时, A才能乘B

因为矩阵乘法是前一个矩阵各行中各个元素乘后一个矩阵各列中对于元素,所以要求矩阵A的列数 = 矩阵B的行数。

在这里插入图片描述

矩阵乘法性质

在这里插入图片描述

矩阵的转置

转置:矩阵所有的行按顺序变成列

在这里插入图片描述

转置的性质

在这里插入图片描述

向量的运算

向量

本博客后续,默认用行向量来表示默认向量

在这里插入图片描述

向量的几何意义

起点在坐标原点,终点在坐标数值的向量

在这里插入图片描述

向量的加减法

条件:向量a,b的元素的个数相同

在这里插入图片描述

向量加法,以零点为起点,以b’终点为终点的向量(b’的起点为a的终点)。减法就相当于 加 负向量

在这里插入图片描述

数值与向量的乘除法

a向量乘2,表示对a向量伸长了两倍。

在这里插入图片描述

向量的乘法

向量乘法是向量的点积运算,又称内积

点积:行向量乘列向量,结果为标量

在这里插入图片描述

点积点几何含义(常用)

反映了两个向量相似程度,当两个向量方向一致时,夹角为0,cos夹角 = 1,两向量长度不变则此时两向量的点积最大,表示两向量此时最相似。

但点积的大小也跟向量a,b的长度有关,所以可以进行归一化,即分别对每个向量除各自的长度(模),称为余弦相似度。(归一化了,就跟具体的向量长度没关系了,其值完全反映两个向量的相似性)
在这里插入图片描述

矩阵和向量的乘法

向量(指行向量)右乘矩阵(矩阵在右边),条件:矩阵行数与向量元素个数相等。相乘结果为一个行向量,其元素个数为矩阵的列数。

在这里插入图片描述

向量(指列向量)左乘矩阵(矩阵在左边),条件:矩阵列数与向量元素个数相等。相乘结果为一个列向量,其元素个数为矩阵的行数。

在这里插入图片描述

矩阵和向量的乘法的几何意义

向量右乘矩阵的几何意义

  • 相似性角度

在这里插入图片描述

  • 空间变换角度,表示对向量的旋转操作
    在这里插入图片描述

在这里插入图片描述

a在新坐标系中的坐标

概率

数学期望与方差

在这里插入图片描述

数学期望:离散型随机变量每个可能的取值,与该取值对应的概率相乘,统一相加的结果,反映取值的平均值

在这里插入图片描述

在这里插入图片描述

蒙特卡洛方法(通过采样的方法)

即计算数学期望值的时候,通过采样计算平均值的方式去近似(蒙特卡洛方法)。

为什么?因为我们不知道每种概率是多少,就通过采样的办法去近似,当采样数量足够多时,采样平均值就可被认为数学期望。

在这里插入图片描述

在这里插入图片描述

数学期望的性质

在这里插入图片描述

在这里插入图片描述

最后一条性质指,随机变量x,任何可能都>=0,则数学期望>=0

方差

在这里插入图片描述

在这里插入图片描述

计算方差的过程

如何理解评价值除n,方差除n-1。因为前面求平均值时除n,知道了n个数中n-1个就可以把第n个算出来,它们之间有一定相关性。除n-1得到的才是无偏估计。

在这里插入图片描述

举例

在这里插入图片描述

方差的性质

在这里插入图片描述

马尔可夫过程

马尔可夫过程是一个随机过程,且未来的发展只与当前状态有关,而跟之前的状态无关。一般来说都是一种近似的结果,通过近似来简化计算。

一般的随机过程

X(t)的取值称为随机过程在时间t的状态

在这里插入图片描述

马尔可夫过程

在这里插入图片描述

神经网络与深度学习

梯度下降

方向:如果斜率(导数)>0,则x减;如果斜率(导数)<0,则x加(即修改的方向跟导数的方向相反)

大小:离最低点(最优值)远时,比较陡(导数绝对值越大越陡)—导数绝对值越大,修改量越大

在这里插入图片描述

震荡问题,因为导数趋于∞时,会导致震荡, 引入一个大于0的常量步长,防止震荡很大,使其一步步过来。

在这里插入图片描述

在神经网络中因为参数量很大所以用偏导数

在这里插入图片描述

导数反映某一处切线斜率,梯度表示在曲线中的某个切平面的斜率。梯度下降核心思想:沿着梯度的反方向,看那个地方下降最快,沿最陡峭地方往下走,一点点找到最优值。

在这里插入图片描述

常见梯度下降算法

在这里插入图片描述


欢迎各位读者点赞评论收藏,本人后续也会对这块基础数学知识进行进一步更新

相关文章:

4.大语言模型预备数学知识

大语言模型预备数学知识 复习一下在大语言模型中用到的矩阵和向量的运算&#xff0c;及概率统计和神经网络中常用概念。 矩阵的运算 矩阵 矩阵加减法 条件&#xff1a;行数列数相同的矩阵才能做矩阵加减法 数值与矩阵的乘除法 矩阵乘法 条件&#xff1a;矩阵A的列数 矩阵…...

免费开源Umi-OCR,离线使用,批量精准!

Umi-OCR&#xff08;Windows端&#xff09; Umi-OCR 是一款在 GitHub 上开源的免费 OCR 识别软件&#xff0c;它最大的亮点就是免费、开源、支持批量处理&#xff0c;而且识别准确度很高。这款软件不需要联网就能用&#xff0c;非常值得推荐&#xff01; 在 OCR 识别功能方面&…...

NLP驱动网页数据分类与抽取实战

一、性能瓶颈点&#xff1a;数据抽取中的「三座大山」 在使用NLP技术进行网页商品数据抽取时&#xff0c;很多工程师会遇到如下三类瓶颈&#xff1a; 1. 请求延迟高&#xff1a;目标站点反爬机制灵敏&#xff0c;普通请求频繁被封。2. 结构解析慢&#xff1a;HTML结构复杂&am…...

设计模式之单例模式(二): 心得体会

设计模式之单例模式(一)-CSDN博客 目录 1.背景 2.分析 2.1.违背面向对象设计原则&#xff0c;导致职责混乱 2.2.全局状态泛滥&#xff0c;引发依赖与耦合灾难 2.3.多线程场景下风险放大&#xff0c;性能与稳定性受损 2.4.测试与维护难度指数级上升 2.5.违背 “最小知识原…...

使用Python提取PDF元数据的完整指南

PDF文档中包含着丰富的元数据信息&#xff0c;这些信息对文档管理和数据分析具有重要意义。本文将详细介绍如何利用Python高效提取PDF元数据&#xff0c;并对比主流技术方案的优劣。 ## 一、PDF元数据概述 PDF元数据&#xff08;Metadata&#xff09;是包含在文档中的结构化信…...

uni-app学习笔记十八--uni-app static目录简介

本笔记内容摘录自工程简介 | uni-app官网 一个 uni-app 工程&#xff0c;就是一个 Vue 项目&#xff0c;在完成uni-app项目创建后&#xff0c;会生成一个static目录&#xff0c; 为什么需要static这样的目录&#xff1f; uni-app编译器根据pages.json扫描需要编译的页面&…...

阿里云ACP云计算备考笔记 (3)——云存储RDS

目录 第一章 云存储概览 1、云存储通用知识 ① 发展历史 ② 云存储的优势 2、云存储分类 3、文件存储业务场景 第二章 块存储 1、块存储分类 2、云盘的优势 3、创建云盘 4、管理数据盘 ① 格式化数据盘 ② 挂载数据盘 ③ 通过 API 挂载云盘 5、管理系统盘 ① 更…...

仓颉语言---Socket编程

一、什么是Socket编程&#xff1f; 1.定义 Socket&#xff08;套接字&#xff09;可以被理解为网络上两个进程之间通信的端点。它是网络通信的抽象表示&#xff0c;封装了底层网络协议的复杂性&#xff0c;为应用程序提供了一个简单统一的接口。 Socket 编程是一种网络编程范式…...

Mysql的B-树和B+树的区别总结

B 树也称 B- 树&#xff0c;全称为 多路平衡查找树&#xff0c;B 树是 B 树的一种变体。B 树和 B 树中的 B 是 Balanced&#xff08;平衡&#xff09;的意思。 目前大部分数据库系统及文件系统都采用 B-Tree 或其变种 BTree 作为索引结构。 B 树& B 树两者有何异同呢&…...

【Java EE初阶 --- 多线程(初阶)】多线程的实现案例

乐观学习&#xff0c;乐观生活&#xff0c;才能不断前进啊&#xff01;&#xff01;&#xff01; 我的主页&#xff1a;optimistic_chen 我的专栏&#xff1a;c语言 &#xff0c;Java 欢迎大家访问~ 创作不易&#xff0c;大佬们点赞鼓励下吧~ 文章目录 前言单例模式实现单例模式…...

制作一款打飞机游戏64:关卡设计

今天我想完成第一个音乐循环的关卡设计。 初始设置 首先&#xff0c;我要删除所有之前创建的敌人和“大脑”&#xff08;可能指敌人的行为模式或AI&#xff09;。我不想保留它们&#xff0c;我要从零开始&#xff0c;重新创建敌人。但我会保留精灵&#xff08;游戏中的角色或…...

开发常用的QT mql组件

Column Column 是一种将其子项沿单个列定位的类型。它是不使用锚点的情况下垂直定位一系列项目的便捷方式。 add : Transition bottomPadding : real leftPadding : real move : Transition padding : real populate : Transition rightPadding : real spacing : rea…...

Git操作记录

一.简单上传操作 1.Git 全局设置 git config --global user.name "xxx" git config --global user.email "xxx"2.创建新存储库 git clone gitgitlab.xxx.cn:xx/xxx/xxx.git cd test touch README.md git add README.md git commit -m "add README&qu…...

Vue Router的核心实现原理深度解析

1. Vue Router的基本架构 Vue Router的核心功能是实现前端路由&#xff0c;即在不重新加载页面的情况下更改应用的视图。它的基本架构包括&#xff1a; 路由配置&#xff1a;定义路径与组件的映射关系路由实例&#xff1a;管理路由状态和提供导航方法路由视图&#xff1a;渲染…...

Python趣学篇:用Pygame打造绚烂流星雨动画

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 专栏介绍&#xff1a;《Python星球日记》 目录 一、项目简介与效果展示二、技术栈与核…...

AI系统负载均衡与动态路由

载均衡与动态路由 在微服务架构中,负载均衡是实现服务高可用和性能优化的关键机制。传统负载均衡技术通常围绕请求数、连接数、CPU占用率等基础指标进行分发,而在AI系统中,特别是多模型、多异构算力(如CPU、GPU、TPU)共存的环境下,负载均衡不仅要考虑节点资源消耗,还需…...

山西省第十八届职业院校技能大赛 网络建设与运维赛项 样题

山西省第十八届职业院校技能大赛 网络建设与运维赛项 &#xff08;学生组&#xff09; 样题 2024 年 11 月 xx 日 2 赛题说明 一、竞赛项目简介 “网络建设与运维”竞赛共分为模块一&#xff1a;网络理论测试与网络 运维&#xff1b;模块二&#xff1a; 网络建设与调试&a…...

Stone 3D新版本发布,添加玩家控制和生物模拟等组件,增强路径编辑功能,优化材质编辑

后续版本号改为构建日期加小版本&#xff0c;所以最新版本为20250603.01 功能更新如下&#xff1a; 1. 改写fps-controls组件&#xff0c;简化游戏应用的创建&#xff0c;你只需要一个场景glb&#xff0c;然后给Scene节点添加fps-controls组件&#xff0c;即可完成一个第一人…...

【Qt】之【Get√】【Bug】通过值捕获(或 const 引用捕获)传进 lambda,会默认复制成 const

通过值捕获&#xff08;或 const 引用捕获&#xff09;传进 lambda&#xff0c;会默认复制成 const。 背景 匿名函数外部定义 QSet<QString> nameSet,需要传入匿名函数使用修改 connect(dlg, ..., [nameSet](...) {nameSet.insert(name); // ❌ 这里其实是 const QSet…...

排序算法C语言实现

算法概览 排序算法平均时间复杂度最坏时间复杂度空间复杂度稳定性适用场景插入排序O(n)O(n)O(1)稳定小规模/基本有序希尔排序O(n log n)O(n)O(1)不稳定中等规模冒泡排序O(n)O(n)O(1)稳定教学/小规模堆排序O(n log n)O(n log n)O(1)不稳定大规模数据选择排序O(n)O(n)O(1)不稳定…...

Python----目标检测(训练YOLOV8网络)

一、数据集标注 在已经采集的数据中&#xff0c;使用labelImg进行数据集标注&#xff0c;标注后的txt与原始 图像文件同名且在同一个文件夹&#xff08;data&#xff09;即可。 二、制作数据集 在data目录的同目录下&#xff0c;新建dataset目录&#xff0c;以存放制作好的YOLO…...

构建 MCP 服务器:第一部分 — 资源入门

什么是模型上下文协议? 模型上下文协议(MCP) 是Claude等大型语言模型 (LLM) 与外部数据和功能安全交互的标准化方式。您可以将其想象成一个平视显示器,或者 AI 的 USB 端口——它提供了一个通用接口,允许任何兼容 MCP 的 LLM 连接到您的数据和工具。 MCP 提供了一个集中式协…...

c# :this() 和 :base()区别

在 C# 中&#xff0c;:this() 和 :base() 都用于构造函数的重载和继承&#xff0c;但它们有不同的用途和上下文&#xff1a; 1. :this() 用途&#xff1a;用于调用当前类中的其他构造函数&#xff08;构造函数重载&#xff09;。场景&#xff1a;当你希望一个构造函数先执行另…...

使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第十五讲)

这一期讲解lvgl中日历控件的基础使用&#xff0c;Calendar 部件是一个经典日历&#xff0c;它具有以下功能&#xff1a;• 通过一个7x7矩阵显示任何月份 • 显示日期名称 • 突出显示当前日期&#xff08;今天&#xff09; • 突出显示任何用户定义的日期 日历是一个可编辑的小…...

Vue中实现表格吸底滚动条效果,列太多时左右滚动条始终显示在页面中

1、安装 npm install el-table-horizontal-scroll 2、全局注册&#xff08;main.js&#xff09; import horizontalScroll from el-table-horizontal-scrollVue.use(horizontalScroll) 如下图&#xff0c;在main.js加上上面的代码 3、表格内引用 <el-table :data"…...

BeeWorks 协同办公能力:局域网内企业级协作的全场景重构

在企业数字化办公场景中&#xff0c;BeeWorks 以强大的协同办公能力&#xff0c;将局域网内的通讯、协作、业务流程整合为统一整体。作为专注于企业级局域网环境的协作平台&#xff0c;其不仅提供即时通讯基础功能&#xff0c;更通过办公工具集成、会议能力强化、业务系统对接等…...

Mermaid 绘图--以企业权限视图为例

文章目录 一、示例代码二、基础结构设计2.1 组织架构树2.2 权限视图设计 三、销售数据权限系统四、关键语法技巧汇总 一、示例代码 在企业管理系统开发中&#xff0c;清晰的权限视图设计至关重要。本文将分享如何使用 Mermaid 绘制直观的企业权限关系图&#xff0c;复制以下代…...

Redis(02)Win系统如何将Redis配置为开机自启的服务

一、引言 Redis 是一款高性能的键值对存储数据库&#xff0c;在众多项目中被广泛应用。在 Windows 环境下&#xff0c;为了让 Redis 能更稳定、便捷地运行&#xff0c;将其设置为系统服务并实现自动启动是很有必要的。这样一来&#xff0c;系统开机时 Redis 可自动加载&#xf…...

C++课设:高效的日程管理系统

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 专栏介绍&#xff1a;《编程项目实战》 目录 一、C日程管理系统的时代价值1. 为什么选…...

功能测试、性能测试、安全测试详解

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、功能测试 1、单接口功能 手工测试中的单个业务模块&#xff0c;一般对应一个接口 例如&#xff1a; 登录业务------登录接口 加入购物车业务------加入购…...