当前位置: 首页 > news >正文

大语言模型领域的重要术语解释

前言

本人对人工智能非常感兴趣,目前是一名初学者,在研究大语言模型的一些内容。很多模型都是用英文提出的,其中也包括很多概念,有些概念的中文翻译和其想表达的意思不完全一样,所以在这里,想更加精准地帮助大家理解这些词汇。

术语解释

为了方便查找,接下来的词汇将按照字典序进行解释。

ablation study

消融实验。为了测试论文中提出的创新点是否有效,将加上创新点的代码效果与不加上创新点的代码效果进行对比,从而证明该创新点的有效性。这个实验被称为消融实验。

baseline

基线,或者翻译为参照物。一般是指一个简单、易于实现的基准模型,用来与论文中提出的新模型做对比的。

cross entropy

交叉熵。交叉熵是一种计算两个向量之间距离的方式,常用于损失函数当中。交叉熵越小,表明两个向量之间越接近。

假设有两个向量 X = ( x 1 , x 2 , … , x n ) , Y = ( y 1 , y 2 , … , y n ) X=(x_1,x_2,\dots,x_n),Y=(y_1,y_2,\dots,y_n) X=(x1,x2,,xn),Y=(y1,y2,,yn)

则这两个向量的交叉熵为 ∑ i = 1 n x i l o g 2 ( y i ) \sum_{i=1}^n{x_ilog_2(y_i)} i=1nxilog2(yi)

decoding

解码。decoding是跟encoding相反的过程,将编码转换为离散属性。

encoding

编码。编码是处理离散属性的一个重要方式。独热编码(one-hot encoding)就是一种常见编码。

max pooling

最大值池化。pooling是池化的意思。max pooling这个操作可以把矩阵中 2 × 2 2\times2 2×2的格子,通过取最大值的方式,变成一个 1 × 1 1\times1 1×1的格子。该操作常用于图像处理。

NLP

自然语言处理。是Natural Language Processing的简称。著名的BERT模型、GPT模型都是用来处理NLP任务的。

normalization

归一化。归一化是对原始数据的线性变换,通常将数据映射到 [ 0 , 1 ] [0,1] [0,1],转换函数为 x ′ = x − m i n ( x ) m a x ( x ) − m i n ( x ) x'=\frac{x-min(x)}{max(x)-min(x)} x=max(x)min(x)xmin(x)

softmax

归一化指数函数。softmax是一个函数的名字,这个函数的作用是对一个向量进行处理,且使得处理完的向量所有分量之和为1,且可以放大分量中的最大值在所有分量中的占比,并且所有分量均为正值。该函数常用于多分类预测模型。

假设有一个向量 X = ( x 1 , x 2 , … , x n ) X=(x_1,x_2,\dots,x_n) X=(x1,x2,,xn),那么对这个向量进行softmax处理的公式为 x i ′ = e x i ∑ j = 1 n e x j x_i'=\frac{e^{x_i}}{\sum_{j=1}^ne^{x_j}} xi=j=1nexjexi

经过softmax处理后的向量为 X ′ = ( x 1 ′ , x 2 ′ , … , x n ′ ) X'=(x_1',x_2',\dots,x_n') X=(x1,x2,,xn)

SOTA

最先进的技术。是State Of The Art的缩写。指在公开的数据集上,目前检测到的效果最好,识别率最高,正确率最高的模型。一般在论文中会把自己提出的模型与SOTA进行比较。

token

词元。token是语言类模型中的最小语义单位。通常可以是一个单词、一个词组、一个标点符号、一个字符等,取决于文本处理的需求和方法。

word embedding

理解1(简单的理解)

词向量。很多大语言模型的一个重要的目标,就是把每个单词(或者汉字)用一个向量来表示。embedding可以简单理解为向量的意思,word embedding就是这个单词的向量表示。

理解2(真实的理解)

词嵌入。嵌入,顾名思义,就是把高维的信息映射到低维空间上。经典的one-hot编码,就是采用N维向量来表示N个单词。但是由于单词量过大,会导致向量维数过大。为了解决这个问题,就需要通过某种方法,把这个高维向量用低维的向量表示,这个低维的向量,就被称为word embedding。

zero-shot learning

零样本学习。零样本学习就是让计算机模拟人类的推理方式,来识别从未见过的新事物。

总结

本人是一个机器学习领域的萌新,对于很多概念可能还理解不到位,但是尽量把自己的一些见解呈现给大家。希望可以对大家(尤其是新手)有所帮助。

相关文章:

大语言模型领域的重要术语解释

前言 本人对人工智能非常感兴趣,目前是一名初学者,在研究大语言模型的一些内容。很多模型都是用英文提出的,其中也包括很多概念,有些概念的中文翻译和其想表达的意思不完全一样,所以在这里,想更加精准地帮…...

无需公网IP,使用内网穿透实现公网访问本地OpenWRT管理界面

文章目录 1.openWRT安装cpolar2.配置远程访问地址3.固定公网地址 简单几步实现在公网环境下远程访问openWRT web 管理界面,使用cpolar内网穿透创建安全隧道映射openWRT web 界面面板443端口,无需公网IP,无需设置路由器。 1.openWRT安装cpola…...

利用 docker 实现JMeter分布式压测

为什么需要分布式? 在工作中经常需要对一些关键接口做高QPS的压测,JMeter是由Java 语言开发,没创建一个线程(虚拟用户),JVM默认会为每个线程分配1M的堆栈内存空间。受限于单台试压机的配置很难实现太高的并…...

Sentinel 分布式系统

Sentinel 是一种分布式系统的流量防卫兵和熔断器,由阿里巴巴开发并开源。它的主要目标是保护分布式系统中的稳定性和可用性,防止因高并发或异常流量而导致的系统崩溃。下面是 Sentinel 的原理和使用教程的概要: Sentinel 的原理:…...

Cookie、Session、CBV加装饰器的三种方法

【0】cookie、session和Token的发展史 【1】Cookie的形式 存储形式:k:v键值对存储位置:客户端缺点:不安全,信息可能会泄露 【2】session的形式 标识符,表示我是当前用户加密出来的数据对敏感信息进行加密…...

【高级渗透篇】网络安全面试

【高级渗透篇】网络安全面试 1.权限维持2.代码安全Python语法相关 1.权限维持 Linux权限维持方法论 Windows权限维持方法论 2.代码安全 Python 语法相关 1、Python的值类型和引用类型是哪些 Python 中的值类型包括: 数字类型(如整数、浮点数、复数…...

【Flink】Process Function

目录 1、ProcessFunction解析 1.1 抽象方法.processElement() 1.2 非抽象方法.onTimer() 2、Flink中8个不同的处理函数 2.1 ProcessFunction 2.2 KeyedProcessFunction 2.3 ProcessWindowFunction 2.4 ProcessAllWindowFunction 2.5 CoProcessFunction 2.6 ProcessJo…...

【源码分析】zeebe actor模型源码解读

zeebe actor 模型🙋‍♂️ 如果有阅读过zeebe 源码的朋友一定能够经常看到actor.run() 之类的语法,那么这篇文章就围绕actor.run 方法,说说zeebe actor 的模型。 环境⛅ zeebe release-8.1.14 actor.run() 是怎么开始的🌈 Lon…...

python3实现类似expect shell的交互式与SFTP的脚本

前面写过一篇关于python实现类似expect shell的交互式能力的文章,现在补全一下加上sftp的能力脚本。 例子在代码中__example()方法。 依赖paramiko库,所以需要执行pip install paramiko来安装。 import os import queue import re import threading im…...

java游戏制作-飞翔的鸟游戏

一.准备工作 首先创建一个新的Java项目命名为“飞翔的鸟”,并在src中创建一个包命名为“com.qiku.bird",在这个包内分别创建4个类命名为“Bird”、“BirdGame”、“Column”、“Ground”,并向需要的图片素材导入到包内。 二.代码呈现 pa…...

NodeMCU ESP8266构建Web Server网页端控制设备

NodeMCU ESP8266构建Web Server网页端控制设备 前言 NodeMCU ESP8266 内部集成了TCP/IP协议栈,可以快速构建网络功能,搭建联网应用的硬件平台; ESP8266可以作为WiFi接入点(Station),这样可以方便连接互联…...

搭建区块链

参考B站FISCO BCOS(十八) java SDK与区块链交互_哔哩哔哩_bilibili 林中有神君 一、搭建第一个区块链网络 根据官方文档搭建:搭建第一个区块链网络 — FISCO BCOS v2.9.0 文档 (fisco-bcos-documentation.readthedocs.io) 使用javajdk 控制台2.6之后 本处是2.9.2…...

Python通过selenium调用IE11浏览器报错解决方法

前提 正常安装Python 工具,selenium 包可以正常导入。IE浏览器驱动 IEDriverServer.exe 已经正确放置到已经添加path目录的文件下。 报错现象: 解决方法 打开浏览器进入 internet 选项 切换到安全页签 ,去除“应用保护模式” 再次调用验证…...

Ubuntu 1.84.2Visual Studio Code 下载配置与vscode查看内存Hex Editor插件,简单易懂

目录 前言 一 首先我为啥要重装Vs Code呢? 二 下载1.84.2Visual Studio Code 三 配置Vscode终端字体 四 安装插件 前言 这是一篇将老版本的VsCode下载至最新版的博文,从下载到调试全篇 一 首先我为啥要重装Vs Code呢? 因为我想安装这个…...

opencv-图像金字塔

图像金字塔是一种图像处理技术,它通过不断降低图像的分辨率,形成一系列图像。金字塔分为两种类型:高斯金字塔和拉普拉斯金字塔。 高斯金字塔(Gaussian Pyramid): 高斯金字塔是通过使用高斯滤波和降采样&a…...

字符串匹配算法——KMP

有文本串aabaabaaf,模式串aabaaf问文本串中是否出现过模式串 暴力解法 最不用动脑子的,直接两层for循环,逐个匹配,匹配到不相等的值时把文本串后移一位,再重新比较。这种方法的复杂度是O(mn),该方法低效的…...

电子学会C/C++编程等级考试2023年03月(一级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:字符长方形 给定一个字符,用它构造一个长为4个字符,宽为3个字符的长方形,可以参考样例输出。 时间限制:1000 内存限制:65536输入 输入只有一行, 包含一个字符。输出 该字符构成的长方形,长4个字符,宽3个字符。样例输入…...

微信小程序汽车租赁系统

微信小程序汽车租赁系统 本系统包含了3类用户,分别为客户、员工以及管理员,客户主要是满足自身的租车需求,员工主要负责车辆的调度问题和维修状况,管理员则是主要对人员、车辆和订单的管理。以下是对各自功能的详细介绍: 客户可…...

docker部署微服务

目录 docker操作命令 镜像操作命令 拉取镜像 导出镜像 删除镜像 加载镜像 推送镜像 部署 pom文件加上 在每个模块根目录加上DockerFile文件 项目根目录加上docker-compose.yml文件 打包,clean,package 服务器上新建文件夹 测试docker-compo…...

统计voc格式数据中的xml标签、bndbox到excel表格中

有这么个需求是将xml的内容: 1,filename 2.label 3.bndbox:xmin,xmax,ymin,ymax。 … 将这些东西写入excel表格中,方便我统计标签数量和框的分布! 于是撰写了脚本:xml2csv.py 我的xml文件形式如下。大家的目标检测格式大同小异! <annotation><folder>UAV_d…...

Qwen3-ForcedAligner-0.6B字幕生成:会议记录神器,自动对齐音频文字

Qwen3-ForcedAligner-0.6B字幕生成&#xff1a;会议记录神器&#xff0c;自动对齐音频文字 1. 工具简介与核心价值 在日常工作中&#xff0c;会议记录和视频字幕制作是两项耗时费力的任务。传统方法需要人工反复听录音、手动打时间轴&#xff0c;效率低下且容易出错。Qwen3-F…...

AnkiAIUtils:基于大语言模型的智能记忆增强工具实战指南

1. 项目概述&#xff1a;用AI重塑你的Anki学习体验如果你和我一样&#xff0c;是个重度Anki用户&#xff0c;尤其是在啃医学、法律或者任何需要海量记忆的硬骨头时&#xff0c;你一定经历过这种时刻&#xff1a;面对一张反复遗忘的卡片&#xff0c;你盯着它&#xff0c;大脑一片…...

万亿参数模型Ring-1T:MoE架构与强化学习突破

1. 万亿参数模型Ring-1T的技术突破在人工智能领域&#xff0c;大型语言模型的发展已经进入了一个全新的阶段。最近&#xff0c;Inclusion AI团队发布了Ring-1T&#xff0c;这是首个开源的、拥有万亿参数规模的思维模型。这个突破性的成果不仅在模型规模上创造了新的记录&#x…...

Python 并发编程:最佳实践与性能

Python 并发编程&#xff1a;最佳实践与性能 核心原理 并发编程的基本概念 并发编程是指在同一时间内执行多个任务的编程范式&#xff0c;其核心目标是提高程序的执行效率和响应速度。在Python中&#xff0c;并发编程主要通过以下三种方式实现&#xff1a; 多线程&#xff08;T…...

论文查重辅助存证程序,写作过程记录上链,证明原创性,降低查重纠纷。

⚠️ 说明&#xff1a;这是本地模拟区块链思路的演示程序&#xff0c;用于说明“写作过程存证与原创性辅助证明”的技术逻辑&#xff0c;不等同于正式学术认证系统或查重系统。 一、实际应用场景描述 高校或科研机构中&#xff0c;学生/研究者提交论文时常面临&#xff1a; - 查…...

量子增强神经辐射场(QNeRF)技术解析与应用

1. 量子增强神经辐射场(QNeRF)技术解析 量子计算与神经辐射场的结合正在重塑计算机视觉领域的3D重建范式。传统NeRF通过多层感知机(MLP)建立3D坐标到颜色和密度的映射&#xff0c;其核心公式可表示为&#xff1a; F_θ : (x, d) → (c, σ) 其中θ代表网络参数&#xff0c;x∈…...

3分钟完成Figma中文汉化!FigmaCN插件让你的设计工作更高效

3分钟完成Figma中文汉化&#xff01;FigmaCN插件让你的设计工作更高效 【免费下载链接】figmaCN 中文 Figma 插件&#xff0c;设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面而苦恼吗&#xff1f;作为一名中文设计师&a…...

c++怎么利用std--span在不拷贝的情况下解析大规模文件映射【进阶】

std::span不能直接绑定mmap内存但可安全指向——它不管理生命周期&#xff0c;需手动确保指针有效、长度准确且映射未释放&#xff1b;常见崩溃源于未检查MAP_FAILED、size越界或MAP_PRIVATE导致msync失效。std::span 能不能直接绑定 mmap 的内存不能直接构造&#xff0c;但可以…...

CANoe新手必看:从Intel到Motorola,一次搞懂DBC文件里的信号字节序

CANoe实战指南&#xff1a;彻底掌握DBC文件中的字节序奥秘 当你在深夜调试CAN总线信号时&#xff0c;突然发现仪表盘显示的车速比实际值少了256倍&#xff0c;或者雨刮器信号莫名其妙地反向工作——这很可能就是字节序在作祟。作为汽车电子工程师的"暗语"&#xff0c…...

WindowsCleaner终极指南:告别C盘爆红,3步实现系统加速

WindowsCleaner终极指南&#xff1a;告别C盘爆红&#xff0c;3步实现系统加速 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服&#xff01; 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否曾经因为C盘爆红而焦虑不已&a…...