当前位置：首页 > news >正文

chatgpt技术总结（包括transformer，注意力机制，迁移学习，Ray，TensorFlow，Pytorch）

news 2026/2/9 3:13:16

最近研读了一些技术大咖对chatgpt的技术研讨，结合自己的一些浅见，进行些许探讨。

我们惊讶的发现，chatgpt所使用的技术并没有惊天地泣鬼神的创新，它只是将过去的技术潜能结合现在的硬件最大化的发挥出来，也正因如此，旧有技术的可用性，让各大厂嗅到了快速发展的商机，纷纷跑步入场。

首先我们要了解chatgpt是一种自然语言处理模型，也可以理解为文本生成模型。在框架上chatgpt采用了transformer框架，这种框架又被称作变形金刚，因为相对于CNN只能处理空间信息，像图像处理，目标检测等。RNN只能处理时序信息，像语音处理，文本生成等，transformer对空间信息和时序信息皆可处理，而且在时序信息的处理上，相比于RNN，它可以记录和处理几千字、上万字甚至更多的文本信息（长序列信息），以及音频和视频等信息的的前后依赖关系，这是传统RNN望尘莫及的，而且transformer所具有的自注意力机制和多头注意力机制，可以强化这种依赖关系（或者说让模型更好的捕捉这种依赖关系）。

此外在训练上，chatgpt采用了预训练技术，简单理解就是，先用一些数据对模型进行初步训练，具体而言，是指用大量的无标签数据对模型进行训练，帮助模型在正式训练时可以更好的理解和处理自然语言。另一个微调技术就是在特定任务上进行有监督的训练，可以进一步提高模型的性能。具体而言就是将预训练好的模型参数作为初始状态，然后在目标任务上重新训练模型，以进一步提高模型的性能。相比起从头开始训练一个新的模型，微调技术可以在更短的时间内获得更好的结果，并且可以减少训练时间和计算资源的需求。这两项技术提高了chatgpt的泛化能力和性能。

而且chatgpt也加入了跨语言迁移学习，就是在已有的语言模型基础上，针对另一个语言的任务进行预训练，然后再将其应用到原始语言的任务中。简单理解就是，现在英文语料库中训练英文模型，再在英文模型基础上，基于中文语料库，预训练中文模型，然后将该模型应用到中文语库中。这项技术的应用扩展的chatgpt的应用场景。

最后除了主流的TensorFlow和Pytorch框架，我们还要注意一个分布式机器学习框架Ray，这让chagpt的实际训练成为了可能，chatgpt的训练包含以亿为单位的参数，其计算量过于巨大，如何提高其并行计算能力，成为学界研究的重点，chatgpt的训练需要大量的硬件，甚至不同的硬件之上协调训练，而Ray可以将不同硬件作为一个单元来管理，便于确定什么数据去哪里，处理故障等，而且解决了硬件冲突问题，可以跨越不同硬件种类包括，谷歌云、AWS 和其他处理相同问题的产品组合。并且，Ray 还将其他语言中的一个关键编程概念「actor」扩展到 Python。另外Google的JAX作为对标Ray的框架，近来也得到了大量关注。

延伸一下Ray，TensorFlow和Pytorch的联系和区别:

Ray与深度学习框架的关系：Ray 与 TensorFlow、PyTorch 和 MXNet 等深度学习框架互相兼容，在很多应用上，在 Ray 中使用一个或多个深度学习框架都是非常自然的（例如，UC Berkeley 的强化学习库就用到了很多 TensorFlow 与 PyTorch）。

一些分布式技术概念：

数据并行：数据并行是指将输入数据分成多个小批次，将这些小批次分配到不同的GPU内存进行处理。这种方法可以大大提高模型的训练速度和处理效率，并且可以帮助模型处理更大规模的输入数据。

模型并行：模型并行是指将模型分解成多个子模型，并将这些子模型分配到不同的GPU芯片上进行处理。这种方法可以提高模型的处理能力，并使其能够处理更大的数据集。

模型平行：这种方法与模型并行很相似，但是不同的是，模型平行将模型分解成多个层，并将这些层分配到不同的GPU芯片上进行处理。这种方法可以帮助模型处理更大的数据集，并提高模型的处理能力。

集群并行：集群并行是指将模型分布式地部署在多个计算机上，并将不同的计算机与GPU连接起来。这种方法可以帮助模型处理更大规模的数据集，并且可以提高模型的处理效率和速度。

整合：这种方法使用以上多种技术的组合，以达到更高的训练速度和处理效率

最后，思考不同的算法和框架在强化学习中的应用。

往期文章

1.Transformer（一）简述（注意力机制，NLP，CV通用模型）-CSDN博客

2.Transformer（二）（VIT,TNT）（基于视觉CV）_笑傲江湖2023的博客-CSDN博客

3.迁移学习（新人必看）_笑傲江湖2023的博客-CSDN博客

4.机器学习方法（一）（决策树，随机森林，线性回归，神经网络，模型评估，集成学习）概述_决策森林神经网络_笑傲江湖2023的博客-CSDN博客

参考文献

1.ChatGPT的底层架构简介_鹤鹤的森林的博客-CSDN博客

2.ChatGPT背后的开源AI框架Ray，现在值10亿美元_Python正在输入中......的博客-CSDN博客

3.Chatgpt-3数据集处理代码和训练代码使用的主要编程语言和框架_gpt3训练数据-CSDN博客

4. Chatgpt-3 训练使用的分布式技术和框架_roxxo的博客-CSDN博客

5. pytorch和tensorflow有什么区别？_程序媛珂珂的博客-CSDN博客

6.深入剖析PyTorch和TensorFlow：理解二者的区别与联系_tensorflow pytorch_Chaos_Wang_的博客-CSDN博客

7. PyTorch & 分布式框架 Ray ：保姆级入门教程_分布式自然进化策略使用pytorch和ray构建_HyperAI超神经的博客-CSDN博客

8.使用 Ray 将 PyTorch 模型加载速度提高 340 倍_单机ray比pytorch快_机器学习社区的博客-CSDN博客9.伯克利AI分布式框架Ray，兼容TensorFlow、PyTorch与MXNet-CSDN博客

10 .Ray和RLlib用于快速并行强化学习_ray.ppo-CSDN博客

11.低成本训练专属ChatGPT的开源框架LMFlow-CSDN博客

chatgpt技术总结（包括transformer，注意力机制，迁移学习，Ray，TensorFlow，Pytorch）

最近研读了一些技术大咖对chatgpt的技术研讨，结合自己的一些浅见，进行些许探讨。我们惊讶的发现，chatgpt所使用的技术并没有惊天地泣鬼神的创新，它只是将过去的技术潜能结合现在的硬件最大化的发挥出来，也正因如此&am…...

编程日记 2023/10/5 6:02:04

vertx的学习总结4

一、异步数据和事件流 1.为什么流是事件之上的一个有用的抽象？ 2.什么是背压，为什么它是异步生产者和消费者的基础？ 3.如何从流解析协议数据？ 1. 答：因为它能够将连续的事件序列化并按照顺序进行处理。通过将事件…...

编程日记 2023/10/5 6:01:03

SpringBoot心旅售票管理系统

本心旅售票管理系统采用基于JAVA语言实现、架构模式选择B/S架构，Tomcat7.0及以上作为运行服务器支持，基于JAVA、springboot、vue等主要技术和框架设计，idea作为开发环境，数据库采用MYSQL5.7以上。采用技术: SpringBootVueMySQL...

编程日记 2023/10/5 6:00:01

CUDA C编程权威指南：1-基于CUDA的异构并行计算

什么是CUDA？CUDA（Compute Unified Device Architecture,统一计算设备架构）是NVIDIA（英伟达）提出的并行计算架构，结合了CPU和GPU的优点，主要用来处理密集型及并行计算。什么是异构计算&#xff1…...

编程日记 2023/10/5 5:59:00

R语言易错点(持续更新中~~)

1.R向量元素的索引(下标)是从1开始的，而非0 >x [1] 1 2 4>x[3] [1] 4 2.[]和[ [ ] ] mylist<-list(stud.id1234,stud.name"Tom",stud.marksc(10,3,14,25,19)) > mylist $stud.id [1] 1234$stud.name [1] "Tom"$stud.marks [1] 10…...

编程日记 2023/10/5 5:57:59

Multisim14.0仿真（二十七）基于UC3842的反激式开关电源的设计及仿真

一、UC3842简介： UC3842为固定频率电流模式PWM控制器。它们是专门为OFF−线和直流到直流转换器应用与最小的外部组件。内部实现的电路包括用于精确占空比控制的修剪振荡器、温度补偿参考、高增益误差放大器、电流传感比较器和理想适合于驱动功率MOSFET的高电流温度极…...

编程日记 2023/10/5 5:55:57

SpringMVC(二）@RequestMapping注解

我们先新建一个Module。我们的依赖如下所示： <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaL…...

编程日记 2023/10/5 5:54:55

NXP公司K60N512+PWM控制BLDC电机

本篇文章介绍了使用NXP公司提供的塔式快速原型系统来驱动控制带霍尔传感器的无刷直流电机。文章涉及的塔式快速原型系统主要包括以下四个独立板卡：1.塔式系统支撑模块（TWR-Elevator），用以连接微控制器以及周边模块；2.低…...

编程日记 2023/10/5 5:53:55

CAA的VS Studio安装

文章目录一、官网下载VS Studio二、勾选如下安装信息三、更改软件安装位置四、17专业版密钥一、官网下载VS Studio 官网下载地址： https://visualstudio.microsoft.com/zh-hans/downloads/ 下载对应版本后，以VS Studio2017为例： 二、勾…...

编程日记 2023/10/5 5:46:48

条件查询和数据查询

一、后端 1.controller层 package com.like.controller;import com.like.common.CommonDto; import com.like.entity.User; import com.like.service.UserService; import jakarta.annotation.Resource; import org.springframework.web.bind.annotation.GetMapping; import …...

编程日记 2023/10/5 5:40:41

JSP旅游平台管理

本系统采用基于JAVA语言实现、架构模式选择B/S架构，Tomcat7.0及以上作为运行服务器支持，基于JAVA、JSP等主要技术和框架设计，idea作为开发环境，数据库采用MYSQL5.7以上。开发环境： JDK版本：JDK1.8 服务器&…...

编程日记 2023/10/5 5:37:37

简单走近ChatGPT

目录一、ChatGPT整体背景认知 （一）ChatGPT引起关注的原因 （二）与其他公司的竞争情况二、NLP学习范式的发展 （一）规则和机器学习时期 （二）基于神经网络的监督学习时期 &…...

编程日记 2023/10/5 5:36:36

10.3作业

#include <myhead.h> int main(int argc, const char *argv[]) { mkfifo(“./f1”,0777); mkfifo(“./f2”,0777); pid_t cpid fork(); if(0 < cpid) { int fdw open(“./f1”,O_WRONLY); int fdr open(“./f2”,O_RDONLY); char buf[128] “”; while(1) { bzero…...

编程日记 2023/10/5 5:35:35

Springboot中的@Import注解~

Import注解是Spring框架中的注解之一，用于导入其他配置类或者组件 Import注解的作用有以下几点： 导入其他配置类：可以使用Import注解导入其他的配置类，将其加入到当前配置类中，从而可以共享配置信息导入其他组件&am…...

编程日记 2023/10/5 5:34:33

Linux 安全 - SUID机制

文章目录一、文件权限位二、SUID简介一、文件权限位 （1） $ ls -l text.txt -rw-rw-r-- 1 yl yl 0 Sep 28 16:25 text.txt其中第一个字段-rw-rw-r–，我们可以把它分为四部分看： -rw-rw-r--（1）- &a…...

编程日记 2023/10/5 5:33:33

Nginx与Spring Boot的错误模拟实践：探索502和504错误的原因

文章目录前言502和504区别---都是Nginx返回的access.log和error.log介绍SpringBoot结合Nginx实战502 and 504准备工作Nginx配置host配置SpringBoot 502模拟access.logerror.log 504模拟access.logerror.log 500模拟access.logerror.log 总结前言刚工作那会，最常…...

编程日记 2023/10/5 5:32:32

全志ARM926 Melis2.0系统的开发指引①

全志ARM926 Melis2.0系统的开发指引① 1. 编写目的2. Melis2.0 系统概述3. Melis2.0 快速开发3.1. Melis2.0 SDK 目录结构3.2. Melis2.0 编译环境3.3. Melis2.0 固件打包3.4. Melis2.0 固件烧录3.5.串口打印信息3.6. Melis2.0 添加和调用一个模块3.6.1. 为什么划分模块&#xf…...

编程日记 2023/10/5 5:30:30

2024级199管理类联考之数学基础(下篇)

平面几何(平均2题) 三角形(性质、特殊三角形、全等与相似) 性质由不在同一直线的三条线段首尾依次连接所组成的图形三条边、三个内角、三个定点三角形内角和为180度,外角和为360度,多边形的外角和为360度,n多边形的内角和为(n-2)*180度一个外角等于不相邻的两个内角之和任意…...

编程日记 2023/10/5 5:28:27

HTML之如何下载网页中的音频(二)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…...

编程日记 2023/10/5 5:26:25

【现代机器人学】学习笔记十四：中文版印刷/翻译勘误

首先声明，这个印刷/勘误并非经过官方的认可，只是我个人的粗浅的理解。如果内容有误，恳请大家谅解指正。其实有的并不算错，只是我个人认为不太准确，在我学习过程中产生了一些小疑惑和误解。都是一些小毛病&#xff…...

编程日记 2023/10/5 5:20:17

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目：3442. 奇偶频次间的最大差值 I 思路 ：哈希，时间复杂度0(n)。用哈希表来记录每个字符串中字符的分布情况，哈希表这里用数组即可实现。 C版本： class Solution { public:int maxDifference(string s) {int a[26]…...

编程新知 2026/2/7 23:18:31

python打卡day49

知识点回顾： 通道注意力模块复习空间注意力模块CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

编程新知 2026/2/7 5:37:17

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2026/1/16 16:34:26

无法与IP建立连接，未能下载VSCode服务器

如题，在远程连接服务器的时候突然遇到了这个提示。查阅了一圈，发现是VSCode版本自动更新惹的祸！！！ 在VSCode的帮助->关于这里发现前几天VSCode自动更新了，我的版本号变成了1.100.3 才导致了远程连接出…...

编程新知 2026/1/22 21:24:01

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

ESP32读取DHT11温湿度数据

芯片：ESP32 环境：Arduino 一、安装DHT11传感器库红框的库，别安装错了二、代码注意，DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

编程新知 2026/1/30 8:46:45

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

编程新知 2026/1/29 17:54:05

深入解析C++中的extern关键字：跨文件共享变量与函数的终极指南

🚀 C extern 关键字深度解析：跨文件编程的终极指南 📅 更新时间：2025年6月5日 🏷️ 标签：C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录前言🔥一、extern 是什么？&…...

编程新知 2026/2/1 6:50:07

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述在 GPU 上对图像执行均值漂移滤波（Mean Shift Filtering），用于图像分割或平滑处理。该函数将输入图像中的…...

编程新知 2026/1/20 12:53:30

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2026/2/8 3:32:52

往期文章

参考文献

相关文章：