当前位置: 首页 > news >正文

如何入门 GPT 并快速跟上当前的大语言模型 LLM 进展?

入门GPT

首先说第一个问题:如何入门GPT模型?

最直接的方式当然是去阅读官方的论文。GPT模型从2018年的GPT-1到现在的GPT-4已经迭代了好几个版本,通过官方团队发表的论文是最能准确理清其发展脉络的途径,其中包括GPT模型本身和一些介绍关键技术的文章,比如训练方法RLHF这些。下面列出一些主要的文章。

第一手资料:论文

  • GPT-1:language_understanding_paper.pdf (openai.com)
  • GPT-2:language_models_are_unsupervised_multitask_learners.pdf (openai.com)
  • GPT-3:Language Models are Few-Shot Learners (arxiv.org)
  • GPT-4:GPT-4 Technical Report(openai.com)
  • RLHF:Augmenting Reinforcement Learning with Human Feedback
  • InstructGPT:Training language models to follow instructions with human feedback


 

技术解读

考虑到不是每个人都有足够的基础来阅读这些专业的论文,我也推荐一些做技术解读的博客和视频,这些技术解读通过比较通俗的方式梳理这些技术和模型的发展,对于新手来说,是比较不错的学习资源。

比如下面这张被很多人引用的图片,就是来自于这篇博文:拆解追溯 GPT-3.5 各项能力的起源 

还有一些视频解读,可以看看李沐老师和李宏毅老师的,专门有对GPT系列技术的讲解。

跟踪进展

关于第二个问题:如何快速跟上大语言模型的进展?

这方面的网络资源简直太多了,有很多人整理、跟踪这些最新技术进展,这些资源大多数在网络上都能找到。

1、一般来说,跟踪最新的论文成果,可以通过arXiv,或paper digest这样的网站,比如Paper Digest上有一个更新最新的ChatGPT相关的paper的项目:Paper Digest: Recent Papers on ChatGPT – Paper Digest

2、还有一个重要的资源聚集的网站就是GitHub。

秉承着“授人以鱼不如授人以渔”的思想,这里告诉大家一个技巧,凡是你感兴趣的东西,不管什么领域,到GitHub上去搜关键词“awesome xxx”,你都能发现很多非常有用的资源和学习资料。

比如搜“awesome chatgpt”,搜到的项目都是整理各种chatGPT相关的资料的,这些项目多则大几万的stars,少则也有几千。

这些项目里面有各种各样的资源汇总,比如详尽的学习资料、paper list、行业的发展动态、各公司的产品、开源项目、开发工具、技术解读的博文列表等等。只有你想不到的,没有他们不总结的,要不然怎么能叫curated list呢。

  • 大语言模型资源聚合:Awesome-LLM。

3、关于大语言模型,还有一个项目,主要是跟进各大AI公司或研究团队的进展,重点比较这些模型的参数和对应产品的特性。(之前还专门有一个表格总结中国的语言模型,最近不知为什么被删除了。)

图中有链接

给你们推荐个国内的地址 https://gpt.91chat-ai.cn?share=csdn,这还是非常方便的。感兴趣的可以关注一下 ↓ ↓ ↓

2023超🔥的AI大模型公开课👉大模型资料包免费领!,找客服免费领取

专业书籍

最后,如果你有更远大的抱负,或者想在这方面做更深入的研究,那我建议还是要夯实自己的专业基础。这种就没有太多的捷径可以走了,只能慢慢的去啃一些专业书籍,包括机器学习、统计学以及深度学习这些方面的。

像是比较经典的有《统计学习方法》、《Pattern Recognition and Machine Learning》、《 Deep Learning: Adaptive Computation and Machine Learning series》(深度学习)、以及《Dive into deep learning》(深度学习实战)等。

再附上一些我的深度学习方面的电子书单,大家可以参考一下:

除了上面提到这几本比较经典的之外,现在人工智能、深度学习方面的特定领域的书籍也有很多,不像我当年刚学的那会,当时深度学习刚刚爆发式发展,几乎没有这方面书籍完整而又系统的介绍人工智能某一领域(比如自然语言处理、计算机视觉等等)的专业知识,特别是中文的资料少之又少,大多数是一些零零散散的博客,而想要深入的学习和了解专业领域的进展,只能自己读第一手paper、看英文资料,啃起来很费劲。不像现在有这么多系统的专业书籍。

比如最近看了一本《深度强化学习图解》,由清华大学出版社出版的。这本书的主要内容关于深度强化学习(Deep Reinforcement Learning,DRL),但又不是单独介绍DL。也非常适合对人工智能、深度学习算法(包括自然语言大模型、计算机视觉领域等)感兴趣的同学阅读。

书的内容大致可以分三个部分:强化学习的入门、行为与人类似的DRL智能体和在复杂情况下应用DRL。整体看下来,这本书内容很权威,也非常实用。当然,还有最重要的一大亮点就是易学。通过生动的图解和趣味性的文字,深入浅出地讲解了深度强化学习理论。同时有大量配套的python代码,配合实际案例和应用,指导读者在实践中学习,从而逐渐深化对深度强化学习的理解,将新的方法、理论和思想融入到自己的研究中。

LLM 不是人工智能的起点,也不会是人工智能的终点,更符合人类行为能力的 AGI 才是所有 AI 从业者和爱好者最乐于看到和期待的。虽然 AGI 到目前为止还是一个相对模糊的概念,也没有人能确切的知道它将在何时出现。但是大模型的发展和它们所表现出来的能力已经让我们看到了 AGI 的影子,它或许就隐藏在这些大模型的背后,偶尔向我们闪现,预示着它终将到来。

以上。如有帮助,希望点个赞支持一下。

对了,给你们推荐个国内的地址 https://gpt.91chat-ai.cn?share=csdn

相关文章:

如何入门 GPT 并快速跟上当前的大语言模型 LLM 进展?

入门GPT 首先说第一个问题:如何入门GPT模型? 最直接的方式当然是去阅读官方的论文。GPT模型从2018年的GPT-1到现在的GPT-4已经迭代了好几个版本,通过官方团队发表的论文是最能准确理清其发展脉络的途径,其中包括GPT模型本身和一…...

【pentaho】kettle读取Hive表不支持bigint和timstamp类型解决。

一、bigint类型 报错: Unable to get value BigNumber(16) from database resultset显示kettle认为此应该是decimal类型(kettle中是TYPE_BIGNUMBER或称BigNumber),但实际hive数据库中是big类型。 修改kettle源码解决: kettle中java.sql.Types到kettle…...

centos 8 部署nextCloud

参考链接: Example installation on CentOS 8 — Nextcloud latest Administration Manual latest documentation 第一次 在RHEL 9.2部署,部署完成后,上传任意文件提示: 与服务器断开链接 发生未知错误 第二次 计划在centos…...

vue3 element-plus 输入框 clearable属性 聚焦时宽度会变化

解决办法 因为你的代码中el-input是没有宽度的, 所以实际渲染出来的 el-input宽度 原生input宽度 前缀图标宽度 后缀图标宽度。 可以写css固定el-input宽度来处理。 :deep.el-input.el-input--default.el-input--suffix {// 固定宽度width: 200px !important; …...

【科技前沿】数字孪生技术改革智慧供热,换热站3D可视化引领未来

换热站作为供热系统不可或缺的一部分,其能源消耗对城市环保至关重要。在双碳目标下,供热企业可通过搭建智慧供热系统,实现供热方式的低碳、高效、智能化,从而减少碳排放和能源浪费。通过应用物联网、大数据等高新技术,…...

Vue.js 教程

Vue.js(读音 /vjuː/, 类似于 view) 是一套构建用户界面的渐进式框架。 Vue 只关注视图层, 采用自底向上增量开发的设计。 Vue 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。 阅读本教程前,您需要了解的…...

听GPT 讲Rust源代码--src/tools(21)

File: rust/src/tools/miri/src/shims/x86/mod.rs 在Rust的源代码中,rust/src/tools/miri/src/shims/x86/mod.rs文件的作用是为对x86平台的处理提供支持。它包含一些用于模拟硬件操作的shim函数和相关的类型定义。 具体来说,该文件中的函数是通过使用一组…...

OpenCV | 告别人工目检:深度学习技术引领工业品缺陷检测新时代

文章目录 机器视觉缺陷检测工业上常见缺陷检测方法内容简介作者简介目录读者对象如何阅读本书获取方式 机器视觉 机器视觉是使用各种工业相机,结合传感器跟电气信号实现替代传统人工,完成对象识别、计数、测量、缺陷检测、引导定位与抓取等任务。其中工…...

Inkscape SVG 编辑器 导入 Gazebo

概述 本教程描述了拉伸 SVG 文件的过程,这些文件是 2D 的 图像,用于在 Gazebo 中为您的模型创建 3D 网格。有时是 更容易在 Inkscape 或 Illustrator 等程序中设计模型的一部分。 在开始之前,请确保您熟悉模型编辑器。 本教程将向您展示如…...

基于比较的排序算法总结(java实现版)

目录 什么是基于比较的排序算法 什么是排序算法的稳定性 基础排序算法的稳定性 插入排序法 希尔排序法 冒泡排序法 总结 高级算法的稳定性 快速排序法 堆排序法 归并排序法 总结 注意 什么是基于比较的排序算法 基于比较的排序算法定义:之所以能给元素…...

集群与分布式的概念及区别

目前在工作中经常接触到集群的概念,通过这篇文章总结一下集群的几种方式以及和分布式对比学习 1.集群(Cluster) 集群是由多个计算机节点组成的网络,旨在共同提供服务,并确保高性能和高可用性。在高可用集群中&#xf…...

基于ssm+vue的在线听书网站论文

摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,书籍信息因为其管理内容繁杂,管理数量繁多导致手工进行处理不能满足广大…...

hive命令启动出现classnotfound

环境:ambari集群三个节点node104、node105和node106,其中node105上有hiveserver2,并且三个节点均有HIVE CLIENT 注意:“./”指hive安装目录 其中装有hiveserver2的node105节点,由于某种需要向lib目录下上传了某些jar包…...

拥抱数字化转型,共赢数字时代 | 创维汽车商学院走进竹云

数字化浪潮汹涌而来,变革与创新接踵而至。随着数字技术日益融入经济社会发展的各个领域,数字经济与实体经济的“双向奔赴”也不断催生着新产业、新业态、新模式,为经济社会发展持续注入创新活力。12月19日,创维汽车商学院带领嘉宾…...

蓝桥杯:日期问题

目录 引言一、日期问题1.题目描述2.代码实现3.测试 二、回文日期1.题目描述2.代码实现3.测试 引言 关于这个蓝桥杯的日期问题,其实有一个明确的思路就感觉很简单,这个思路就是不用依照日期的顺序去把每一天走完,而是根据一个数加一&#xff…...

vue 简单实现购物车:商品基础信息最终的 html 文件 + 商品计数器的组件处理,实现了购物车;

购物车实现过程: Ⅰ、商品购物车作业需求:1、商品购物车页面示例:2、具体需求: Ⅱ、html 文件的构建:商品购物车.html Ⅲ、组件文件的构建:商品购物车1.js Ⅳ、小结: Ⅰ、商品购物车作业需求&am…...

交叉熵损失(Cross Entropy Loss)学习笔记

在分类任务中,我们通常使用交叉熵作为损失函数,首先给出交叉熵的计算公式: 二分类中: L 1 N ∑ i L i 1 N ∑ i − [ y i l o g ( p i ) ( 1 − y i ) ⋅ l o g ( 1 − p i ) ] \mathcal{L}\frac1{N}\sum_{i}L_i\frac1{N}\sum…...

python flask alchemy在判断None值时与flake8格式检测冲突

python flask alchemy 在判断None值时候,推荐使用/!来判断。例如: query.filter(User.nameNone)query.filter(User.name!None) 但是这样的代码提交后时过不了flake8的语法检查,会报错: flake8...................................…...

Text Intelligence - TextIn.com AI时代下的智能文档识别、处理、转换

本指南将介绍Text Intelligence,AI时代下的智能文档技术平台 Textin.com 关注TechLead,分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认…...

55.0/CSS 的应用(详细版)

目录 55.1.1 设计边框样式 55.1.2 调整边框的粗细 55.1.3 边框颜色 55.1.4 复合设置边框 55.2 模块的边距 55.3 模块的内边距 55.4 层的应用 55.4.1 层的建立 55.4.2 浮动——float 55.4.3 清除浮动 55.4.4 层的定位 55.4.5 设置层的溢出——overflow 55.4.6 设置鼠…...

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...

【Go】3、Go语言进阶与依赖管理

前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课,做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程,它的核心机制是 Goroutine 协程、Channel 通道,并基于CSP(Communicating Sequential Processes&#xff0…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...

AI编程--插件对比分析:CodeRider、GitHub Copilot及其他

AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

企业如何增强终端安全?

在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...

Angular微前端架构:Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例,其中使用的是 Module Federation 和 npx-build-plus 实现了主应用(Shell)与子应用(Remote)的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中,车辆不再仅仅是传统的交通工具,而是逐步演变为高度智能的移动终端。这一转变的核心支撑,来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒(T-Box)方案:NXP S32K146 与…...

虚拟电厂发展三大趋势:市场化、技术主导、车网互联

市场化:从政策驱动到多元盈利 政策全面赋能 2025年4月,国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》,首次明确虚拟电厂为“独立市场主体”,提出硬性目标:2027年全国调节能力≥2000万千瓦&#xff0…...

C#学习第29天:表达式树(Expression Trees)

目录 什么是表达式树? 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询 表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持: 3.性能优化 4.元数据处理 5.代码转换和重写 适用场景 代码复杂性…...

代码规范和架构【立芯理论一】(2025.06.08)

1、代码规范的目标 代码简洁精炼、美观,可持续性好高效率高复用,可移植性好高内聚,低耦合没有冗余规范性,代码有规可循,可以看出自己当时的思考过程特殊排版,特殊语法,特殊指令,必须…...