如何入门 GPT 并快速跟上当前的大语言模型 LLM 进展?
入门GPT
首先说第一个问题:如何入门GPT模型?
最直接的方式当然是去阅读官方的论文。GPT模型从2018年的GPT-1到现在的GPT-4已经迭代了好几个版本,通过官方团队发表的论文是最能准确理清其发展脉络的途径,其中包括GPT模型本身和一些介绍关键技术的文章,比如训练方法RLHF这些。下面列出一些主要的文章。
第一手资料:论文
- GPT-1:language_understanding_paper.pdf (openai.com)
- GPT-2:language_models_are_unsupervised_multitask_learners.pdf (openai.com)
- GPT-3:Language Models are Few-Shot Learners (arxiv.org)
- GPT-4:GPT-4 Technical Report(openai.com)
- RLHF:Augmenting Reinforcement Learning with Human Feedback
- InstructGPT:Training language models to follow instructions with human feedback
技术解读
考虑到不是每个人都有足够的基础来阅读这些专业的论文,我也推荐一些做技术解读的博客和视频,这些技术解读通过比较通俗的方式梳理这些技术和模型的发展,对于新手来说,是比较不错的学习资源。
比如下面这张被很多人引用的图片,就是来自于这篇博文:拆解追溯 GPT-3.5 各项能力的起源
还有一些视频解读,可以看看李沐老师和李宏毅老师的,专门有对GPT系列技术的讲解。
跟踪进展
关于第二个问题:如何快速跟上大语言模型的进展?
这方面的网络资源简直太多了,有很多人整理、跟踪这些最新技术进展,这些资源大多数在网络上都能找到。
1、一般来说,跟踪最新的论文成果,可以通过arXiv,或paper digest这样的网站,比如Paper Digest上有一个更新最新的ChatGPT相关的paper的项目:Paper Digest: Recent Papers on ChatGPT – Paper Digest
2、还有一个重要的资源聚集的网站就是GitHub。
秉承着“授人以鱼不如授人以渔”的思想,这里告诉大家一个技巧,凡是你感兴趣的东西,不管什么领域,到GitHub上去搜关键词“awesome xxx”,你都能发现很多非常有用的资源和学习资料。
比如搜“awesome chatgpt”,搜到的项目都是整理各种chatGPT相关的资料的,这些项目多则大几万的stars,少则也有几千。
这些项目里面有各种各样的资源汇总,比如详尽的学习资料、paper list、行业的发展动态、各公司的产品、开源项目、开发工具、技术解读的博文列表等等。只有你想不到的,没有他们不总结的,要不然怎么能叫curated list呢。
- 大语言模型资源聚合:Awesome-LLM。
3、关于大语言模型,还有一个项目,主要是跟进各大AI公司或研究团队的进展,重点比较这些模型的参数和对应产品的特性。(之前还专门有一个表格总结中国的语言模型,最近不知为什么被删除了。)
图中有链接
给你们推荐个国内的地址 https://gpt.91chat-ai.cn?share=csdn,这还是非常方便的。感兴趣的可以关注一下 ↓ ↓ ↓
2023超🔥的AI大模型公开课👉大模型资料包免费领!,找客服免费领取
专业书籍
最后,如果你有更远大的抱负,或者想在这方面做更深入的研究,那我建议还是要夯实自己的专业基础。这种就没有太多的捷径可以走了,只能慢慢的去啃一些专业书籍,包括机器学习、统计学以及深度学习这些方面的。
像是比较经典的有《统计学习方法》、《Pattern Recognition and Machine Learning》、《 Deep Learning: Adaptive Computation and Machine Learning series》(深度学习)、以及《Dive into deep learning》(深度学习实战)等。
再附上一些我的深度学习方面的电子书单,大家可以参考一下:
除了上面提到这几本比较经典的之外,现在人工智能、深度学习方面的特定领域的书籍也有很多,不像我当年刚学的那会,当时深度学习刚刚爆发式发展,几乎没有这方面书籍完整而又系统的介绍人工智能某一领域(比如自然语言处理、计算机视觉等等)的专业知识,特别是中文的资料少之又少,大多数是一些零零散散的博客,而想要深入的学习和了解专业领域的进展,只能自己读第一手paper、看英文资料,啃起来很费劲。不像现在有这么多系统的专业书籍。
比如最近看了一本《深度强化学习图解》,由清华大学出版社出版的。这本书的主要内容关于深度强化学习(Deep Reinforcement Learning,DRL),但又不是单独介绍DL。也非常适合对人工智能、深度学习算法(包括自然语言大模型、计算机视觉领域等)感兴趣的同学阅读。
书的内容大致可以分三个部分:强化学习的入门、行为与人类似的DRL智能体和在复杂情况下应用DRL。整体看下来,这本书内容很权威,也非常实用。当然,还有最重要的一大亮点就是易学。通过生动的图解和趣味性的文字,深入浅出地讲解了深度强化学习理论。同时有大量配套的python代码,配合实际案例和应用,指导读者在实践中学习,从而逐渐深化对深度强化学习的理解,将新的方法、理论和思想融入到自己的研究中。
LLM 不是人工智能的起点,也不会是人工智能的终点,更符合人类行为能力的 AGI 才是所有 AI 从业者和爱好者最乐于看到和期待的。虽然 AGI 到目前为止还是一个相对模糊的概念,也没有人能确切的知道它将在何时出现。但是大模型的发展和它们所表现出来的能力已经让我们看到了 AGI 的影子,它或许就隐藏在这些大模型的背后,偶尔向我们闪现,预示着它终将到来。
以上。如有帮助,希望点个赞支持一下。
对了,给你们推荐个国内的地址 https://gpt.91chat-ai.cn?share=csdn
相关文章:

如何入门 GPT 并快速跟上当前的大语言模型 LLM 进展?
入门GPT 首先说第一个问题:如何入门GPT模型? 最直接的方式当然是去阅读官方的论文。GPT模型从2018年的GPT-1到现在的GPT-4已经迭代了好几个版本,通过官方团队发表的论文是最能准确理清其发展脉络的途径,其中包括GPT模型本身和一…...

【pentaho】kettle读取Hive表不支持bigint和timstamp类型解决。
一、bigint类型 报错: Unable to get value BigNumber(16) from database resultset显示kettle认为此应该是decimal类型(kettle中是TYPE_BIGNUMBER或称BigNumber),但实际hive数据库中是big类型。 修改kettle源码解决: kettle中java.sql.Types到kettle…...
centos 8 部署nextCloud
参考链接: Example installation on CentOS 8 — Nextcloud latest Administration Manual latest documentation 第一次 在RHEL 9.2部署,部署完成后,上传任意文件提示: 与服务器断开链接 发生未知错误 第二次 计划在centos…...

vue3 element-plus 输入框 clearable属性 聚焦时宽度会变化
解决办法 因为你的代码中el-input是没有宽度的, 所以实际渲染出来的 el-input宽度 原生input宽度 前缀图标宽度 后缀图标宽度。 可以写css固定el-input宽度来处理。 :deep.el-input.el-input--default.el-input--suffix {// 固定宽度width: 200px !important; …...

【科技前沿】数字孪生技术改革智慧供热,换热站3D可视化引领未来
换热站作为供热系统不可或缺的一部分,其能源消耗对城市环保至关重要。在双碳目标下,供热企业可通过搭建智慧供热系统,实现供热方式的低碳、高效、智能化,从而减少碳排放和能源浪费。通过应用物联网、大数据等高新技术,…...

Vue.js 教程
Vue.js(读音 /vjuː/, 类似于 view) 是一套构建用户界面的渐进式框架。 Vue 只关注视图层, 采用自底向上增量开发的设计。 Vue 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。 阅读本教程前,您需要了解的…...

听GPT 讲Rust源代码--src/tools(21)
File: rust/src/tools/miri/src/shims/x86/mod.rs 在Rust的源代码中,rust/src/tools/miri/src/shims/x86/mod.rs文件的作用是为对x86平台的处理提供支持。它包含一些用于模拟硬件操作的shim函数和相关的类型定义。 具体来说,该文件中的函数是通过使用一组…...

OpenCV | 告别人工目检:深度学习技术引领工业品缺陷检测新时代
文章目录 机器视觉缺陷检测工业上常见缺陷检测方法内容简介作者简介目录读者对象如何阅读本书获取方式 机器视觉 机器视觉是使用各种工业相机,结合传感器跟电气信号实现替代传统人工,完成对象识别、计数、测量、缺陷检测、引导定位与抓取等任务。其中工…...

Inkscape SVG 编辑器 导入 Gazebo
概述 本教程描述了拉伸 SVG 文件的过程,这些文件是 2D 的 图像,用于在 Gazebo 中为您的模型创建 3D 网格。有时是 更容易在 Inkscape 或 Illustrator 等程序中设计模型的一部分。 在开始之前,请确保您熟悉模型编辑器。 本教程将向您展示如…...

基于比较的排序算法总结(java实现版)
目录 什么是基于比较的排序算法 什么是排序算法的稳定性 基础排序算法的稳定性 插入排序法 希尔排序法 冒泡排序法 总结 高级算法的稳定性 快速排序法 堆排序法 归并排序法 总结 注意 什么是基于比较的排序算法 基于比较的排序算法定义:之所以能给元素…...

集群与分布式的概念及区别
目前在工作中经常接触到集群的概念,通过这篇文章总结一下集群的几种方式以及和分布式对比学习 1.集群(Cluster) 集群是由多个计算机节点组成的网络,旨在共同提供服务,并确保高性能和高可用性。在高可用集群中…...

基于ssm+vue的在线听书网站论文
摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,书籍信息因为其管理内容繁杂,管理数量繁多导致手工进行处理不能满足广大…...

hive命令启动出现classnotfound
环境:ambari集群三个节点node104、node105和node106,其中node105上有hiveserver2,并且三个节点均有HIVE CLIENT 注意:“./”指hive安装目录 其中装有hiveserver2的node105节点,由于某种需要向lib目录下上传了某些jar包…...

拥抱数字化转型,共赢数字时代 | 创维汽车商学院走进竹云
数字化浪潮汹涌而来,变革与创新接踵而至。随着数字技术日益融入经济社会发展的各个领域,数字经济与实体经济的“双向奔赴”也不断催生着新产业、新业态、新模式,为经济社会发展持续注入创新活力。12月19日,创维汽车商学院带领嘉宾…...

蓝桥杯:日期问题
目录 引言一、日期问题1.题目描述2.代码实现3.测试 二、回文日期1.题目描述2.代码实现3.测试 引言 关于这个蓝桥杯的日期问题,其实有一个明确的思路就感觉很简单,这个思路就是不用依照日期的顺序去把每一天走完,而是根据一个数加一ÿ…...

vue 简单实现购物车:商品基础信息最终的 html 文件 + 商品计数器的组件处理,实现了购物车;
购物车实现过程: Ⅰ、商品购物车作业需求:1、商品购物车页面示例:2、具体需求: Ⅱ、html 文件的构建:商品购物车.html Ⅲ、组件文件的构建:商品购物车1.js Ⅳ、小结: Ⅰ、商品购物车作业需求&am…...
交叉熵损失(Cross Entropy Loss)学习笔记
在分类任务中,我们通常使用交叉熵作为损失函数,首先给出交叉熵的计算公式: 二分类中: L 1 N ∑ i L i 1 N ∑ i − [ y i l o g ( p i ) ( 1 − y i ) ⋅ l o g ( 1 − p i ) ] \mathcal{L}\frac1{N}\sum_{i}L_i\frac1{N}\sum…...
python flask alchemy在判断None值时与flake8格式检测冲突
python flask alchemy 在判断None值时候,推荐使用/!来判断。例如: query.filter(User.nameNone)query.filter(User.name!None) 但是这样的代码提交后时过不了flake8的语法检查,会报错: flake8...................................…...

Text Intelligence - TextIn.com AI时代下的智能文档识别、处理、转换
本指南将介绍Text Intelligence,AI时代下的智能文档技术平台 Textin.com 关注TechLead,分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认…...

55.0/CSS 的应用(详细版)
目录 55.1.1 设计边框样式 55.1.2 调整边框的粗细 55.1.3 边框颜色 55.1.4 复合设置边框 55.2 模块的边距 55.3 模块的内边距 55.4 层的应用 55.4.1 层的建立 55.4.2 浮动——float 55.4.3 清除浮动 55.4.4 层的定位 55.4.5 设置层的溢出——overflow 55.4.6 设置鼠…...

第19节 Node.js Express 框架
Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...

业务系统对接大模型的基础方案:架构设计与关键步骤
业务系统对接大模型:架构设计与关键步骤 在当今数字化转型的浪潮中,大语言模型(LLM)已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中,不仅可以优化用户体验,还能为业务决策提供…...
vue3 字体颜色设置的多种方式
在Vue 3中设置字体颜色可以通过多种方式实现,这取决于你是想在组件内部直接设置,还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法: 1. 内联样式 你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...

前端开发面试题总结-JavaScript篇(一)
文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...

ios苹果系统,js 滑动屏幕、锚定无效
现象:window.addEventListener监听touch无效,划不动屏幕,但是代码逻辑都有执行到。 scrollIntoView也无效。 原因:这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作,从而会影响…...

零基础在实践中学习网络安全-皮卡丘靶场(第九期-Unsafe Fileupload模块)(yakit方式)
本期内容并不是很难,相信大家会学的很愉快,当然对于有后端基础的朋友来说,本期内容更加容易了解,当然没有基础的也别担心,本期内容会详细解释有关内容 本期用到的软件:yakit(因为经过之前好多期…...
管理学院权限管理系统开发总结
文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...
SQL慢可能是触发了ring buffer
简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...

LLMs 系列实操科普(1)
写在前面: 本期内容我们继续 Andrej Karpathy 的《How I use LLMs》讲座内容,原视频时长 ~130 分钟,以实操演示主流的一些 LLMs 的使用,由于涉及到实操,实际上并不适合以文字整理,但还是决定尽量整理一份笔…...

mac 安装homebrew (nvm 及git)
mac 安装nvm 及git 万恶之源 mac 安装这些东西离不开Xcode。及homebrew 一、先说安装git步骤 通用: 方法一:使用 Homebrew 安装 Git(推荐) 步骤如下:打开终端(Terminal.app) 1.安装 Homebrew…...