当前位置: 首页 > article >正文

【11月16日-大模型前置知识【深度学习】+大模型开发入门】-基础篇笔记

文章目录前言一、huggingface国内1.引入库2.LLM 大模型语言的基础知识2.LLM主要类别架构介绍3.卷积神经网络CNN4.循环神经网络总结全文通俗总结一、入门工具Hugging Face二、LLM底层核心语言模型的进化三、主流LLM架构大盘点四、深度学习基础两大核心神经网络五、最终总结前言例如随着人工智能的不断发展机器学习这门技术也越来越重要很多人都开启了学习机器学习本文就介绍了机器学习的基础内容。一、huggingface国内官网链接https://huggingface.co/国内镜像站https://hf-mirror.com/# 二、使用步骤1.引入库循环神经网络2.LLM 大模型语言的基础知识通俗的讲是N-gram 核心就是用统计预测下一个词最常用的是二元Bigram和三元Trigram模型。核心原理极简版核心假设下一个词只跟前面有限个词有关Bigram 只看前 1 个词。计算逻辑统计语料库中词对出现次数比如 “我” 后面跟 “想” 的次数。用 “词对次数 / 前词总次数” 算出概率。比如表格中 P (想 | 我)800/2100≈0.38P (去 | 想)3/9000.003。关键表格含义左表C (Wi-1, Wi)—— 连续两个词同时出现的次数。右表C (Wi-1)—— 前一个词单独出现的总次数。概率公式P(Wi​∣Wi−1​)C(Wi−1​)C(Wi−1​,Wi​)​通俗类比就像输入法联想输入 “我”推荐 “想” 的概率远高于 “篮球”因为统计数据里 “我 想” 出现得最多。神经网络语言模型NNLM它是 N-gram 的 “进化版”核心用神经网络替代纯统计能捕捉词之间更复杂的关联而非简单算词频。核心目标一句话概括给你前 n-1 个词比如 “我想喝”通过神经网络预测下一个最可能的词比如 “水”。逐步骤通俗拆解输入层把词变成向量查表不能直接读 “词”得转成数字向量词向量。图中Table look-up in C就是 “查词表”把w_{t-n1}…w_{t-1}这些词转成对应的向量C(w)。比如 “我”→向量 A“想”→向量 B把这些向量拼起来形成一个长向量 x作为网络输入。隐藏层提取特征全连接 激活把长向量 x 喂进全连接层做线性计算后再用tanh激活函数处理。这一步是核心 “计算”作用是把前 n-1 个词的向量融合提取出能表示上下文的特征比如捕捉 “我想喝” 里的 “口渴” 语义。输出层预测下一个词归一化概率最后接一个全连接层输出 V 个节点V 是词汇总数每个节点对应一个词的 “未归一化分数”logits。用softmax把这些分数转成概率总和为 1概率最高的那个词就是模型预测的下一个词。和 N-gram 的核心区别表格对比维度 N-gram 神经网络语言模型核心逻辑 纯统计词频 神经网络学习语义词的表示 独热编码稀疏 词向量稠密、有语义关联捕捉 固定窗口内的简单关联 复杂语义关联如长距离依赖通俗类比N-gram 像记 “口头禅频率”“我” 后面说 “想” 的次数多就猜下一个是 “想”神经网络语言模型像理解 “语境”结合 “我、想、喝” 的语义精准猜下一个是 “水 / 奶茶”而非盲目按频率选。2.LLM主要类别架构介绍BERT的核心架构并将其与GPT、ELMo做了横向对比。BERT 本质是一个基于 Transformer 的双向语言模型它是当前 NLP自然语言处理的基石。以下是结合图表的极简通俗解释核心定位BERT 是什么正如图中文字所说BERT 是一个典型的双向编码模型。通俗理解它像一个 “阅读理解大师”能同时看左下文和右下文来理解词义比如判断 “ bank ” 在 “河岸” 和 “银行” 里的意思。对比看架构BERT左边直接堆叠多层 TransformerTrm信息双向流动看的最全。GPT用的是单向 Decoder 结构只能往左看有局限性。ELMo简单拼接左向和右向 LSTM不如 BERT 融合得好。BERT 的三大核心模块宏观上BERT 由下往上分为三层功能各不相同① 底层Embedding词嵌入模块作用把输入的字 / 词变成计算机能看懂的向量。构成不仅包含词向量还加上了位置向量知道词的顺序和句子向量区分是哪句话。② 中间层Transformer核心编码模块作用BERT 的 “大脑”。由多层图中画了两层实际通常 12 层 / 24 层Transformer 编码器堆叠而成。关键机制利用Attention注意力机制让每个词都能同时关注到句子里的其他所有词双向从而深度理解语义关联。③ 顶层Pre-training预训练模块作用模型训练好后的 “应用层”。流程接收 Transformer 提取的深层特征经过简单的全连接层输出最终的预测结果比如做分类、提取特征等。一句话总结流程输入词 → Embedding 转向量 → Transformer 双向理解语义 → 输出任务结果初代 GPT 训练用的数据集BooksCorpus以及 OpenAI 选它的两个核心理由。数据集基本信息规模约 5GB 文本包含 7400 万 句子来自 7000 本不同风格、不同类型的书籍。本质一个专门用于预训练大语言模型的书籍语料库。选择这个数据集的两个核心原因通俗版01 练 “长文理解” 能力书籍里有大量高质量长句子、连贯的长段落能让 GPT 学会长距离的上下文依赖。比如小说里 “他十年前埋下的盒子今天终于挖了出来”模型要能把 “十年前” 和 “今天” 关联起来而不是只看前后几个词。这比用零散的网页、短文本训练更能练出模型的 “全局理解能力”。02 测 “泛化能力”这些书籍没有开源、没有公开下游任务比如问答、分类用的数据集里几乎不会出现这些内容。用它预训练相当于让模型在 “全新的、没见过的文本” 上学通用语言规律而不是死记硬背常见数据。这样训练出来的模型在各种下游任务上的表现会更好真正验证了模型的泛化能力。补充小知识帮你串起之前的内容初代 GPT 是单向自回归模型只能从左到右预测下一个词BooksCorpus 的长文本刚好完美适配它的训练目标让模型在连贯的书籍内容里学习 “根据上文预测下文” 的能力为后续的微调打下基础T5 是个全能型大模型在 Transformer 基础上做了 2 个小优化核心是把所有 NLP 任务都统一成「文本输入→文本输出」的格式。架构小改动人话版层归一化简化了计算去掉偏置把归一化放到残差连接外面训练更稳。位置编码不用固定位置的向量改用「相对距离标量」不同注意力头学自己的位置信息更灵活。训练流程人话版预训练用类似 BERT填空GPT续写的方式学通用语言规律。微调把翻译、问答、摘要等所有任务都改成 “输入文本、输出文本”一个模型搞定所有任务泛化能力超强。一句话总结T5 优化版 Transformer 统一文本到文本格式 双目标预训练是能理解也能生成的全能 NLP 模型。3.卷积神经网络CNNdef train(model,train_dataset): criterionnn.CrossEntropyLoss()# 构建损失函数optimizeroptim.Adam(model.parameters(),lr1e-3)# 构建优化方法epoch100# 训练轮数forepoch_idxinrange(epoch):# 构建数据加载器dataloaderDataLoader(train_dataset,batch_sizeBATCH_SIZE,shuffleTrue)sam_num0# 样本数量total_loss0.0# 损失总和starttime.time()# 开始时间# 遍历数据进行网络训练forx, yindataloader: outputmodel(x)losscriterion(output, y)# 计算损失optimizer.zero_grad()# 梯度清零loss.backward()# 反向传播optimizer.step()# 参数更新# 计算每次训练模型的总损失值 loss是每批样本平均损失值total_lossloss.item()*len(y)# 统计损失和sam_numlen(y)print(epoch:%2s loss:%.5f time:%.2fs%(epoch_idx 1,total_loss / sam_num,time.time()- start))# 模型保存torch.save(model.state_dict(),model/image_classification.pth)4.循环神经网络RNN介绍循环神经网络Recurrent Neural Network, RNN是一种专门处理序列数据的神经网络。与传统的前馈神经网络不同RNN具有“循环”结构能够处理和记住前面时间步的信息使其特别适用于时间序列数据或有时序依赖的任务。我们要明确什么是序列数据时间序列数据是指在不同时间点上收集到的数据这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义当然这里也可以不是时间比如文字序列但总归序列数据有一个特点——后面的数据跟前面的数据有关系。RNN的应用 l 自然语言处理NLP文本生成、语言建模、机器翻译、情感分析等。 l时间序列预测股市预测、气象预测、传感器数据分析等。 l 语音识别将语音信号转换为文字。 l音乐生成通过学习音乐的时序模式来生成新乐曲。总结全文通俗总结这篇文章是大语言模型LLM 深度学习基础的新手入门指南从工具、底层原理、主流模型到神经网络基础和实战代码手把手带你搞懂AI大模型到底是怎么回事核心内容可以拆成5个部分一、入门工具Hugging Face它就是AI圈的“GitHub”是全球最大的大模型、数据集开源仓库官方地址和国内镜像站都给好了解决国内访问慢的问题新手不用从零造轮子直接就能用现成的模型和数据。二、LLM底层核心语言模型的进化这部分讲清了“AI是怎么学会说话、猜下一个词的”核心是两代模型的升级初代N-gram靠“死记词频”干活。比如统计“我”后面跟“想”的次数最多输入“我”就优先猜“想”本质是输入法联想的逻辑只会背规律不会理解语义。进化版神经网络语言模型NNLM不用死记硬背了。先把词转成带语义的向量再用神经网络学习上下文的意思比如看到“我想喝”能理解是要找饮品而不是光看词出现的次数真正学会了“理解语境”。三、主流LLM架构大盘点讲了现在最核心的3类大模型底子一句话说清各自的定位BERT「阅读理解大师」。双向Transformer结构能同时看一句话的前后文精准理解词义最适合做语义理解、文本分类、智能问答这种“读懂文本”的任务。GPT「续写作家」。单向Transformer结构只能从左到右看上文、猜下文天生适合文本生成ChatGPT就是在这个架构上发展来的用大量书籍文本训练练会了长文理解和通用能力。T5「全能翻译官」。把翻译、问答、摘要、分类等所有NLP任务全统一成“输入一段文本、输出一段文本”的格式一个模型就能搞定所有文本任务泛化能力拉满。四、深度学习基础两大核心神经网络补充了大模型的“前辈”——CNN和RNN也是AI最核心的基础组件CNN卷积神经网络「特征提取专家」。最擅长抓局部关键特征原本是做图像识别的也能处理文本文章里不仅讲清了它的结构还附了完整的训练代码新手能直接跑通。RNN循环神经网络「序列处理专家」。专门处理有顺序的数据比如文本、天气预报时序数据自带“记忆功能”能把前面的内容存下来给后面的预测用天生适合文本生成、机器翻译文章里还做了周杰伦歌词生成的实战项目输入开头词就能自动生成歌词把原理落地成了可运行的项目。五、最终总结整篇文章从“AI怎么学会说话”的底层逻辑到主流大模型的区别再到神经网络基础和实战代码完整覆盖了LLM入门的核心内容。核心就是让你搞懂AI大模型的本质是从海量文本里学习语言规律从最开始的死记词频到现在用神经网络深度理解语义一步步变得更智能最终能完成各类文本理解、生成任务。

相关文章:

【11月16日-大模型前置知识【深度学习】+大模型开发入门】-基础篇笔记

文章目录前言一、huggingface国内1.引入库2.LLM 大模型语言的基础知识:2.LLM主要类别架构介绍3.卷积神经网络CNN4.循环神经网络总结全文通俗总结一、入门工具:Hugging Face二、LLM底层核心:语言模型的进化三、主流LLM架构大盘点四、深度学习基…...

ros2中可视化topic数值命令

ros2 run plotjuggler plotjuggler...

告别 Notion AI 付费:利用 Gemini Client 自建最强笔记助手

前言 Notion作为现在最流行的笔记工具之一,其功能完整和页面美观而广受好评,但是它的ai功能是要钱的!每月10美金!这对笔者来说是不太能接受的,正巧最近有了gemini的会员并下载安装了cli,再加上最近酷爱逛魔…...

响应式公司网站设计制作:适配手机、平板的关键技巧

大家肯定有过这样的体验,有些网站在电脑端使用起来还不错,但是并没有做相应的移动端口的适配,导致在用手机浏览的时候,非常不便,大大降低了网页的使用率。随着移动端设备的不断普及和发展,导致网页设计也从…...

Keil UV4配色进阶:不止替换文件,教你用global.prop打造专属高效编码环境

Keil UV4深度调校指南:从global.prop解析到现代IDE级编码环境定制 当你每天面对Keil UV4那个灰暗的默认界面时,是否想过这个老牌嵌入式开发工具也能拥有VS Code般的优雅体验?不同于简单的主题替换,我们将深入global.prop文件的每一…...

玩一玩微软的 bit 模型:BitNet. 一个 CPU 就能跑起来的大模型袄

一、 什么是 AI Skills:从工具级到框架级的演化 AI Skills(AI 技能) 的概念最早在 Claude Code 等前沿 Agent 实践中被强化。最初,Skills 被视为“工具级”的增强,如简单的文件读写或终端操作,方便用户快速…...

VSCode插件Continue配置避坑指南:手把手教你无缝对接OpenStation的本地大模型服务

VSCode插件Continue配置避坑指南:手把手教你无缝对接OpenStation的本地大模型服务 当你已经成功部署了OpenStation的本地大模型服务,却在VSCode中配置Continue插件时遇到各种"拦路虎",这篇文章就是为你准备的调试手册。我们将深入每…...

别再用扁网线了!实测小米AX3600刷OpenWRT后断流的元凶排查与硬件避坑指南

深度解析OpenWRT网络断流:从硬件避坑到系统调优的全方位指南 当你兴冲冲地给路由器刷上OpenWRT,准备享受开源系统带来的自由与强大功能时,最令人抓狂的莫过于网络频繁断流。那种视频看到一半突然卡住、游戏关键时刻掉线的体验,足以…...

实战解析:基于Selenium与多线程的东方财富股吧数据采集方案

1. 为什么需要东方财富股吧数据采集 做量化分析的朋友都知道,市场情绪数据是alpha因子挖掘的重要来源。东方财富股吧作为国内活跃的股民社区,每天产生海量的讨论帖子和评论,这些数据对分析个股热度、投资者情绪变化具有重要价值。但手动收集这…...

在超大数据集下 DuckDB 与 MySQL 查询速度对比嵌

一、什么是urllib3? urllib3 是一个用于处理 HTTP 请求和连接池的强大、用户友好的 Python 库。 它可以帮助你: 发送各种 HTTP 请求(GET, POST, PUT, DELETE等)。 管理连接池,提高网络请求效率。 处理重试和重定向。 支…...

C# 面试高频题:装箱和拆箱是如何影响性能的?非

OCP原则 ocp指开闭原则,对扩展开放,对修改关闭。是七大原则中最基本的一个原则。 依赖倒置原则(DIP) 什么是依赖倒置原则 核心是面向接口编程、面向抽象编程, 不是面向具体编程。 依赖倒置原则的目的 降低耦合度&#…...

ChatterUI:突破移动端AI聊天限制,重构本地与云端智能对话体验

ChatterUI:突破移动端AI聊天限制,重构本地与云端智能对话体验 【免费下载链接】ChatterUI Simple frontend for LLMs built in react-native. 项目地址: https://gitcode.com/gh_mirrors/ch/ChatterUI ChatterUI是一款基于React Native构建的移动…...

响应式设计进阶技巧

响应式设计进阶技巧 1. 前言 在当今多设备时代,响应式设计已成为前端开发的标准实践。本文将深入探讨响应式设计的高级技巧,帮助你创建更加灵活、高效的响应式网站。 2. 响应式设计基础 2.1 核心概念 响应式设计的核心是根据设备屏幕尺寸和方向自动调整布…...

别再手动复制SSH公钥了,Linux服务器一键从GitHub快速导入公钥捕

一、项目背景与核心价值 1. 解决的核心痛点 Navicat的数据库连接密码并非明文存储,而是通过AES算法加密后写入.ncx格式的XML配置文件中。一旦用户忘记密码,常规方式只能重新配置连接,效率极低。本项目只作为学习研究使用,不做其他…...

【K8s】【笔记】----第七章:Kubernetes Service详解

【K8s】【笔记】----第一章:Kubernetes 介绍 【K8s】【笔记】----第二章:Kubernetes 集群环境搭建 【K8s】【笔记】----第三章:Kubernetes 资源管理 【K8s】【笔记】----第四章:Kubernetes 实战入门 【K8s】【笔记】----第五章&am…...

# 发散创新:基于Python实现轻量级物理引擎的核心算法与实战优化在游戏开发、虚拟仿真和机

发散创新:基于Python实现轻量级物理引擎的核心算法与实战优化 在游戏开发、虚拟仿真和机器人控制等领域,物理引擎是构建真实感交互体验的关键组件。本文将带你从零开始用 Python NumPy 实现一个简化但功能完整的 2D 物理引擎原型,并深入剖析…...

**Serverless架构下的无服务器框架实战:从零搭建高可用函数计算平台**

Serverless架构下的无服务器框架实战:从零搭建高可用函数计算平台 在现代云原生开发中,Serverless(无服务器)技术已成为构建弹性、低成本、高并发应用的核心选择之一。它彻底解耦了业务逻辑与底层基础设施管理,让开发者…...

AI原生不是口号,是生存——SITS2026系统改造的12项不可妥协技术红线(附银保监科技评估组密级评审意见节选)

第一章:AI原生不是口号,是生存——SITS2026系统改造的12项不可妥协技术红线(附银保监科技评估组密级评审意见节选) 2026奇点智能技术大会(https://ml-summit.org) 在SITS2026核心系统重构中,“AI原生”已非架构选型偏…...

自如”增益租3.0”模式:以真实案例解析,做值得信赖的资产托管方案

一、从真实案例出发:理解增益租模式的运作逻辑近期,网络上流传着一些关于自如“增益租3.0”模式的案例讨论。其中,有业主反馈将毛坯房委托后,因选择分期支付装修费用,导致前期每月到手租金较低,且短期内未获…...

OpenClaw健康监控:Qwen3.5-9B预警系统异常

OpenClaw健康监控:Qwen3.5-9B预警系统异常 1. 为什么需要AI健康监控系统 上周我的开发机突然死机,导致一个正在运行的OpenClaw自动化任务中断。检查日志发现是内存泄漏导致系统崩溃,但此时损失已经造成。这次经历让我意识到:当A…...

HagiCode Desktop 混合分发架构解析:如何用 PP 加速大文件下载成

一、Actor 模型:不是并发技巧,而是领域单元 Actor 模型的本质是: Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是: 如何在不共享状…...

nnUNet环境配置避坑指南:从PyTorch安装到数据集转换的完整流程

nnUNet环境配置与实战指南:从零搭建医学图像分割流水线 1. 环境部署:构建稳定高效的PyTorch基础 在开始nnUNet之旅前,确保拥有兼容的硬件环境:推荐使用NVIDIA显卡(RTX 3060及以上)、16GB以上内存和至少100G…...

Python数据可视化指南

Python数据可视化指南 后端转 Rust 的萌新,ID "第一程序员"——名字大,人很菜(暂时)。正在跟所有权和生命周期死磕,日常记录 Rust 学习路上的踩坑经验和"啊哈时刻",代码片段保证能跑。…...

__block 变量内存布局详解恫

故障表现 发现请求集群 demo 入口时卡住,并且对应 Pod 没有新的日志输出 rootce-demo-1:~# kubectl get pods -n deepflow-otel-spring-demo -o wide NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NO…...

告别Dummy Output!Ubuntu 22.04声音与蓝牙问题一站式修复指南(PipeWire/PulseAudio实战)

Ubuntu 22.04音频与蓝牙问题终极解决方案:从诊断到修复全流程 当你兴奋地打开Ubuntu 22.04准备享受音乐或进行视频会议时,"Dummy Output"这个令人沮丧的提示突然出现,或者蓝牙耳机频繁断连——这种体验确实令人抓狂。作为长期使用L…...

5款降重降AI工具实测 2026毕业季首选SpeedAI科研小助手

2026年毕业季临近,知网、维普、Turnitin等主流学术检测平台的AIGC检测算法已完成新一轮迭代升级,论文AI生成率不再是无关紧要的附加指标,而是直接影响审核通过、答辩资格的核心门槛。教育部对学术成果中AI使用的规范要求不断收紧,…...

避开风控!影刀RPA抓取小红书评论的保姆级配置指南(含60秒间隔、Excel文本格式设置)

影刀RPA小红书评论采集实战:高稳定性配置与风控规避手册 第一次用影刀RPA抓取小红书评论时,我连续被封了三个账号——因为没意识到平台对高频请求的敏感度。后来通过反复测试发现,间隔时间设置差5秒就可能触发完全不同的风控等级。这份指南将…...

我不是狐狸,我是那Harness Engineering律

Julia(julialang.org)由Stefan Karpinski、Jeff Bezanson等在2009年创建,目标是融合Python的易用性、C的高性能、R的统计能力、Matlab的科学计算生态。 其核心设计哲学是: 高性能:编译型语言(JIT&#xff0…...

lwIP 深度解析:TCP 错误回调函数 errf 的触发机制与实战应用

1. lwIP协议栈中的TCP错误处理机制 在嵌入式网络开发中,lwIP作为轻量级TCP/IP协议栈被广泛应用。理解其TCP错误处理机制对开发稳定可靠的网络应用至关重要。TCP协议通过错误回调函数(errf)向应用层报告连接异常,这就像是一个贴心的…...

PyCharm 2023最新汉化指南:一键切换中文开发环境

1. PyCharm 2023中文界面一键配置指南 刚接触Python开发的朋友们,第一次打开PyCharm可能会被满屏的英文吓到。别担心,JetBrains早就考虑到了这个问题,从2020版开始就提供了官方中文语言包。2023年的最新版本更是优化了汉化体验,整…...