当前位置：首页 > article >正文

AI通识-大模型的原理应用

article 2026/4/26 1:03:29

一、大模型原理AI产生智能的三要素分别是算法、数据、算力。AI的智能还是基于各种数学计算产生的。1、模型的训练AI的神经网络模型就是在模仿人类的神经元你给它输入一些参数最终它经过计算返回一个结果。因此从某种意义上你可以把模型看做是一个函数。这就类似y ax b这个函数有两个参数a和b当a和b确定时这个函数就能表示一条直线。输入一个x一定能得到一个结果y当然模型这个“函数”要复杂的多其参数不是两个而是可能达到千亿规模因此它表示的不是一条直线而是表示人类复杂的语言系统。模型训练的过程就是求模型参数的过程类似于求解函数参数。已知直线上两个点的坐标就能求出这条直线对应的a和b的值。不过大模型这个“函数”要复杂的多其参数规模高达数千亿模拟的也不是一条直线它需要的“点”也是天文数字因此根本就不可能精确计算出每一个参数的值。所以模型的训练更像是在猜答案先给模型参数设定为随机值然后输入一个参数再把模型计算的结果与预期的正确结果做对比如果不对就调整参数直到正确为止这里的输入参数和预期结果就是所谓的训练数据平面上的“点”。不断的给模型提供新的训练数据根据计算结果不断调整模型的参数直到模型的计算能够与大多数的训练数据吻合那么模型的训练就完成了。大语言模型的训练就是拿海量的人类语言文字作为训练数据不断调整模型参数使其与人类的语言文字系统拟合。2、大语言模型词向量Word Embedding的概念这为神经网络训练学习自然语言打下了坚实的基础。每个词语都可以经过模型运算转化为一个多维向量也就是一个浮点数数组GPT3采用12288维向量通过训练使模型计算出的多维向量与文字语义产生关联使多维空间中的不同方向表示不同语义例如在经过训练后的向量空间中有两个向量中国、美国此时我们用E(美国) - E(中国) 得到的新向量就可以表示为美国与中国的差异。假如此时我询问LLM在中国有什么食物与美国的汉堡类似我们就可以这么做先找到表示汉堡的向量E(汉堡)然后加上表示两个国家差异的向量:E(美国) - E(中国)从而计算出一个新向量E(汉堡) E(美国) - E(中国)最后将得到的向量反向量化unembedding大概率就是我们要的结果当然真实情况会比这个复杂的多受到语句上下文的影响和多义词的影响运算可能得到不止一个结果并且会根据可能性形成每一个结果的概率分布然后通过某种函数算法选择一个最终结果。综上大语言模型就是把人类语言转为可以计算的多维向量坐标然后根据上文向量计算来推测下文。更神奇的是人类一开始训练语言模型只是为了让它理解人类语言起到翻译作用。但当模型和数据规模足够大时它不仅能够理解和生成自然语言还能理解、推理、分析人类生活中的大部分问题成为了可应用于各个领域的通用人工智能AGI这种因为数据和模型规模扩大而涌现出各种能力的现象我们称之为泛化。而这样的大规模语言模型我们就称为大语言模型Large Language Model简称LLM.二、大模型的应用1、什么是大模型应用传统应用是由程序员告诉计算机规则编程计算机照着规则执行。擅长规则清楚、流程固定的事情可以确保100%准确行为可控、可追溯不擅长没有明确规则的事情自然语言的理解模糊的判断和表达大模型计算机通过大量数据训练自己学会规律和知识擅长理解和生成自然语言模糊问题的合理回答总结、改写、对话、创作不擅长准确的计算固定的流程和规则稳定可预测的结果而大模型应用则是把两者的能力结合大模型负责“思考”传统程序负责“行动”。例如点外卖的功能我们可以这样划分菜价、优惠、支付 →传统程序“给我推荐点清淡的” →大模型最终下单、扣钱 →传统程序在传统应用开发中介入AI大模型充分利用两者的优势。既能利用AI实现更加便捷的人机交互更好的理解用户意图又能利用传统编程保证安全性和准确性强强联合这就是大模型应用开发的真谛综上所述大模型应用就是整合传统程序和大模型的能力和优势来开发的一种应用。另外我们熟知的AI对话产品比如通义千问、豆包这样的APP或者聊天机器人也都属于大模型应用收集网页用户输入文本、上传的文件、图片 →传统程序分析和理解用户输入的问题 →大模型联网搜索与问题相关的资料 →传统程序根据资料生成答案 →大模型模型本身只具备理解、推理、生成回复的能力。我们平常使用的AI对话产品除了生成和推理还有会话记忆功能、联网功能等等。这些都是大模型不具备的。是需要通过额外的程序来实现的也就是基于大模型开发应用。2、常见大模型大模型对话产品公司地址GPT-3.5、GPT-4oChatGPTOpenAIhttps://chatgpt.com/Claude 3.5Claude AIAnthropichttps://claude.ai/chatsDeepSeek-R1DeepSeek深度求索https://www.deepseek.com/文心大模型3.5文心一言百度https://yiyan.baidu.com/星火3.5讯飞星火科大讯飞https://xinghuo.xfyun.cn/deskQwen-Max通义千问阿里巴巴https://tongyi.aliyun.com/qianwen/MoonshootKimi月之暗面https://kimi.moonshot.cn/Yi-Large零一万物零一万物https://platform.lingyiwanwu.com/3、与大模型交互调用接口。大模型在部署时通常都会对外暴露基于HTTP协议的API接口我们可以用任何自己喜欢的方式调用该接口实现与大模型的交互

AI通识-大模型的原理应用

相关文章：

AI通识-大模型的原理应用

模型莫名拦截输出背后真相，看懂风控底层逻辑学会高效破限

性能压测实战：我们的Agent如何承受百万级并发？

为什么工作台列表要避免 N+1 查询

企业级生成式AI安全部署：NVIDIA NeMo Guardrails实战指南

SpringBoot+Vue出租车服务管理系统源码+论文

王者荣耀与英雄联盟数值设计对比：穿透、乘算与加算、增伤乘算更厉害，减伤加算更厉害

科技报告：基于弱监督BERT-CRF与知识元特征融合的专利价值评估研究

电影票特惠出票和快速出票到底什么逻辑？看完就懂！

zmq源码分析之poller和signaler如何建立联动实现用户层通知

zmq源码分析之IO线程绑定时机

zmq源码分析之多 Socket 监听方案

Pomotroid番茄工作法计时器：如何用这个免费工具快速提升专注力

SMAPI安卓安装器：星露谷物语MOD管理终极解决方案

如何用HTML函数工具测试显卡性能_基准跑分详解【详解】

多芯片加速器动态LLM推理优化与Compass框架实践

量子网络可编程光子接口：原理与实现

词级神经语言模型开发实战：从原理到应用

量子纠错解码器：BP算法与光束搜索技术解析

3步搭建音乐聚合神器：music-api跨平台解析实战指南

如何用Python免费获取Google Scholar学术数据？scholarly库让学术研究效率飙升！

CSS如何减少对HTML结构依赖_利用BEM命名保持样式的逻辑独立

3个颠覆性体验：APKMirror客户端如何重新定义你的应用下载方式

别瞎挖！7 个合法挖洞变现途径，新手 0 基础也能赚到第一笔奖金

多语言跨境外贸商城系统源码｜支持TK内嵌+独立站双模式｜商家入驻+一键铺货提货｜全开源可二次开发

C工程师年薪跃迁关键帧：掌握这11个C11/C17内存模型原子操作边界案例，直通华为/寒武纪安全岗终面

VSCode实时协作权限失控危机（2026 Beta用户实测：83%团队遭遇越权编辑），这份ACL策略清单请立刻保存

告别pip install报错：手把手教你修复Windows/macOS上的Python SSL证书验证问题

如何在macOS上快速安装Whisky：免费运行Windows应用的终极指南

FotoJet Photo Editor(图片处理软件)