当前位置: 首页 > news >正文

NLP+LLM从入门到精通系列

NLP+LLM从入门到精通系列

前言:笔者从事于NLP+LLM的对话智能机器人的相关行业,现在的大模型的技术日新月异,传统的NLP业务显然是要被淘汰的,那么这也是我着笔写这一系列文章的初衷。本系列将由浅到深,结合实际代码案例,帮助想要入门的小伙伴们更快掌握,以下是本系列的文章结构与预告,希望小伙伴们可以留下一个点赞和关注,你们的关注便是我更新的动力.(本系列相关知识/提子获取/openai账户/我的私有训练语料库以及数据集等等 可关注)

如果本系列反响还不错的话,我会额外出一系列关于从0到1搭建一个企业级的NLP+LLM智能对话机器人(更加关注LLMOps应用平台开发,就不会像本系列过多讲解基础知识点),敬请期待

1.NLP是什么

1-1 语言的产生:语音、词汇、语法

点这里

1-2 什么是NLP

点这里

1-3 NLP为什么这么难做

点这里

1-4 NLP发展历史以及我的工作感悟

点这里

2.数学基础讲解

2-1 概率论基础讲解

点这里

2-2 贝叶斯与信息理论

点这里

2-3 基于概率统计的模型采样知识

点这里

2-4 机器学习是什么(上)

点这里

2-5 机器学习是什么(下)

点这里

2-6 降维方法介绍

点这里

2-7 从已知结果中学习未知问题-回归与分类

点这里

2-8 聚类算法介绍

点这里

2-9 模型评估指标

点这里

2-10 文本分析流程1

点这里

2-11 文本分析流程2

点这里

2-12 中文处理的难题-分词
2-13 词语的处理:独热编码和词嵌入表示

3.神经网络与深度学习

3-1 激活函数和神经网络思想
3-2 梯度与反向传播
3-3 超参数
3-4 优化器和学习率
3-5 提高模型效果:归一化
3-6 构建线性模型解决温度计示数转换问题
3-7 使用深度学习解决温度即示数问题(上)
3-8 使用深度学习解决温度即示数问题(下)

4.文本处理

4-1 文本预处理:分词、停用词、特殊字符消失术
4-2 文本向量化
4-3 基于python的文本预处理封装
4-4 词嵌入技术(word2vec)
4-5 分类问题:给文本打标签
4-6 序列标注问题:发现特定词语
4-7 大语言模型的演进,助力NLP
4-8 注意力机制
4-9 大模型微调
4-10 生成式AI,像人类一样对话
4-11 自然语言处理常见的评价指标-AUC、BLEU、ROUGE等等
4-12 构建丰富的语料库和精选数据集
4-13 NLP常用工具,anaconda、NLTK

5.内容理解详谈

5-1 为什么要做内容理解
5-2 NLP在内容理解体系发挥的作用(上)
5-3 NLP在内容理解体系发挥的作用(下)
5-4 新闻APP标准文本如何面向推荐系统构建内容理解体系(上)
5-5 新闻APP标准文本如何面向推荐系统构建内容理解体系(下)
5-6 融合了多种内容类型的马蜂窝旅行内容理解如何配合运营体系运转(上)
5-7 融合了多种内容类型的马蜂窝旅行内容理解如何配合运营体系运转(下)
5-8 内容理解在点评UGC场景下辅助风险控制(上)
5-9 内容理解在点评UGC场景下辅助风险控制(下)
5-10 京东商城下的内容理解与智能创意(上)
5-11 京东商城下的内容理解与智能创意(下)

6.如何处理文本相似问题

6-1 文本相似度检测的类型:长文本短文本、词语句子段落、字符级语义级
6-2 在内容理解体系中,相似度检测可以解决什么
6-3 文本相似度检测的评估效果
6-4 使用编辑距离计算词或短语级的文本相似度
6-5 使用SIMHASH算法计算海量长文本的相似度
6-7 使用word2vec解决语义级别的短文本相似问题

7.实体识别

7-1 实体识别能够解决什么
7-2 在内容理解体系中借助实体识别搭建基础能力
7-3 为实体识别的结果构建评价方案时有哪些可用的指标
7-4 RNN在NLP中如何发挥作用
7-5 延长网络的记忆,长短时记忆网络(LSTM)都对RNN做了哪些改进
7-6 从规则到概率,条件随机场CRF算法助力网络模型认识规律
7-7 实体识别实战:ner bert lstm crf(上)
7-8 实体识别实战:ner bert lstm crf(下)
7-9 实体识别实战:ner bilstm crf

8.文本分类

8-1 内容理解中最广泛的文本分类有哪些
8-2 如何在内容理解体系搭建中借助文本分类的力量
8-3 文本分类任务效果的评估:离线指标、人工测评、线上效果
8-4 情感分析在内容平台的实践
8-5 卷积神经网络基础知识
8-6 处理情感分类的数据集并搭建卷积网络(上)
8-7 处理情感分类的数据集并搭建卷积网络(下)
8-8 实战:使用word2vec为数据集构建词向量,并寻找相似词
8-9 实战:使用word2vec的fasttext工具来解决文本分类的问题
8-10 transformer的衍生品Bert如何应用于文本分类
8-11 内容理解体系中多级多标签分类问题(上)
8-12 内容理解体系中多级多标签分类问题(下)
8-13 如何在具体业务中准备数据(上)
8-14 如何在具体业务中准备数据(下)
8-15 为企业级分类任务设计一个可扩展、易调整的算法构架
8-16 如何分布式工程部署

9.LLM+NLP

9-1 文本提取与文本生成能为我们提供哪些能力
9-2 在内容理解中,我们如何借助文本提取和文本生成能力来搭建我们的能力框架
9-3 没有标准答案的提取和生成任务如何评估效果
9-4 探索很老但很有用的TFIDF提取技术
9-5 谷歌的TextRank算法
9-6 GPT1模型-初代生成式预训练模型
9-7 GPT2模型-更强大的生成式预训练模型
9-8 GPT3模型-开创性的生成式预训练模型
9-9 InstructGPT在GPT3的基础上的三大改进点(上)
9-10 InstructGPT在GPT3的基础上的三大改进点(下)
9-11 实战:借助开源的GPT2模型搭建我们自己的生成式任务方案
9-12 实战:使用GPT2自动生成文本标题
9-13 实战:引入评估模型来提高生成效果
9-14 实战:借助ChatGPT的API实现文本摘要提取

10.后话

10-1 内容理解与NLP实战课程回顾
10-2 大模型时代的AI价值对齐
10-3 NLP大模型展望
10-4 大模型时代下如何继续跟进NLP的发展
10-5 系列文章结束语==>企业级项目实战的0-1教学介绍

相关文章:

NLP+LLM从入门到精通系列

NLPLLM从入门到精通系列 前言:笔者从事于NLPLLM的对话智能机器人的相关行业,现在的大模型的技术日新月异,传统的NLP业务显然是要被淘汰的,那么这也是我着笔写这一系列文章的初衷。本系列将由浅到深,结合实际代码案例&…...

用数组手搓一个小顶堆

堆默认从数组下标为1开始存储。 const int N201000; int heap[N]; int len; 插入操作: 将元素插入到堆的末尾位置向上调整。 void up(int k){while(k>1&&heap[k/2]>heap[k]){swap(heap[k],heap[k/2]);k/2;} } //len为当前存在元素长度 void Inser…...

【Linux开发】基于ALSA库实现音量调节

基于ALSA库实现音量调节 ALSA库实现音量调节1、使用alsamixer工具查看音频接口2、完整代码2.1、snd_mixer_open2.2、snd_mixer_attach、2.3、snd_mixer_selem_register2.4、snd_mixer_load2.5、snd_mixer_first_elem/snd_mixer_elem_next2.6、snd_mixer_selem_get_playback_vol…...

代理IP在未来将面临哪些挑战?

今天我们来聊聊代理IP在未来可能会面临的挑战。虽然代理IP技术目前应用广泛,但随着科技的发展和网络环境的变化,代理IP也将面临一些新的挑战。让我们一起来看看这些挑战是什么吧! 1. 更严格的网络封锁和检测 现代社会各行各业都在飞速发展&…...

FineBI在线学习资源-数据处理

FineBI在线学习资源汇总: 学习资源 视频课程 帮助文档 问答 数据处理学习文档: 相关资料: 故事背景概述-https://help.fanruan.com/finebi6.0/doc-view-1789.html 基础表处理-https://help.fanruan.com/finebi6.0/doc-view-1791.html …...

【代码随想录算法训练营第37期 第四十五天 | LeetCode198.打家劫舍、213.打家劫舍II、337.打家劫舍III】

代码随想录算法训练营第37期 第四十五天 | LeetCode198.打家劫舍、213.打家劫舍II、337.打家劫舍III 一、198.打家劫舍 解题代码C&#xff1a; class Solution { public:int rob(vector<int>& nums) {if (nums.size() 0) return 0;if (nums.size() 1) return num…...

Elasticsearch查询上下文和_source

查询上下文 {"took": 1,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": {"value": 1,"relation"…...

golang实现网卡流量监控

获取当前时刻一分钟前的网卡流量排序 package mainimport ("fmt""github.com/mackerelio/go-osstat/network""log""net/http""sort""strconv""time" )var arr []map[string]int var arr2 []map[string]…...

技术分享:直播平台如何开发并接入美颜SDK

本篇文章&#xff0c;笔者将分享直播平台如何开发并接入美颜SDK的技术细节与步骤。 一、选择合适的美颜SDK 首先&#xff0c;选择一款适合的美颜SDK非常重要。市面上有很多优秀的美颜SDK供应商&#xff0c;选择时应考虑以下因素&#xff1a; 功能丰富性&#xff1a;支持美白…...

左耳听风_114_113_Go编程模式修饰器

你好&#xff0c;我是陈浩&#xff0c;我名多尔多house.之前呢我写过一篇文章叫做python修饰器的函数式编程。 那这种模式呢可以很轻松的把一些函数啊装配到另外一些函数上。 让你的代码呢更加简单&#xff0c;也可以让一些小功能性的代码复用性更高。 让代码中的函数呢可以…...

Java实习手册(小白也看得懂)

秃狼说 距离俺发布的学习路线已经六个月了&#xff0c;那我给小伙伴的学习周期是四五个月左右&#xff0c;我相信大多的小伙伴已经学习的差不多了。正好赶上暑期实习的阶段&#xff0c;在暑期找到实习就成为暑期的头等大事。 实习经验在校招的起到决定性的作用&#xff0c;所…...

Elasticsearch 分析器(Analyzer)的作用和配置

在Elasticsearch中&#xff0c;分析器&#xff08;Analyzer&#xff09;是文本处理的核心组件&#xff0c;它负责将输入的文本转换为可用于搜索和索引的词项&#xff08;tokens&#xff09;。这一过程涉及多个步骤&#xff0c;包括字符过滤、分词和标记过滤&#xff0c;共同决定…...

SpringBoot(一)创建一个简单的SpringBoot工程

Spring框架常用注解简单介绍 SpringMVC常用注解简单介绍 SpringBoot&#xff08;一&#xff09;创建一个简单的SpringBoot工程 SpringBoot&#xff08;二&#xff09;SpringBoot多环境配置 SpringBoot&#xff08;三&#xff09;SpringBoot整合MyBatis SpringBoot&#xff08;四…...

简述Vue中的数据双向绑定原理

Vue中的数据双向绑定原理是Vue框架的核心特性之一&#xff0c;它通过数据劫持结合发布者-订阅者模式来实现。下面将详细阐述Vue中数据双向绑定的原理&#xff0c;并尽量按照清晰的结构进行归纳&#xff1a; 一、数据劫持 使用Object.defineProperty()&#xff1a; Vue在组件…...

C++STL函数对象的应用

STL函数对象 文章目录 STL函数对象1.基本概念2.使用方法1. 简单函数对象示例2. 函数对象作为算法参数3. Lambda表达式作为函数对象 2.一元谓词和二元谓词1.一元谓词2.二元谓词3.总结 3.算术仿函数1.使用示例2.Lambda表达式的替代 4.关系仿函数5.逻辑仿函数 C中的函数对象&#…...

AJAX-day1:

注&#xff1a;文件布局&#xff1a; 一、AJAX的概念&#xff1a; AJAX是浏览器与服务器进行数据通信的技术 >把数据变活 二、AJAX的使用&#xff1a; 使用axios库&#xff0c;与服务器进行数据通信 基于XMLHttpRequest封装&#xff0c;代码简单 Vue,React项目使用 学习…...

昆虫学(书籍学习资料)

包括昆虫分类&#xff08;上下册&#xff09;、昆虫生态大图鉴等书籍资料。...

springboot + mybatis 多数据源切换

参考的b站博主写的 配置文件: spring:datasource:db1:jdbc-url: jdbc:mysql://localhost:3306/interview_database?useUnicodetrue&characterEncodingutf-8&useSSLfalseusername: rootpassword: 12345driver-class-name: com.mysql.cj.jdbc.Driverdb2:jdbc-url: jdbc…...

windows电脑网络重置后wifi列表消失怎么办?

我们的电脑网络偶尔会出现异常&#xff0c;我们通常会下意识选择网络诊断&#xff0c;运行完诊断后一般会让我们选择重置网络&#xff0c;然而&#xff0c;重置后wifi列表突然消失&#xff0c;无法愉快地上网了&#xff0c;找了一圈&#xff0c;都说是更改适配器选项&#xff0…...

Python + 在线 + 文生音,音转文(中文文本转为英文语音,语音转为中文文本)

开源模型 平台&#xff1a;https://huggingface.co/ars-语言转文本: pipeline("automatic-speech-recognition", model"openai/whisper-large-v3", device0 ) hf: https://huggingface.co/openai/whisper-large-v3 github: https://github.com/openai/wh…...

SmolVLA效果展示:三视角图像对齐误差对最终动作精度影响分析

SmolVLA效果展示&#xff1a;三视角图像对齐误差对最终动作精度影响分析 1. 项目概述 SmolVLA是一个专门为经济实惠的机器人技术设计的紧凑高效视觉-语言-动作模型。这个模型最大的特点是能够在有限的硬件资源下实现高质量的机器人控制&#xff0c;让更多开发者和研究者能够接…...

告别Salesforce!这5个开源AI CRM项目,帮你用更低成本打造专属客户管理系统

开源AI CRM革命&#xff1a;5个低成本替代方案深度评测与技术选型指南 当Salesforce的年费账单突破六位数时&#xff0c;越来越多的技术决策者开始将目光转向开源生态。这不是简单的成本妥协&#xff0c;而是一场关于数据主权、技术栈控制和AI原生体验的范式转移。以下是经过三…...

Kaggle Notebook中文乱码终结者:3分钟搞定Matplotlib字体配置(附Noto Sans CJK全流程)

Kaggle Notebook中文乱码终结者&#xff1a;3分钟搞定Matplotlib字体配置&#xff08;附Noto Sans CJK全流程&#xff09; 在数据可视化过程中&#xff0c;中文显示问题一直是困扰许多Kaggle用户的痛点。当你在Notebook中满怀期待地运行代码&#xff0c;却发现图表中的中文变成…...

MedGemma 1.5开源医疗模型:本地化部署满足等保2.0三级与GDPR双合规要求

MedGemma 1.5开源医疗模型&#xff1a;本地化部署满足等保2.0三级与GDPR双合规要求 1. 项目概述与核心价值 MedGemma 1.5是基于Google Gemma架构开发的医疗专用AI模型&#xff0c;专门针对医学问答、病理分析和术语解释场景优化。这个4B参数规模的模型经过PubMed、MedQA等专业…...

为什么你的Monte Carlo期权定价结果总偏差>8%?:揭秘随机数种子、路径步长与方差缩减的3重陷阱

第一章&#xff1a;Monte Carlo期权定价偏差的典型现象与问题界定Monte Carlo方法在欧式、亚式及路径依赖型期权定价中广泛应用&#xff0c;但其数值结果常表现出系统性偏差——并非源于算法逻辑错误&#xff0c;而是由随机采样、方差结构与边界处理等多重因素耦合所致。实践中…...

基于cartographer算法的自主导航系统仿真设计 移动机器人系统具备定位、建图及路径规划功能

基于cartographer算法的自主导航系统仿真设计 移动机器人系统具备定位、建图及路径规划功能&#xff0c;在迷宫式的环境中建模导航。 模型以及移动机器人模型&#xff0c;移动机器人模型包含2D激光雷达传感器、轮式里程计以及惯性导航原件 基于cartographer算法建图&#xff0c…...

汽车线控转向系统动力学法Carsim和Simulink联合仿真

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。&#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室&#x1f447; 关注我领取海量matlab电子书和…...

深入解析Cache工作原理与多核一致性机制

深入理解Cache工作原理与技术实现1. 计算机体系中的Cache基础1.1 Cache存在的必要性现代计算机系统中&#xff0c;处理器性能与存储器访问性能之间存在显著差距。从历史发展数据来看&#xff0c;CPU计算性能每18个月翻一番&#xff08;遵循摩尔定律&#xff09;&#xff0c;而D…...

OpenClaw自动化测试:Qwen3.5-9B在API接口校验中的实战应用

OpenClaw自动化测试&#xff1a;Qwen3.5-9B在API接口校验中的实战应用 1. 为什么选择OpenClaw做接口自动化测试 去年接手一个个人项目时&#xff0c;我遇到了接口测试的痛点&#xff1a;每次后端更新都要手动验证几十个API&#xff0c;不仅耗时还容易遗漏边缘case。尝试过Pos…...

ESLyric歌词源高效配置与避坑指南:Foobar2000用户进阶教程

ESLyric歌词源高效配置与避坑指南&#xff1a;Foobar2000用户进阶教程 【免费下载链接】ESLyric-LyricsSource Advanced lyrics source for ESLyric in foobar2000 项目地址: https://gitcode.com/gh_mirrors/es/ESLyric-LyricsSource ESLyric-LyricsSource是Foobar2000…...