NLP 1、人工智能与NLP简介
人人都不看好你,可偏偏你最争气
—— 24.11.26
一、AI和NLP的基本介绍
1.人工智能发展流程
弱人工智能 ——> 强人工智能 ——> 超人工智能
① 弱人工智能
人工智能算法只能在限定领域解决特定的问题
eg:特定场景下的文本分类、垂直领域下的对话、银行卡卡号识别
② 强人工智能
在通用领域胜任人类所有的工作、一个模型处理不同工作
eg:各种大模型
③ 超人工智能
远超人类的智慧
目前AI技术的阶段:在弱人工智能与强人工智能发展间的阶段
2.人工智能 —— 研究方向
① 语音合成(TTS)
eg:语音播报能力、站点报时报点
② 语音识别(ASR)
说一句话将这段音频转为文字
eg:语音转文字
③ 字符识别(OCR)
从画面中识别一些特定的字符串、信息
eg:录入身份证/银行卡信息/违章识别
④ 机器翻译(MP)
自然语言处理的一种,将不同语言间进行翻译
eg:同声翻译
⑤ 图像识别(CV)
在一张图像中识别出具体的物体
eg:电商拍图搜索类似商品
⑥ 语义理解(NLU)
强大的语义理解,从文本中识别出具体语义
eg:对话机器人
⑦ 指纹识别(较为成熟)
通过指纹识别出不同的角色
⑧ 声纹识别(较为成熟)
通过声纹识别出不同的身份,而不用判断说的内容
3.人工智能、机器学习、深度学习间的关系
① 人工智能是一个较大的范畴
② 机器学习是实现人工智能的一种基本方法
③ 深度学习是机器学习的一个分支

4.人工智能(机器学习)—三驾马车
① 算法
② 算力(主要进步)
③ 数据(主要进步)
5.自然语言处理(NLP)
自然语言处理包含:语言学、数学、计算机科学三者交叉
自然语言处理的目标
① 人机交互
eg:问答搜索、闲聊回答、指令操作、机器翻译
辅助生活和工作,给生活带来便利,随着机器能力边界的提升其价值不断增加
② 数据分析/挖掘
eg:舆情分析、文本分类、知识抽取、命名实体识别
辅助决策和选择,给决策带来便利,随着数据量的增大和类别的增多其价值不断提升
二、算法行业介绍
1.算法相关的工作
Ⅰ 落地型
① 主要负责业务场景的算法落地,动手编程能力强
② 需要熟悉业务场景常见问题,极端情况的处理
③ 难点:小坑不断、需求改变、数据欠缺、效果不定
Ⅱ 研究型
① 主要负责发表论文及算法比赛等,理论知识扎实
② 研究内容可以脱离实际业务,在公开数据集上工作
③ 难点:需要创新思路、参加比赛获奖
2.项目人员构成
① 业务人员/甲方
一般是非程序员,根据业务场景需要,提出需求
② 产品经理
与业务对接、梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求
③ 开发人员
人工智能方向一般大致分成算法开发和工程开发,合作处理整个项目
④ 测试人员
专门进行测试,也可以进一步细分,一般也需要编程能力
⑤ 运维人员
机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况
⑥ Option(可选)
部署人员、数据标注人员、项目管理人员、平台维护人员
3.项目主要流程&算法开发职责
① 确认需求 —— 业务发起需求评审(进行沟通)
了解业务背景,以算法人员视角给出是否可行的意见
② 确认技术方案 —— 开发进行技术评审(算法方案+工程方案),根据需求制作方案
对问题的建模过程,需求转化为哪(几)种机器学习问题(或规则处理),需要哪些前置条件
③ 获取标注数据 —— 算法或业务提出数据需求
建立标注规范,校验数据格式,抽样评估效果 ,训练集验证集划分,搜索开源数据,购买数据
⭐④ 代码开发 —— 模型训练、功能开发等
训练/预测代码开发,算法实验,对比效果
⑤ 测试 —— 测试用例评审
功能测试、效果测试、性能测试,开发可以自测,配合测试组发现的问题做修改
⑥ 部署上线/投入使用 —— 开发上线,测试验证,运维监控
每个公司使用框架情况有所差异,根据实际情况处理
⑦ 后续迭代 —— 业务提出需求
数据埋点、分析日志等
4.算法工程师需要的技能
① 编程能力
② 算法知识储备
③ 沟通和协作能力
④ 学习能力
⑤ 一定程度的英文功能
⑥ 使用搜索引擎/大模型的能力
5.NLP面临的困难
① 口吃系列、划分语义边界
例:
校长说衣服上除了校徽别别别的
过几天天天天气不好
骑车出门差点摔跤,还好我一把把把把住了
碳碳键键能能否否定定律一
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
我背有点驼,麻麻说“你的背得背背背背佳“
② 分词系列、划分语义边界
例:
南京市长江大桥
一位友好的哥谭市民
乒乓球拍卖完了
③ 套娃系列、语言的递归性
例:
转发(自治区教育厅办公室关于转发教育部关于做好春夏季中小学生和幼儿安全工作的紧急通知》的通知》的通知
④ 同文歧义系列、常识认知、社会认知
例:
单身的原因有两个,一是谁都看不上,二是谁都看不上。
女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。
冬天:能穿多少穿多少。夏天:能穿多少穿多少
⑤ 反话正说系列、语序和语义的关联
例:
屡败屡战 屡战屡败
情理之中意料之外 意料之外情理之中
情有可原罪无可恕 罪无可恕情有可原
⑥ 崩溃系列
例:
领导:你这是什么意思?
小明:没什么意思,意思意思。
领导:你这就不够意思了。
小明:小意思,小意思。
领导:你这人真有意思。
小明:其实也没有别的意思。
领导:那我就不好意思了。
小明:是我不好意思。
⑦ 英语系列
例:
Kids
Watching a Model Train
Normal PeopleWatching aModel Train
Software Engineers
Watching amodel Train
NLP对于机器来说很困难,本质上是因为对人来说它也很困难
对语言的理解要远远难于对一些有着明确规则任务的理解
语言本身具有创造性,在不同时代和背景下进行不断地更新迭代
三、人工智能和深度学习的发展历程
1.人工智能的发展
① 起步发展期
1950~1960,人工智能诞生
eg:机器定理证明、智能跳棋程序
② 反思发展期
1960~1970,任务失败,目标落空
eg:机器翻译,笑话百出、定理证明,发展乏力
③ 应用发展期
1970~1980,专家系统遍地开发,人工智能转向实用
eg:医疗专家系统、化学专家系统、地质专家系统
④ 低迷发展期
1980~1990,多项研究发展缓慢
eg:专家系统发展乏力、神经网络研究受阻
⑤ 稳步发展期
1990~2010,互联网推到人工智能不断创新和实用
eg、深蓝战胜国际象棋冠军、IBM提出智慧地球、我国提出感知中国
⑥ 蓬勃发展期
2010至今,深度学习和大数据兴起带来了人工智能的爆发
物联网、云计算、大数据
2.NLP的发展历程
图灵测试 —— 如何判断机器是否拥有智能
1950年提出,是图灵的个人观点,并非当前业界的追求
测试方法
让机器人冒充人,与人展开对话,如果有超过30%的人误以为在是人类在和自己对话而非计算机,那就可以认为这台机器拥有人类智能
3.NLP的发展现状
① 深度学习大幅改变了NLP研究,极大地推进了NLP技术的发展
② NLP技术已经深入生活的各个角落,输入法(提示输入词)、语音助手、搜索引擎(浏览器,用相关文字查找到有关的网页)、智能客服(智能电话)等大量依赖NLP技术的应用已经被推广和使用
③ 大语言模型的强大理解能力,让人们看到了强人工智能的曙光
四、一些NLP常用的工具和框架介绍
1.编译器
Pycharm、VSCode
2.机器学习相关python框架
① Tensorflow
工程配套完善
② Pytorch
调试方便,目前的主流
③ Keras
高级封装,简单好用,现已和Tensorflow合体
④ Gensim
训练词向量常用
⑤ Sklearn
大量机器学习算法,如逻辑回归、决策树、支持向量机、随机森林、KMeans等等,同时具有数据集划分和各种评价指标的实现
⑥ Numpy
各种向量矩阵操作
多多调用库进行代码编写
相关文章:
NLP 1、人工智能与NLP简介
人人都不看好你,可偏偏你最争气 —— 24.11.26 一、AI和NLP的基本介绍 1.人工智能发展流程 弱人工智能 ——> 强人工智能 ——> 超人工智能 ① 弱人工智能 人工智能算法只能在限定领域解决特定的问题 eg:特定场景下的文本分类、垂直领域下的对…...
常见线程安全问题之Double Checked Locking
创作内容丰富的干货文章很费心力,感谢点过此文章的读者,点一个关注鼓励一下作者,激励他分享更多的精彩好文,谢谢大家! 双重锁定检查(Double Checked Locking,下称 DCL)是并发下实现懒…...
Redis(非关系型数据库)的作用 详细解读
edis(Remote Dictionary Server)是一个开源的、高性能的、基于内存的数据结构存储系统。它具有极高的读写性能,并且能够支持多种数据结构的存储。Redis 最初的设计目标是作为一个缓存解决方案,但随着其功能的不断扩展,…...
互联网视频推拉流EasyDSS视频直播点播平台视频转码有哪些技术特点和应用?
视频转码本质上是一个先解码再编码的过程。在转码过程中,原始视频码流首先被解码成原始图像数据,然后再根据目标编码标准、分辨率、帧率、码率等参数重新进行编码。这样,转换前后的码流可能遵循相同的视频编码标准,也可能不遵循。…...
python之多元线性回归
目录 前言实战 前言 多元线性回归是回归分析中的一种复杂模型,它考虑了多个输入变量对输出变量的影响。与一元线性回归不同,多元线性回归通过引入多个因素,更全面地建模了系统关系。 多元线性回归模型的表达式为: f ( X ) K T …...
学习threejs,使用设置lightMap光照贴图创建阴影效果
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshLambertMaterial…...
一,SQL注入解题(猫舍)
封神台 第一章:为了女神小芳! Tips: 通过sql注入拿到管理员密码! 尤里正在追女神小芳,在得知小芳开了一家公司后,尤里通过whois查询发现了小芳公司网站 学过一点黑客技术的他,想在女神面前炫炫技。于是他…...
海康大华宇视视频平台EasyCVR私有化部署视频平台海康ISUP是什么?如何接入到EasyCVR?
在现代安防领域,随着技术的发展和需求的增加,对于视频监控系统的远程管理和互联互通能力提出了更高的要求。海康威视的ISUP协议(以及功能相似的EHOME协议)因此应运而生,它们为不具备固定IP接入的设备提供了一种有效的中…...
Java ArrayList 与顺序表:在编程海洋中把握数据结构的关键之锚
我的个人主页 我的专栏:Java-数据结构,希望能帮助到大家!!!点赞❤ 收藏❤ 前言:在 Java编程的广袤世界里,数据结构犹如精巧的建筑蓝图,决定着程序在数据处理与存储时的效率、灵活性以…...
windows下安装wsl的ubuntu,同时配置深度学习环境
写在前面,本次文章只是个人学习记录,不具备教程的作用。个别信息是网上的,我会标注,个人是gpt生成的 安装wsl 直接看这个就行;可以不用备份软件源。 https://blog.csdn.net/weixin_44301630/article/details/1223900…...
开展网络安全成熟度评估:业务分析师的工具和技术
想象一下,您坐在飞机驾驶舱内。起飞前,您需要确保所有系统(从发动机到导航工具)均正常运行。现在,将您的业务视为飞机,将网络安全视为飞行前必须检查的系统。就像飞行员依赖检查表一样,业务分析师使用网络安全成熟度评估来评估组织对网络威胁的准备程度。这些评估可帮助…...
Maven Surefire 插件简介
Maven Surefire 插件是 Maven 构建系统中的一个关键组件,专门用于在构建生命周期中执行单元测试。 它通常与 Maven 构建生命周期的测试阶段绑定,确保所有单元测试在项目编译后和打包前被执行。 最新版本 Maven Surefire 插件的最新版本为 3.5.2。 使…...
基于微信小程序的平价药房管理系统+LW参考示例
1.项目介绍 系统角色:管理员、医生、普通用户功能模块:用户管理、医生管理、药品分类管理、药品信息管理、在线问诊管理、生活常识管理、日常提醒管理、过期处理、订单管理等技术选型:SpringBoot,Vue,uniapp等测试环境…...
react 前端最后阶段静态服务器启动命令
这个错误是因为你还没有安装 serve 工具。让我们一步步解决: 首先全局安装 serve: npm install -g serve如果上面的命令报错,可能是因为权限问题,可以尝试: 安装完成后,再运行: Windows 下使用…...
Flink中普通API的使用
本篇文章从Source、Transformation(转换因子)、sink这三个地方进行讲解 Source: 创建DataStream本地文件SocketKafka Transformation(转换因子): mapFlatMapFilterKeyByReduceUnion和connectSide Outpu…...
高性能 ArkUI 应用开发:复杂 UI 场景中的内存管理与 XML 优化
本文旨在深入探讨华为鸿蒙HarmonyOS Next系统(截止目前API12)的技术细节,基于实际开发实践进行总结。 主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。 本文为原创内容,任何形式的转载必须注明出处及原作者。 在开发高性能 ArkUI 应…...
用天翼云搭建一个HivisionIDPhoto证件照处理网站
世人不必记我,我不记世人。 HivisionIDPhoto证件照处理网站 世人不必记我,我不记世人。项目地址项目搭建与修改前端后端遇到的坑 成果图 前段时间工作需要频繁处理证件照,当时同事推荐一个证件照小程序(要看广告)&…...
【算法一周目】滑动窗口(2)
目录 水果成篮 解题思路 代码实现 找到字符串中所有字母异位词 解题思路 代码实现 串联所有单词的子串 解题思路 代码实现 最小覆盖子串 解题思路 代码实现 水果成篮 题目链接:904. 水果成篮 题目描述: 你正在探访一家农场,农场…...
Zustand:一个轻量级的React状态管理库
文章目录 前言一、安装Zustand二、使用Zustand三、实际案例结语 前言 在现代Web开发中,状态管理是一个常见的需求,特别是在构建大型或复杂的单页面应用程序(SPA)时。React等框架虽然提供了基本的状态管理功能,但对于复…...
C++练级计划->《单例模式》懒汉和饿汉
目录 单例模式是什么? 单例模式的应用: 饿汉单例模式: 1.实现: 2.理解: 懒汉单例模式: 1.实现: 2.理解: 懒汉和饿汉的优缺点 饿汉模式的优点: 饿汉模式的缺点&a…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
无法与IP建立连接,未能下载VSCode服务器
如题,在远程连接服务器的时候突然遇到了这个提示。 查阅了一圈,发现是VSCode版本自动更新惹的祸!!! 在VSCode的帮助->关于这里发现前几天VSCode自动更新了,我的版本号变成了1.100.3 才导致了远程连接出…...
DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...
2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面
代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口(适配服务端返回 Token) export const login async (code, avatar) > {const res await http…...
uniapp微信小程序视频实时流+pc端预览方案
方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…...
关于 WASM:1. WASM 基础原理
一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...
tree 树组件大数据卡顿问题优化
问题背景 项目中有用到树组件用来做文件目录,但是由于这个树组件的节点越来越多,导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多,导致的浏览器卡顿,这里很明显就需要用到虚拟列表的技术&…...
SQL慢可能是触发了ring buffer
简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...
Docker拉取MySQL后数据库连接失败的解决方案
在使用Docker部署MySQL时,拉取并启动容器后,有时可能会遇到数据库连接失败的问题。这种问题可能由多种原因导致,包括配置错误、网络设置问题、权限问题等。本文将分析可能的原因,并提供解决方案。 一、确认MySQL容器的运行状态 …...
FFmpeg avformat_open_input函数分析
函数内部的总体流程如下: avformat_open_input 精简后的代码如下: int avformat_open_input(AVFormatContext **ps, const char *filename,ff_const59 AVInputFormat *fmt, AVDictionary **options) {AVFormatContext *s *ps;int i, ret 0;AVDictio…...
