NLP 1、人工智能与NLP简介
人人都不看好你,可偏偏你最争气
—— 24.11.26
一、AI和NLP的基本介绍
1.人工智能发展流程
弱人工智能 ——> 强人工智能 ——> 超人工智能
① 弱人工智能
人工智能算法只能在限定领域解决特定的问题
eg:特定场景下的文本分类、垂直领域下的对话、银行卡卡号识别
② 强人工智能
在通用领域胜任人类所有的工作、一个模型处理不同工作
eg:各种大模型
③ 超人工智能
远超人类的智慧
目前AI技术的阶段:在弱人工智能与强人工智能发展间的阶段
2.人工智能 —— 研究方向
① 语音合成(TTS)
eg:语音播报能力、站点报时报点
② 语音识别(ASR)
说一句话将这段音频转为文字
eg:语音转文字
③ 字符识别(OCR)
从画面中识别一些特定的字符串、信息
eg:录入身份证/银行卡信息/违章识别
④ 机器翻译(MP)
自然语言处理的一种,将不同语言间进行翻译
eg:同声翻译
⑤ 图像识别(CV)
在一张图像中识别出具体的物体
eg:电商拍图搜索类似商品
⑥ 语义理解(NLU)
强大的语义理解,从文本中识别出具体语义
eg:对话机器人
⑦ 指纹识别(较为成熟)
通过指纹识别出不同的角色
⑧ 声纹识别(较为成熟)
通过声纹识别出不同的身份,而不用判断说的内容
3.人工智能、机器学习、深度学习间的关系
① 人工智能是一个较大的范畴
② 机器学习是实现人工智能的一种基本方法
③ 深度学习是机器学习的一个分支

4.人工智能(机器学习)—三驾马车
① 算法
② 算力(主要进步)
③ 数据(主要进步)
5.自然语言处理(NLP)
自然语言处理包含:语言学、数学、计算机科学三者交叉
自然语言处理的目标
① 人机交互
eg:问答搜索、闲聊回答、指令操作、机器翻译
辅助生活和工作,给生活带来便利,随着机器能力边界的提升其价值不断增加
② 数据分析/挖掘
eg:舆情分析、文本分类、知识抽取、命名实体识别
辅助决策和选择,给决策带来便利,随着数据量的增大和类别的增多其价值不断提升
二、算法行业介绍
1.算法相关的工作
Ⅰ 落地型
① 主要负责业务场景的算法落地,动手编程能力强
② 需要熟悉业务场景常见问题,极端情况的处理
③ 难点:小坑不断、需求改变、数据欠缺、效果不定
Ⅱ 研究型
① 主要负责发表论文及算法比赛等,理论知识扎实
② 研究内容可以脱离实际业务,在公开数据集上工作
③ 难点:需要创新思路、参加比赛获奖
2.项目人员构成
① 业务人员/甲方
一般是非程序员,根据业务场景需要,提出需求
② 产品经理
与业务对接、梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求
③ 开发人员
人工智能方向一般大致分成算法开发和工程开发,合作处理整个项目
④ 测试人员
专门进行测试,也可以进一步细分,一般也需要编程能力
⑤ 运维人员
机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况
⑥ Option(可选)
部署人员、数据标注人员、项目管理人员、平台维护人员
3.项目主要流程&算法开发职责
① 确认需求 —— 业务发起需求评审(进行沟通)
了解业务背景,以算法人员视角给出是否可行的意见
② 确认技术方案 —— 开发进行技术评审(算法方案+工程方案),根据需求制作方案
对问题的建模过程,需求转化为哪(几)种机器学习问题(或规则处理),需要哪些前置条件
③ 获取标注数据 —— 算法或业务提出数据需求
建立标注规范,校验数据格式,抽样评估效果 ,训练集验证集划分,搜索开源数据,购买数据
⭐④ 代码开发 —— 模型训练、功能开发等
训练/预测代码开发,算法实验,对比效果
⑤ 测试 —— 测试用例评审
功能测试、效果测试、性能测试,开发可以自测,配合测试组发现的问题做修改
⑥ 部署上线/投入使用 —— 开发上线,测试验证,运维监控
每个公司使用框架情况有所差异,根据实际情况处理
⑦ 后续迭代 —— 业务提出需求
数据埋点、分析日志等
4.算法工程师需要的技能
① 编程能力
② 算法知识储备
③ 沟通和协作能力
④ 学习能力
⑤ 一定程度的英文功能
⑥ 使用搜索引擎/大模型的能力
5.NLP面临的困难
① 口吃系列、划分语义边界
例:
校长说衣服上除了校徽别别别的
过几天天天天气不好
骑车出门差点摔跤,还好我一把把把把住了
碳碳键键能能否否定定律一
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
我背有点驼,麻麻说“你的背得背背背背佳“
② 分词系列、划分语义边界
例:
南京市长江大桥
一位友好的哥谭市民
乒乓球拍卖完了
③ 套娃系列、语言的递归性
例:
转发(自治区教育厅办公室关于转发教育部关于做好春夏季中小学生和幼儿安全工作的紧急通知》的通知》的通知
④ 同文歧义系列、常识认知、社会认知
例:
单身的原因有两个,一是谁都看不上,二是谁都看不上。
女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。
冬天:能穿多少穿多少。夏天:能穿多少穿多少
⑤ 反话正说系列、语序和语义的关联
例:
屡败屡战 屡战屡败
情理之中意料之外 意料之外情理之中
情有可原罪无可恕 罪无可恕情有可原
⑥ 崩溃系列
例:
领导:你这是什么意思?
小明:没什么意思,意思意思。
领导:你这就不够意思了。
小明:小意思,小意思。
领导:你这人真有意思。
小明:其实也没有别的意思。
领导:那我就不好意思了。
小明:是我不好意思。
⑦ 英语系列
例:
Kids
Watching a Model Train
Normal PeopleWatching aModel Train
Software Engineers
Watching amodel Train
NLP对于机器来说很困难,本质上是因为对人来说它也很困难
对语言的理解要远远难于对一些有着明确规则任务的理解
语言本身具有创造性,在不同时代和背景下进行不断地更新迭代
三、人工智能和深度学习的发展历程
1.人工智能的发展
① 起步发展期
1950~1960,人工智能诞生
eg:机器定理证明、智能跳棋程序
② 反思发展期
1960~1970,任务失败,目标落空
eg:机器翻译,笑话百出、定理证明,发展乏力
③ 应用发展期
1970~1980,专家系统遍地开发,人工智能转向实用
eg:医疗专家系统、化学专家系统、地质专家系统
④ 低迷发展期
1980~1990,多项研究发展缓慢
eg:专家系统发展乏力、神经网络研究受阻
⑤ 稳步发展期
1990~2010,互联网推到人工智能不断创新和实用
eg、深蓝战胜国际象棋冠军、IBM提出智慧地球、我国提出感知中国
⑥ 蓬勃发展期
2010至今,深度学习和大数据兴起带来了人工智能的爆发
物联网、云计算、大数据
2.NLP的发展历程
图灵测试 —— 如何判断机器是否拥有智能
1950年提出,是图灵的个人观点,并非当前业界的追求
测试方法
让机器人冒充人,与人展开对话,如果有超过30%的人误以为在是人类在和自己对话而非计算机,那就可以认为这台机器拥有人类智能
3.NLP的发展现状
① 深度学习大幅改变了NLP研究,极大地推进了NLP技术的发展
② NLP技术已经深入生活的各个角落,输入法(提示输入词)、语音助手、搜索引擎(浏览器,用相关文字查找到有关的网页)、智能客服(智能电话)等大量依赖NLP技术的应用已经被推广和使用
③ 大语言模型的强大理解能力,让人们看到了强人工智能的曙光
四、一些NLP常用的工具和框架介绍
1.编译器
Pycharm、VSCode
2.机器学习相关python框架
① Tensorflow
工程配套完善
② Pytorch
调试方便,目前的主流
③ Keras
高级封装,简单好用,现已和Tensorflow合体
④ Gensim
训练词向量常用
⑤ Sklearn
大量机器学习算法,如逻辑回归、决策树、支持向量机、随机森林、KMeans等等,同时具有数据集划分和各种评价指标的实现
⑥ Numpy
各种向量矩阵操作
多多调用库进行代码编写
相关文章:
NLP 1、人工智能与NLP简介
人人都不看好你,可偏偏你最争气 —— 24.11.26 一、AI和NLP的基本介绍 1.人工智能发展流程 弱人工智能 ——> 强人工智能 ——> 超人工智能 ① 弱人工智能 人工智能算法只能在限定领域解决特定的问题 eg:特定场景下的文本分类、垂直领域下的对…...
常见线程安全问题之Double Checked Locking
创作内容丰富的干货文章很费心力,感谢点过此文章的读者,点一个关注鼓励一下作者,激励他分享更多的精彩好文,谢谢大家! 双重锁定检查(Double Checked Locking,下称 DCL)是并发下实现懒…...
Redis(非关系型数据库)的作用 详细解读
edis(Remote Dictionary Server)是一个开源的、高性能的、基于内存的数据结构存储系统。它具有极高的读写性能,并且能够支持多种数据结构的存储。Redis 最初的设计目标是作为一个缓存解决方案,但随着其功能的不断扩展,…...
互联网视频推拉流EasyDSS视频直播点播平台视频转码有哪些技术特点和应用?
视频转码本质上是一个先解码再编码的过程。在转码过程中,原始视频码流首先被解码成原始图像数据,然后再根据目标编码标准、分辨率、帧率、码率等参数重新进行编码。这样,转换前后的码流可能遵循相同的视频编码标准,也可能不遵循。…...
python之多元线性回归
目录 前言实战 前言 多元线性回归是回归分析中的一种复杂模型,它考虑了多个输入变量对输出变量的影响。与一元线性回归不同,多元线性回归通过引入多个因素,更全面地建模了系统关系。 多元线性回归模型的表达式为: f ( X ) K T …...
学习threejs,使用设置lightMap光照贴图创建阴影效果
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshLambertMaterial…...
一,SQL注入解题(猫舍)
封神台 第一章:为了女神小芳! Tips: 通过sql注入拿到管理员密码! 尤里正在追女神小芳,在得知小芳开了一家公司后,尤里通过whois查询发现了小芳公司网站 学过一点黑客技术的他,想在女神面前炫炫技。于是他…...
海康大华宇视视频平台EasyCVR私有化部署视频平台海康ISUP是什么?如何接入到EasyCVR?
在现代安防领域,随着技术的发展和需求的增加,对于视频监控系统的远程管理和互联互通能力提出了更高的要求。海康威视的ISUP协议(以及功能相似的EHOME协议)因此应运而生,它们为不具备固定IP接入的设备提供了一种有效的中…...
Java ArrayList 与顺序表:在编程海洋中把握数据结构的关键之锚
我的个人主页 我的专栏:Java-数据结构,希望能帮助到大家!!!点赞❤ 收藏❤ 前言:在 Java编程的广袤世界里,数据结构犹如精巧的建筑蓝图,决定着程序在数据处理与存储时的效率、灵活性以…...
windows下安装wsl的ubuntu,同时配置深度学习环境
写在前面,本次文章只是个人学习记录,不具备教程的作用。个别信息是网上的,我会标注,个人是gpt生成的 安装wsl 直接看这个就行;可以不用备份软件源。 https://blog.csdn.net/weixin_44301630/article/details/1223900…...
开展网络安全成熟度评估:业务分析师的工具和技术
想象一下,您坐在飞机驾驶舱内。起飞前,您需要确保所有系统(从发动机到导航工具)均正常运行。现在,将您的业务视为飞机,将网络安全视为飞行前必须检查的系统。就像飞行员依赖检查表一样,业务分析师使用网络安全成熟度评估来评估组织对网络威胁的准备程度。这些评估可帮助…...
Maven Surefire 插件简介
Maven Surefire 插件是 Maven 构建系统中的一个关键组件,专门用于在构建生命周期中执行单元测试。 它通常与 Maven 构建生命周期的测试阶段绑定,确保所有单元测试在项目编译后和打包前被执行。 最新版本 Maven Surefire 插件的最新版本为 3.5.2。 使…...
基于微信小程序的平价药房管理系统+LW参考示例
1.项目介绍 系统角色:管理员、医生、普通用户功能模块:用户管理、医生管理、药品分类管理、药品信息管理、在线问诊管理、生活常识管理、日常提醒管理、过期处理、订单管理等技术选型:SpringBoot,Vue,uniapp等测试环境…...
react 前端最后阶段静态服务器启动命令
这个错误是因为你还没有安装 serve 工具。让我们一步步解决: 首先全局安装 serve: npm install -g serve如果上面的命令报错,可能是因为权限问题,可以尝试: 安装完成后,再运行: Windows 下使用…...
Flink中普通API的使用
本篇文章从Source、Transformation(转换因子)、sink这三个地方进行讲解 Source: 创建DataStream本地文件SocketKafka Transformation(转换因子): mapFlatMapFilterKeyByReduceUnion和connectSide Outpu…...
高性能 ArkUI 应用开发:复杂 UI 场景中的内存管理与 XML 优化
本文旨在深入探讨华为鸿蒙HarmonyOS Next系统(截止目前API12)的技术细节,基于实际开发实践进行总结。 主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。 本文为原创内容,任何形式的转载必须注明出处及原作者。 在开发高性能 ArkUI 应…...
用天翼云搭建一个HivisionIDPhoto证件照处理网站
世人不必记我,我不记世人。 HivisionIDPhoto证件照处理网站 世人不必记我,我不记世人。项目地址项目搭建与修改前端后端遇到的坑 成果图 前段时间工作需要频繁处理证件照,当时同事推荐一个证件照小程序(要看广告)&…...
【算法一周目】滑动窗口(2)
目录 水果成篮 解题思路 代码实现 找到字符串中所有字母异位词 解题思路 代码实现 串联所有单词的子串 解题思路 代码实现 最小覆盖子串 解题思路 代码实现 水果成篮 题目链接:904. 水果成篮 题目描述: 你正在探访一家农场,农场…...
Zustand:一个轻量级的React状态管理库
文章目录 前言一、安装Zustand二、使用Zustand三、实际案例结语 前言 在现代Web开发中,状态管理是一个常见的需求,特别是在构建大型或复杂的单页面应用程序(SPA)时。React等框架虽然提供了基本的状态管理功能,但对于复…...
C++练级计划->《单例模式》懒汉和饿汉
目录 单例模式是什么? 单例模式的应用: 饿汉单例模式: 1.实现: 2.理解: 懒汉单例模式: 1.实现: 2.理解: 懒汉和饿汉的优缺点 饿汉模式的优点: 饿汉模式的缺点&a…...
接口测试中缓存处理策略
在接口测试中,缓存处理策略是一个关键环节,直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性,避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明: 一、缓存处理的核…...
华为云AI开发平台ModelArts
华为云ModelArts:重塑AI开发流程的“智能引擎”与“创新加速器”! 在人工智能浪潮席卷全球的2025年,企业拥抱AI的意愿空前高涨,但技术门槛高、流程复杂、资源投入巨大的现实,却让许多创新构想止步于实验室。数据科学家…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...
蓝牙 BLE 扫描面试题大全(2):进阶面试题与实战演练
前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1):从基础到实战的深度解析-CSDN博客,但实际面试中,企业更关注候选人对复杂场景的应对能力(如多设备并发扫描、低功耗与高发现率的平衡)和前沿技术的…...
C#中的CLR属性、依赖属性与附加属性
CLR属性的主要特征 封装性: 隐藏字段的实现细节 提供对字段的受控访问 访问控制: 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性: 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑: 可以…...
Java数值运算常见陷阱与规避方法
整数除法中的舍入问题 问题现象 当开发者预期进行浮点除法却误用整数除法时,会出现小数部分被截断的情况。典型错误模式如下: void process(int value) {double half = value / 2; // 整数除法导致截断// 使用half变量 }此时...
站群服务器的应用场景都有哪些?
站群服务器主要是为了多个网站的托管和管理所设计的,可以通过集中管理和高效资源的分配,来支持多个独立的网站同时运行,让每一个网站都可以分配到独立的IP地址,避免出现IP关联的风险,用户还可以通过控制面板进行管理功…...
【从零开始学习JVM | 第四篇】类加载器和双亲委派机制(高频面试题)
前言: 双亲委派机制对于面试这块来说非常重要,在实际开发中也是经常遇见需要打破双亲委派的需求,今天我们一起来探索一下什么是双亲委派机制,在此之前我们先介绍一下类的加载器。 目录 编辑 前言: 类加载器 1. …...
论文阅读:Matting by Generation
今天介绍一篇关于 matting 抠图的文章,抠图也算是计算机视觉里面非常经典的一个任务了。从早期的经典算法到如今的深度学习算法,已经有很多的工作和这个任务相关。这两年 diffusion 模型很火,大家又开始用 diffusion 模型做各种 CV 任务了&am…...
书籍“之“字形打印矩阵(8)0609
题目 给定一个矩阵matrix,按照"之"字形的方式打印这个矩阵,例如: 1 2 3 4 5 6 7 8 9 10 11 12 ”之“字形打印的结果为:1,…...
