当前位置: 首页 > news >正文

NLP 1、人工智能与NLP简介

人人都不看好你,可偏偏你最争气

                                        —— 24.11.26

一、AI和NLP的基本介绍

1.人工智能发展流程

弱人工智能 ——> 强人工智能 ——> 超人工智能

① 弱人工智能

人工智能算法只能在限定领域解决特定的问题

eg:特定场景下的文本分类、垂直领域下的对话、银行卡卡号识别

② 强人工智能

通用领域胜任人类所有的工作、一个模型处理不同工作

eg:各种大模型

③ 超人工智能

远超人类的智慧

目前AI技术的阶段:在弱人工智能与强人工智能发展间的阶段


2.人工智能 —— 研究方向

① 语音合成(TTS)

eg:语音播报能力、站点报时报点

② 语音识别(ASR)

说一句话将这段音频转为文字

eg:语音转文字

③ 字符识别(OCR)

从画面中识别一些特定的字符串、信息

eg:录入身份证/银行卡信息/违章识别

④ 机器翻译(MP)

自然语言处理的一种,将不同语言间进行翻译

eg:同声翻译

⑤ 图像识别(CV)

在一张图像中识别出具体的物体

eg:电商拍图搜索类似商品

⑥ 语义理解(NLU)

强大的语义理解,从文本中识别出具体语义

eg:对话机器人

⑦ 指纹识别(较为成熟)

通过指纹识别出不同的角色

⑧ 声纹识别(较为成熟)

通过声纹识别出不同的身份,而不用判断说的内容


3.人工智能、机器学习、深度学习间的关系

① 人工智能是一个较大的范畴

② 机器学习是实现人工智能的一种基本方法

③ 深度学习是机器学习的一个分支


4.人工智能(机器学习)—三驾马车

① 算法

② 算力(主要进步)

③ 数据(主要进步)


5.自然语言处理(NLP)

自然语言处理包含:语言学、数学、计算机科学三者交叉

自然语言处理的目标

① 人机交互

eg:问答搜索、闲聊回答、指令操作、机器翻译

辅助生活和工作,给生活带来便利,随着机器能力边界的提升其价值不断增加

② 数据分析/挖掘

eg:舆情分析、文本分类、知识抽取、命名实体识别

辅助决策和选择,给决策带来便利,随着数据量的增大和类别的增多其价值不断提升


二、算法行业介绍

1.算法相关的工作

Ⅰ 落地型

① 主要负责业务场景的算法落地,动手编程能力强

② 需要熟悉业务场景常见问题,极端情况的处理

③ 难点:小坑不断、需求改变、数据欠缺、效果不定

Ⅱ 研究型

① 主要负责发表论文及算法比赛等,理论知识扎实

② 研究内容可以脱离实际业务,在公开数据集上工作

③ 难点:需要创新思路、参加比赛获奖


2.项目人员构成

① 业务人员/甲方

一般是非程序员,根据业务场景需要,提出需求

② 产品经理

与业务对接、梳理需求,整理成开发的计划;或根据用户反馈等,提出自己的需求

③ 开发人员

人工智能方向一般大致分成算法开发工程开发,合作处理整个项目

④ 测试人员

专门进行测试,也可以进一步细分,一般也需要编程能力

⑤ 运维人员

机器维护人员,服务器和数据库的重启、扩容、缩容等操作由他们进行,同时负责监控服务运行的状况

⑥ Option(可选)

部署人员、数据标注人员、项目管理人员、平台维护人员


3.项目主要流程&算法开发职责

① 确认需求 —— 业务发起需求评审(进行沟通)

了解业务背景,以算法人员视角给出是否可行的意见

② 确认技术方案 —— 开发进行技术评审(算法方案+工程方案),根据需求制作方案

对问题的建模过程,需求转化为哪(几)种机器学习问题(或规则处理),需要哪些前置条件

③ 获取标注数据 —— 算法或业务提出数据需求

建立标注规范,校验数据格式,抽样评估效果 ,训练集验证集划分,搜索开源数据,购买数据

⭐④ 代码开发 —— 模型训练、功能开发

训练/预测代码开发,算法实验,对比效果

⑤ 测试 —— 测试用例评审

功能测试、效果测试、性能测试,开发可以自测,配合测试组发现的问题做修改

⑥ 部署上线/投入使用 —— 开发上线,测试验证,运维监控

每个公司使用框架情况有所差异,根据实际情况处理

⑦ 后续迭代 —— 业务提出需求

数据埋点、分析日志等


4.算法工程师需要的技能

① 编程能力

② 算法知识储备

③ 沟通和协作能力

④ 学习能力

⑤ 一定程度的英文功能

⑥ 使用搜索引擎/大模型的能力


5.NLP面临的困难

① 口吃系列、划分语义边界

例:

校长说衣服上除了校徽别别别的

过几天天天天气不好

骑车出门差点摔跤,还好我一把把把把住了

碳碳键键能能否否定定律一

来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”

我背有点驼,麻麻说“你的背得背背背背佳“

② 分词系列、划分语义边界

例:

南京市长江大桥

一位友好的哥谭市民

乒乓球拍卖完了

③ 套娃系列、语言的递归性

例:

转发(自治区教育厅办公室关于转发教育部关于做好春夏季中小学生和幼儿安全工作的紧急通知》的通知》的通知

④ 同文歧义系列、常识认知、社会认知

例:

单身的原因有两个,一是谁都看不上,二是谁都看不上。

女孩给男朋友打电话:如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。

冬天:能穿多少穿多少。夏天:能穿多少穿多少

⑤ 反话正说系列、语序和语义的关联

例:

屡败屡战 屡战屡败

情理之中意料之外 意料之外情理之中

情有可原罪无可恕 罪无可恕情有可原

 ⑥ 崩溃系列

例:

领导:你这是什么意思?

小明:没什么意思,意思意思。

领导:你这就不够意思了。

小明:小意思,小意思。

领导:你这人真有意思。

小明:其实也没有别的意思。

领导:那我就不好意思了。

小明:是我不好意思。

⑦ 英语系列

例:

Kids
Watching a Model Train
Normal People

Watching aModel Train

Software Engineers
Watching amodel Train

NLP对于机器来说很困难,本质上是因为对人来说它也很困难

对语言的理解要远远难于对一些有着明确规则任务的理解

语言本身具有创造性,在不同时代和背景下进行不断地更新迭代


三、人工智能和深度学习的发展历程

1.人工智能的发展

① 起步发展期

1950~1960,人工智能诞生

eg:机器定理证明、智能跳棋程序

② 反思发展期

1960~1970,任务失败,目标落空

eg:机器翻译,笑话百出、定理证明,发展乏力

③ 应用发展期

1970~1980,专家系统遍地开发,人工智能转向实用

eg:医疗专家系统、化学专家系统、地质专家系统

④ 低迷发展期

1980~1990,多项研究发展缓慢

eg:专家系统发展乏力、神经网络研究受阻

⑤ 稳步发展期

1990~2010,互联网推到人工智能不断创新和实用

eg、深蓝战胜国际象棋冠军、IBM提出智慧地球、我国提出感知中国

⑥ 蓬勃发展期

2010至今,深度学习和大数据兴起带来了人工智能的爆发

物联网、云计算、大数据


2.NLP的发展历程

图灵测试 —— 如何判断机器是否拥有智能

1950年提出,是图灵的个人观点,并非当前业界的追求

测试方法

让机器人冒充人,与人展开对话,如果有超过30%的人误以为在是人类在和自己对话而非计算机,那就可以认为这台机器拥有人类智能


3.NLP的发展现状

① 深度学习大幅改变了NLP研究,极大地推进了NLP技术的发展

② NLP技术已经深入生活的各个角落,输入法(提示输入词)、语音助手、搜索引擎(浏览器,用相关文字查找到有关的网页)、智能客服(智能电话)等大量依赖NLP技术的应用已经被推广和使用

③ 大语言模型的强大理解能力,让人们看到了强人工智能的曙光


四、一些NLP常用的工具和框架介绍

1.编译器

Pycharm、VSCode

2.机器学习相关python框架

① Tensorflow

工程配套完善

② Pytorch

调试方便,目前的主流

③ Keras

高级封装,简单好用,现已和Tensorflow合体

④ Gensim

训练词向量常用

⑤ Sklearn

大量机器学习算法,如逻辑回归、决策树、支持向量机、随机森林、KMeans等等,同时具有数据集划分和各种评价指标的实现

⑥ Numpy

各种向量矩阵操作

多多调用库进行代码编写

相关文章:

NLP 1、人工智能与NLP简介

人人都不看好你,可偏偏你最争气 —— 24.11.26 一、AI和NLP的基本介绍 1.人工智能发展流程 弱人工智能 ——> 强人工智能 ——> 超人工智能 ① 弱人工智能 人工智能算法只能在限定领域解决特定的问题 eg:特定场景下的文本分类、垂直领域下的对…...

常见线程安全问题之Double Checked Locking

创作内容丰富的干货文章很费心力,感谢点过此文章的读者,点一个关注鼓励一下作者,激励他分享更多的精彩好文,谢谢大家! 双重锁定检查(Double Checked Locking,下称 DCL)是并发下实现懒…...

Redis(非关系型数据库)的作用 详细解读

edis(Remote Dictionary Server)是一个开源的、高性能的、基于内存的数据结构存储系统。它具有极高的读写性能,并且能够支持多种数据结构的存储。Redis 最初的设计目标是作为一个缓存解决方案,但随着其功能的不断扩展,…...

互联网视频推拉流EasyDSS视频直播点播平台视频转码有哪些技术特点和应用?

视频转码本质上是一个先解码再编码的过程。在转码过程中,原始视频码流首先被解码成原始图像数据,然后再根据目标编码标准、分辨率、帧率、码率等参数重新进行编码。这样,转换前后的码流可能遵循相同的视频编码标准,也可能不遵循。…...

python之多元线性回归

目录 前言实战 前言 多元线性回归是回归分析中的一种复杂模型,它考虑了多个输入变量对输出变量的影响。与一元线性回归不同,多元线性回归通过引入多个因素,更全面地建模了系统关系。 多元线性回归模型的表达式为: f ( X ) K T …...

学习threejs,使用设置lightMap光照贴图创建阴影效果

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshLambertMaterial…...

一,SQL注入解题(猫舍)

封神台 第一章:为了女神小芳! Tips: 通过sql注入拿到管理员密码! 尤里正在追女神小芳,在得知小芳开了一家公司后,尤里通过whois查询发现了小芳公司网站 学过一点黑客技术的他,想在女神面前炫炫技。于是他…...

海康大华宇视视频平台EasyCVR私有化部署视频平台海康ISUP是什么?如何接入到EasyCVR?

在现代安防领域,随着技术的发展和需求的增加,对于视频监控系统的远程管理和互联互通能力提出了更高的要求。海康威视的ISUP协议(以及功能相似的EHOME协议)因此应运而生,它们为不具备固定IP接入的设备提供了一种有效的中…...

Java ArrayList 与顺序表:在编程海洋中把握数据结构的关键之锚

我的个人主页 我的专栏:Java-数据结构,希望能帮助到大家!!!点赞❤ 收藏❤ 前言:在 Java编程的广袤世界里,数据结构犹如精巧的建筑蓝图,决定着程序在数据处理与存储时的效率、灵活性以…...

windows下安装wsl的ubuntu,同时配置深度学习环境

写在前面,本次文章只是个人学习记录,不具备教程的作用。个别信息是网上的,我会标注,个人是gpt生成的 安装wsl 直接看这个就行;可以不用备份软件源。 https://blog.csdn.net/weixin_44301630/article/details/1223900…...

开展网络安全成熟度评估:业务分析师的工具和技术

想象一下,您坐在飞机驾驶舱内。起飞前,您需要确保所有系统(从发动机到导航工具)均正常运行。现在,将您的业务视为飞机,将网络安全视为飞行前必须检查的系统。就像飞行员依赖检查表一样,业务分析师使用网络安全成熟度评估来评估组织对网络威胁的准备程度。这些评估可帮助…...

Maven Surefire 插件简介

Maven Surefire 插件是 Maven 构建系统中的一个关键组件,专门用于在构建生命周期中执行单元测试。 它通常与 Maven 构建生命周期的测试阶段绑定,确保所有单元测试在项目编译后和打包前被执行。 最新版本 Maven Surefire 插件的最新版本为 3.5.2。 使…...

基于微信小程序的平价药房管理系统+LW参考示例

1.项目介绍 系统角色:管理员、医生、普通用户功能模块:用户管理、医生管理、药品分类管理、药品信息管理、在线问诊管理、生活常识管理、日常提醒管理、过期处理、订单管理等技术选型:SpringBoot,Vue,uniapp等测试环境…...

react 前端最后阶段静态服务器启动命令

这个错误是因为你还没有安装 serve 工具。让我们一步步解决: 首先全局安装 serve: npm install -g serve如果上面的命令报错,可能是因为权限问题,可以尝试: 安装完成后,再运行: Windows 下使用…...

Flink中普通API的使用

本篇文章从Source、Transformation(转换因子)、sink这三个地方进行讲解 Source: 创建DataStream本地文件SocketKafka Transformation(转换因子): mapFlatMapFilterKeyByReduceUnion和connectSide Outpu…...

高性能 ArkUI 应用开发:复杂 UI 场景中的内存管理与 XML 优化

本文旨在深入探讨华为鸿蒙HarmonyOS Next系统(截止目前API12)的技术细节,基于实际开发实践进行总结。 主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。 本文为原创内容,任何形式的转载必须注明出处及原作者。 在开发高性能 ArkUI 应…...

用天翼云搭建一个HivisionIDPhoto证件照处理网站

世人不必记我,我不记世人。 HivisionIDPhoto证件照处理网站 世人不必记我,我不记世人。项目地址项目搭建与修改前端后端遇到的坑 成果图 前段时间工作需要频繁处理证件照,当时同事推荐一个证件照小程序(要看广告)&…...

【算法一周目】滑动窗口(2)

目录 水果成篮 解题思路 代码实现 找到字符串中所有字母异位词 解题思路 代码实现 串联所有单词的子串 解题思路 代码实现 最小覆盖子串 解题思路 代码实现 水果成篮 题目链接:904. 水果成篮 题目描述: 你正在探访一家农场,农场…...

Zustand:一个轻量级的React状态管理库

文章目录 前言一、安装Zustand二、使用Zustand三、实际案例结语 前言 在现代Web开发中,状态管理是一个常见的需求,特别是在构建大型或复杂的单页面应用程序(SPA)时。React等框架虽然提供了基本的状态管理功能,但对于复…...

C++练级计划->《单例模式》懒汉和饿汉

目录 单例模式是什么? 单例模式的应用: 饿汉单例模式: 1.实现: 2.理解: 懒汉单例模式: 1.实现: 2.理解: 懒汉和饿汉的优缺点 饿汉模式的优点: 饿汉模式的缺点&a…...

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外,K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案,全安装在K8S群集中。 具体可参…...

爬虫基础学习day2

# 爬虫设计领域 工商:企查查、天眼查短视频:抖音、快手、西瓜 ---> 飞瓜电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空:抓取所有航空公司价格 ---> 去哪儿自媒体:采集自媒体数据进…...

全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...

《C++ 模板》

目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板,就像一个模具,里面可以将不同类型的材料做成一个形状,其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式:templa…...

Java毕业设计:WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现 一、系统概述 本系统基于Java和WML(无线标记语言)技术开发,实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构,服务器端使用Java Servlet处理请求,数据库采用MySQL存储信息&#xff0…...

逻辑回归暴力训练预测金融欺诈

简述 「使用逻辑回归暴力预测金融欺诈,并不断增加特征维度持续测试」的做法,体现了一种逐步建模与迭代验证的实验思路,在金融欺诈检测中非常有价值,本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

脑机新手指南(七):OpenBCI_GUI:从环境搭建到数据可视化(上)

一、OpenBCI_GUI 项目概述 (一)项目背景与目标 OpenBCI 是一个开源的脑电信号采集硬件平台,其配套的 OpenBCI_GUI 则是专为该硬件设计的图形化界面工具。对于研究人员、开发者和学生而言,首次接触 OpenBCI 设备时,往…...

redis和redission的区别

Redis 和 Redisson 是两个密切相关但又本质不同的技术,它们扮演着完全不同的角色: Redis: 内存数据库/数据结构存储 本质: 它是一个开源的、高性能的、基于内存的 键值存储数据库。它也可以将数据持久化到磁盘。 核心功能: 提供丰…...

Python实现简单音频数据压缩与解压算法

Python实现简单音频数据压缩与解压算法 引言 在音频数据处理中,压缩算法是降低存储成本和传输效率的关键技术。Python作为一门灵活且功能强大的编程语言,提供了丰富的库和工具来实现音频数据的压缩与解压。本文将通过一个简单的音频数据压缩与解压算法…...