当前位置: 首页 > news >正文

读十堂极简人工智能课笔记06_自然语言处理

1. 聊天机器人

1.1. 人工智能往往掌握不了跨越几段对话语境的讨论

1.1.1. 抓不住连贯的主题,只能单独处理每个句子

1.1.2. 不能将其答案与现实联系起来

1.1.3. 可能会遵循语言规则、统计相关性,甚至查找有关事实来为每个新句子提供答复

1.2. 聊天机器人只是在模拟对话

1.2.1. 操纵着符号,却不了解这些符号的含义

1.2.2. 约翰·塞尔的中文房间论证

1.3. 哲学家深刻地关心真实性的问题,但商业世界并不关心

1.3.1. 对商界来说,重要的是结果,而不是产生这个结果的过程

1.4. 在现实世界的应用中

1.4.1. 一个能自动提供在线客户服务的聊天机器人

1.4.2. 一个能利用产品知识数据库回答客户问题的聊天机器人

1.4.3. 企业必不可少的工具

1.4.3.1. 能让真人腾出手来处理难度更大的咨询

2. 语言规则

2.1. 在自然语言处理领域,诺姆·乔姆斯基是其发展史上的关键人物

2.1.1. 美国语言学家、哲学家

2.1.2. 认知科学领域(关于思维及其能力的科学研究)的创始人之一

2.1.3. 最著名的一大成果是通用语法

2.1.3.1. 在研究儿童的语言能力发展后总结出来的理论
2.1.3.2. 儿童虽然能够学会流利地说话,但他们在学习过程里其实根本没有接收到足够的信息
2.1.3.2.1. 所谓的“刺激的贫乏”
2.1.3.3. 儿童能够发展语言技能的唯一途径是他们拥有先天的沟通能力,在他们的大脑中本来就有相关的连接
2.1.3.4. 先天的语言能力可以被认为是一套语言规则,即一套通用语法
2.1.3.5. 这一想法发展为转换——生成语法的理论,也就是使用“形式语法”来描述嵌入不同语言中的规则,让人们能够比较这些语言
2.1.3.6. 这一思想在20世纪50至70年代主导了语言学,而这正是人工智能研究者开始尝试让计算机处理文字的时候

2.2. 乔姆斯基的层级结构

2.2.1. 所有形式化语法都是第0型,或无限制型(最一般的类型)

2.2.2. 只有一部分第0型语法同时也是第1型

2.2.2.1. 上下文敏感型
2.2.2.2. 这类词根据上下文可能只适合放在某个地方

2.2.3. 只有一部分第1型语法同时也是第2型

2.2.3.1. 上下文自由型
2.2.3.2. 大多数计算机编程语言的设计方式
2.2.3.3. 语句中不能有任何歧义

2.2.4. 只有一部分第2型语法同时也是第3型

2.2.4.1. 其定义的规则语言是如此简单和狭窄,以至于有限状态机都可以理解它们

2.3. 自然语言处理就是聊天机器人内部的符号人工智能

2.3.1. 目的是弄清怎么处理书面文字

2.4. 早期的聊天机器人广泛使用了乔姆斯基的理论,人们可以据此开发出清晰而精确的语言规则

2.5. 正是通过自然语言处理,研究人员现在可以将成千上万互相独立的科学论文整合对照,得出人类无法实现的新发现

3. 语料库语言学

3.1. 随着世界上越来越多的知识、商业活动和社交互动转移到互联网上,人类之间对话的数据量也有了指数级增长

3.2. 这些数据的第一个用途,是通过一种叫作决策树的人工智能方法,自动生成语言规则

3.3. 决策树流行的原因是,它们很容易理解

3.3.1. 与神经网络方法不同的是,神经网络像“黑箱”

3.3.1.1. 你不知道信息是如何存储的,也不知道决策是如何做出的

3.3.2. 在决策树中,你可以看清整个过程

3.3.2.1. 决策树就像用于机器人控制的行为树

3.4. 过度拟合

3.4.1. 人工智能学到的模型过于贴合训练数据,而不能泛化应用到新数据上

3.5. 随机森林就是把一组决策树结合在一起使用,每一个决策树都是在较小的数据子集上训练出来的,以防止过度拟合

3.6. Word2Vec

3.6.1. 目前最受欢迎的方法之一

3.6.2. 使用简单的神经网络与大量的数据来学习哪些词语的组合倾向于出现在彼此靠近的地方

3.6.3. 可以从一组上下文词汇中预测中间的词可能是什么

3.6.4. 从一个中间的词预测一组可能的上下文词汇

3.7. 卷积神经网络、强化学习和其他类型的循环神经网络、递归神经网络、注意力机制和生成模型,这都有助于计算机理解跨越多个句子的概念,并生成更好的回复

4. 交流

4.1. 人类毕竟是社会动物,我们喜欢交谈

4.1.1. 我们喜欢把字眼安排在无限变化的句子中,每个句子的含义都略有不同

4.2. 人工智能能理解文字已经难能可贵

4.2.1. 苹果的Siri、微软的Cortana、亚马逊的Echo和谷歌的Assistant都是人类现有的最复杂算法的组合

4.3. 用于交流的人工智能并不总是特别可靠

4.3.1. 只要问它们一些意想不到的问题,或者用系统没有训练过的口音提问,即使是精巧的技术也会失败

4.4. 机器不可能总是听清每个声音

4.4.1. 人工智能会将初始的理解修正为人们更有可能说出来的话语

4.4.2. 毕竟大多数人每天都会说很多相同的话

4.5. 除了几百万美元的云计算成本外,它们的碳足迹可能与五辆汽车的整个生命周期一样高

4.6. 虽然人工智能技术在训练结束后的应用可能会很高效,但创造人工智能的过程并不高效或便宜

4.7. 人工智能的许多最新研究都忽视了效率问题

4.7.1. 因为人们发现规模极大的神经网络对多种多样的任务都很有用,那些拥有丰富计算资源的公司和机构可以利用这一点来获得竞争优势

4.8. Tay

4.8.1. 2016年3月23日推出

4.8.2. 微软在2016年探索过一个方案:利用众包来提供数据,帮助他们的推特聊天机器人学习

4.8.3. 仅仅16个小时后就被匆忙关闭

4.8.4. 网友教给Tay各种粗话和与毒品相关的语句,然后它顺理成章地把这些语句推送给了众多关注者

4.9. 伪装成人类的聊天机器人可以给我们发送一些具有针对性的广告或政治信息

4.10. 舆论意见可以由此被监测和管理

4.11. 我们获取信息的方式也是由人工智能策划的

4.12. 推荐系统会监测我们在移动设备上喜欢阅读哪些内容,并向我们推送更多类似的内容,让我们看到的世界变得更加狭窄,由此进一步加强我们的偏见

4.12.1. 那些不受欢迎的政权更容易控制人民,民粹领袖也更容易赢得权力

4.13. 通过人工智能,才可以真正了解千百万人民的意见和看法,并帮助政治家和机构更好地满足人民的需求

4.14. 所有的新技术都可能被用于为善或作恶

4.14.1. 我们需要意识到人工智能的影响,并确保它得到恰当的应用

相关文章:

读十堂极简人工智能课笔记06_自然语言处理

1. 聊天机器人 1.1. 人工智能往往掌握不了跨越几段对话语境的讨论 1.1.1. 抓不住连贯的主题,只能单独处理每个句子 1.1.2. 不能将其答案与现实联系起来 1.1.3. 可能会遵循语言规则、统计相关性,甚至查找有关事实来为每个新句子提供答复 1.2. 聊天机…...

Linux文件信息,drwxr-xr-x. 2 root root 6 Jan 30 17:42 Desktop

drwxr-xr-x. 2 root root 6 Jan 30 17:42 Desktop drwxr-xr-x. drwxr-xr-x.d是文件类型rwx r-x r-x9位,每3位一组,一共3组,代表基本权限第一组 文件的创建者 | 拥有者第二组 和拥有者在一个组中第三组 其他用户rread,读的权限ww…...

深入理解Promise:用法和面试问题解析

引言 在现代的异步JavaScript编程中,Promise是一个强大的工具,用于更优雅地处理异步操作。本文将深入探讨Promise的具体用法,并提供一些在面试中可能遇到的问题及其答案。 Promise的基本用法 Promise是一个代表异步操作最终完成或失败的对…...

css2背景

css2背景 一.背景颜色二.背景图片三.背景平铺四.背景图片位置五.背景图像固定六.复合型写法七.背景颜色半透明八.总结 一.背景颜色 默认是transparent(透明) 二.背景图片 默认是none 三.背景平铺 默认是background-repeat(平铺) 四.背景图片位置…...

KUKA库卡机器人编程语言是什么?

KUKA库卡机器人的编程语言主要是KUKA Robot Language(简称KRL)。KRL是库卡机器人专门为其机器人系统设计的编程语言,用于编写和控制KUKA工业机器人的运动和操作。KRL结合了指令式编程和结构化编程的特点,具有一定的易学性和灵活性…...

Django学习全纪录:Django视图和路由的配置,应用的创建以及注册

导言 在之前的文章中,我们已经将Django的环境部署完成,包括一些注意事项以及前期工作,都已经完成。这篇文章,我们就可以正式开始干活了。 学习目标 1、学习创建应用以及注册APP 2、初步认识视图和路由,以及编写简单的代码 3、启动应用观察变化 创建第一个应用(APP) …...

LabVIEW卫星电视接收仿真系统

LabVIEW卫星电视接收仿真系统 随着卫星电视数字化的加速,传统模拟信号接收系统已无法满足需求。设计一套船载数字卫星电视接收系统,通过LabVIEW环境进行仿真实验,验证系统设计的可行性与有效性,满足数字信号接收的高精度要求&…...

docker修改工作目录

开始之前请务必给服务器打快照!!! 开始之前请务必给服务器打快照!!! 开始之前请务必给服务器打快照!!! docker 默认安装在 /var/lib/docker 目录下 $ docker info | g…...

Ps:统计

Ps菜单:文件/脚本/统计 Scripts/Statistics 统计 Statistics脚本命令提供了一种高效的方法来处理和分析大量图像,使用户能够自动执行复杂的图像分析任务,并在多个图像间应用统计学方法。这个功能极大地扩展了 Photoshop 在科学研究、图像编辑…...

java生成pdf

1.pdf预览 2.maven <!--pdf--><dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.9</version></dependency><dependency><groupId>com.itextpdf</groupId>…...

鸿蒙应用/元服务开发-窗口概述

一、窗口模块的定义 窗口模块用于在同一块物理屏幕上&#xff0c;提供多个应用界面显示、交互的机制。 对应用开发者而言&#xff0c;窗口模块提供了界面显示和交互能力。 对终端用户而言&#xff0c;窗口模块提供了控制应用界面的方式。 对整个操作系统而言&#xff0c;窗…...

引入成熟的Pytest自动化测试框架

虽然我们能使用脚本编写自动化测试框架&#xff0c;但没有必要重复找车轮子&#xff0c;引入成熟的自动化测试框架即可&#xff0c; Pytest是目前最成熟、功能最全面的Python测试框架之一&#xff0c;简单灵活、易于上手&#xff0c;可完全兼容其他测试框架如unitest&#xff…...

学习总结18

# 营救 ## 题目背景 “咚咚咚……”“查水表&#xff01;”原来是查水表来了&#xff0c;现在哪里找这么热心上门的查表员啊&#xff01;小明感动得热泪盈眶&#xff0c;开起了门…… ## 题目描述 妈妈下班回家&#xff0c;街坊邻居说小明被一群陌生人强行押上了警车&#…...

SpringMVC的执行流程

过去的开发中,视图阶段&#xff08;老旧JSP等&#xff09; 1.首先用户发送请求到前端控制器DispatcherServlet(这是一个调度中心) 2.前端控制器DispatcherServlet收到请求后调用处理器映射器HandlerMapping 3.处理器映射器HandlerMapping找到具体的处理器,可查找xml配置或注…...

Vue项目启动过程全记录(node.js运行环境搭建)

一、安装node.js并配置环境变量 1、安装node.js 从Node.js官网下载安装包并安装。然后在安装后的目录&#xff08;如果是下载的压缩文件&#xff0c;则是解压缩的目录&#xff09;下新建node_global和node_cache这两个文件夹。 node_global&#xff1a;npm全局安装位置 node_…...

Linux下如何配置环境变量

在Linux下配置环境变量通常有几种方法&#xff0c;具体取决于你希望将环境变量设置为全局还是仅对当前会话有效。以下是一些常见的方法&#xff1a; 永久性全局配置&#xff1a;要使环境变量在所有用户和会话中永久生效&#xff0c;可以编辑 /etc/environment 文件。在文件中添…...

PyCharm 主题和字体 (Scheme Editor Font)

PyCharm 主题和字体 [Scheme & Editor Font] References Scheme & Editor Font File -> Settings -> Editor -> Colors & Fonts -> Font Show only monospaced fonts&#xff1a; 只显示等宽字体。编程时使用等宽字体效果较好。 References [1] Yon…...

二叉树相关OJ题

创作不易&#xff0c;感谢三连&#xff01;&#xff01; 一、选择题 1、某二叉树共有 399 个结点&#xff0c;其中有 199 个度为 2 的结点&#xff0c;则该二叉树中的叶子结点数为&#xff08; &#xff09; A.不存在这样的二叉树 B.200 C.198 D.199解析&#xff1a;选B&…...

文物保护系统守护历史岁月,成都青铜展科技闪耀

一、“吉金万里-中国西南青铜文明展”隆重开幕 1月27日&#xff0c;“吉金万里-中国西南青铜文明展”在成都金沙遗址博物馆向公众开放&#xff0c;奉上一场精彩的青铜文明“盛宴”。本次展览汇集了中国西南地区32家文博单位&#xff0c;以青铜器为代表的294件经典文物&#xf…...

[计算机网络]---Http协议

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注&#x1f440;支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 本期学习&#xf…...

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…...

什么是库存周转?如何用进销存系统提高库存周转率?

你可能听说过这样一句话&#xff1a; “利润不是赚出来的&#xff0c;是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业&#xff0c;很多企业看着销售不错&#xff0c;账上却没钱、利润也不见了&#xff0c;一翻库存才发现&#xff1a; 一堆卖不动的旧货…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上&#xff0c;所以报错&#xff0c;到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本&#xff0c;cu、torch、cp 的版本一定要对…...

企业如何增强终端安全?

在数字化转型加速的今天&#xff0c;企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机&#xff0c;到工厂里的物联网设备、智能传感器&#xff0c;这些终端构成了企业与外部世界连接的 “神经末梢”。然而&#xff0c;随着远程办公的常态化和设备接入的爆炸式…...

云原生玩法三问:构建自定义开发环境

云原生玩法三问&#xff1a;构建自定义开发环境 引言 临时运维一个古董项目&#xff0c;无文档&#xff0c;无环境&#xff0c;无交接人&#xff0c;俗称三无。 运行设备的环境老&#xff0c;本地环境版本高&#xff0c;ssh不过去。正好最近对 腾讯出品的云原生 cnb 感兴趣&…...

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南&#xff1a;Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问&#xff08;基础概念问题&#xff09; 1. 请解释Spring框架的核心容器是什么&#xff1f;它在Spring中起到什么作用&#xff1f; Spring框架的核心容器是IoC容器&#…...

DingDing机器人群消息推送

文章目录 1 新建机器人2 API文档说明3 代码编写 1 新建机器人 点击群设置 下滑到群管理的机器人&#xff0c;点击进入 添加机器人 选择自定义Webhook服务 点击添加 设置安全设置&#xff0c;详见说明文档 成功后&#xff0c;记录Webhook 2 API文档说明 点击设置说明 查看自…...

MinIO Docker 部署:仅开放一个端口

MinIO Docker 部署:仅开放一个端口 在实际的服务器部署中,出于安全和管理的考虑,我们可能只能开放一个端口。MinIO 是一个高性能的对象存储服务,支持 Docker 部署,但默认情况下它需要两个端口:一个是 API 端口(用于存储和访问数据),另一个是控制台端口(用于管理界面…...

淘宝扭蛋机小程序系统开发:打造互动性强的购物平台

淘宝扭蛋机小程序系统的开发&#xff0c;旨在打造一个互动性强的购物平台&#xff0c;让用户在购物的同时&#xff0c;能够享受到更多的乐趣和惊喜。 淘宝扭蛋机小程序系统拥有丰富的互动功能。用户可以通过虚拟摇杆操作扭蛋机&#xff0c;实现旋转、抽拉等动作&#xff0c;增…...

什么是VR全景技术

VR全景技术&#xff0c;全称为虚拟现实全景技术&#xff0c;是通过计算机图像模拟生成三维空间中的虚拟世界&#xff0c;使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验&#xff0c;结合图文、3D、音视频等多媒体元素…...