当前位置: 首页 > news >正文

自然语言处理期末试题汇总

建议自己做,写完再来对答案。答案可能存在极小部分错误,不保证一定正确。

一、选择题

1-10、C A D B D B C D A A

11-20、A A A C A B D B B A

21-30、B C C D D A C A C B

31-40、B B B C D A B B A A

41-50、B D B C A B B B B C

51-60、A D D B B C B B C A

61-70、C B A B B B D B C B

71-78、B B A D B A C B

二、判断题

1-10、F F T F F T T F F F

11-20、F T T F T F F F T T

21-27、F T F F T T F

三、填空题

1-5、搜索引擎  输出门  Word2Vec  分布式  词

6-10、pytorch  LSTM  分布式  深度学习  残差连接

11-15、GloVe  多头注意力  人名  细胞  多标签分类

16-20、join  正面  文本摘要  共现矩阵  生成

21-25、numpy.dot()  RNN  二元模型  余弦相似度  位置编码

26-30、长距离依赖  TF-IDF  自注意力机制  稀疏向量表示  SGD

31-35、BERT  多头注意力机制  Hugging Face  精确  softmax(Qi*Ki^T)*Vi

36-40、TensorFlow  一  隐状态  三元模型  门控

41-45、相似性  目标词  BART  模型库(Hub库)    多分类

46-47、精确模式  召回率  

四、简答题

1、(1)分词:句子1:“我 喜欢 学习 自然语言处理”;句子2:“自然语言处理 是 我 喜欢 的 课程”

构建词典:词典:{"我", "喜欢", "学习", "自然语言处理"} 

编码:"我" -> [1, 0, 0, 0, 0]  "学习" -> [0, 0, 1, 0]  "喜欢" -> [0, 1, 0, 0]  "自然语言处理"-> [0, 0, 0, 1]

生成特征向量:我喜欢学习自然语言处理:[1,1,1,1]

2、自注意机制的核心公式为:

自注意力机制的计算步骤为(1)初始化(2)计算相似度(3)归一化(4)加权求和

3、自然语言处理有两个核心方向:自然语言理解(NLU)和自然语言生成(NLG)。 (2分)

(1)自然语言理解

自然语言理解的目标是使计算机能够“理解”人类的语言,主要集中于解析、分析

和提取文本中的信息。NLU技术通常用于语义分析、信息提取、情感分析、命名实体识别。

(2)自然语言生成

自然语言生成的目标是使计算机能够生成具有逻辑和语法正确的自然语言文本。NLG技术通常用于文本摘要、对话系统、文本生成。

4、BERT模型在预训练过程中采用了掩码语言模型(MLM)和下一句预测(NSP)两种

策略。 

(1)掩蔽语言模型(MLM)在训练过程中,BERT随机掩蔽输入句子中的某些单词(通常是15%),然后要求模型预测这些被掩蔽的单词。此策略使模型能够从上下文中学习词的表示,而不仅仅是从左到右或从右到左的顺序。这种双向的训练方式使BERT能够更好地理解上下文。

(2)BERT还通过下一句预测(NSP)这一策略训练模型理解句子之间的关系。在训练时,模型接受成对的句子,任务是判断第二个句子是否为第一个句子的后续句子。这个任务有助于模型学习句子间的逻辑关系,提升了模型在句子级任务(如问答和自然语言推理)上的表现。

 5、该题答案不唯一,只要最终值z=w1*x1+w2*x2与θ的比较和对应真值表的值一致均正确。

6、CBOW(Continuous Bag of Words)和Skip-gram  

相同点:(1)两者都是基于神经网络的模型,通过大规模的文本数据训练,学习到词语的词向量。(2)都使用窗口大小来定义上下文,目标是捕捉词与词之间的关系和相似性。

不同点:(1)目标不同:CBOW 通过上下文预测目标词, Skip-gram 通过目标词预测上下文。(2)计算复杂度:在训练时,Skip-gram 适合于低频词,而 CBOW 适合于高频词。Skip-gram 对低频词的学习效果更好,但计算开销较大;而 CBOW 对高频词的学习效果更好。

 7、(1)遗忘门决定哪些信息将被丢弃;

(2)输入门决定哪些信息将被添加到细胞状态;

(3)输出门决定最终的隐藏状态。

8、(1)输入表示 (2)计算注意力得分(3)应用softmax函数(4)加权和(5)输出

9、TF-IDF(Term Frequency-Inverse Document Frequency)工作原理分为两部分:TF(Term Frequency):表示某个词在文档中出现的频率,这部分反映了词在特定文档中的重要性,频率越高,重要性越大。

IDF(Inverse Document Frequency):衡量某个词在整个文档集合中的重要性。IDF值越高,说明该词越少见,具有更高的区分度。

10、(1Sigmoid 激活函数优点:输出范围在 (0, 1),适合处理二分类问题。具有平滑的导数,便于梯度计算。缺点:容易导致梯度消失(vanishing gradient)问题,尤其在深层网络中。输出不是零均值,可能导致训练过程中的不稳定。

2ReLU(Rectified Linear Unit)激活函数优点:计算简单,训练速度快。有效缓解梯度消失问题,使得深层网络能够更快地收敛。缺点:在训练过程中,某些神经元可能永远不被激活(dying ReLU问题),导致信息损失。

3Tanh 激活函数优点:输出范围在 (-1, 1),有助于数据中心化,通常收敛速度比Sigmoid快。相对于Sigmoid,Tanh函数的梯度较大,缓解了梯度消失问题。缺点:仍然存在梯度消失问题,尤其在深层网络中。计算相对复杂,速度比ReLU慢。

相关文章:

自然语言处理期末试题汇总

建议自己做,写完再来对答案。答案可能存在极小部分错误,不保证一定正确。 一、选择题 1-10、C A D B D B C D A A 11-20、A A A C A B D B B A 21-30、B C C D D A C A C B 31-40、B B B C D A B B A A 41-50、B D B C A B B B B C 51-60、A D D …...

前端热门面试题目(四)——计算机网路篇

计算机网络常见面试题: 计算机网络面试(一) 计算机网络面试(二) 计算机网络速成: 计算机网络速成一 计算机网络速成二 计算机网络速成三 2. HTTP 1.0 和 2.0 的区别 连接复用: HTTP/1.0 使用短连…...

kubenetes流水线实施清单

整体实施方案概述 创建命名空间(Namespace):创建一个专用于 CI/CD 的命名空间 cicd。配置 Secrets: Git SSH 密钥(分别为 Maven 和 npm 项目)Docker Registry 凭证(Kaniko)SMTP 凭证…...

Redis4——持久化与集群

Redis4——持久化与集群 本文讲述了1.redis在内存占用达到限制后的key值淘汰策略&#xff1b;2.redis主从复制原理&#xff1b;3.redis的哨兵模式&#xff1b;4.redis集群模式。 1. 淘汰策略 设置过期时间 expire key <timeout>只能对主hash表中的键设置过期时间。 查…...

【LeetCode: 94. 二叉树的中序遍历 + 栈】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…...

Python系列 - MQTT协议

Python系列 - MQTT协议 资源连接 MQTT的介绍和应用场景的示例说明 一、什么是MQTT 百度关于MQTT的介绍如下&#xff1a; MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布订阅范式的消息协议。它工作在 TCP/IP协议之上&#xff0c;是为硬件性能低下的远程设…...

同时在github和gitee配置密钥

同时在github和gitee配置密钥 1. 生成不同的 SSH 密钥 为每个平台生成单独的 SSH 密钥。 # 为 GitHub 生成密钥&#xff08;默认文件路径为 ~/.ssh/github_id_rsa&#xff09; ssh-keygen -t rsa -b 4096 -C "your_github_emailexample.com" -f ~/.ssh/github_id_…...

Runway 技术浅析(六):文本到视频(Text-to-Video)

1. 核心组件与工作原理 1.1 自然语言处理&#xff08;NLP&#xff09; 1.1.1 文本解析与语义理解 文本到视频的第一步是将用户输入的自然语言文本解析为机器可理解的语义信息。Runway 使用预训练的 NLP 模型&#xff0c;如 GPT-3 和 BERT&#xff0c;这些模型通过大规模文本数…...

云计算vspere 安装过程

1 材料的准备 1 安装虚拟机 vmware workstation 2 安装esxi 主机 3 在esxi 主机上安装windows 2018 dns 服务器 4 在虚拟机上安装windows 2018 服务器 6 安装vcenter 5 登入界面测试 这里讲一下&#xff0c;由于部署vspere 需要在windows 2012 服务器上部…...

QT 实现QStackedWidget切换页面右移动画

1.实现效果 以下是一个QStackedWidget,放了两个QPushButton在上面,点击切换不同的界面。 为了方便查看动画特效,设置了每个界面的背景图片。 2.实现思路 首先截取当前界面的图片,渲染到一个QLabel上,然后设置QPropertyAnimation动画,动画的作用对象就是这个QLabel,不断…...

Android Camera2采集并编码为H.264

前言 本篇博文主要讲述的是基于Android原生MediaCodec通过Camera2 API进行图像数据采集并编码为H.264的实现过程&#xff0c;如果对此感兴趣的不妨驻足观看&#xff0c;也欢迎大家大家对本文中描述不当或者不正确的地方进行指正。如果对于Camera2预览还不熟悉的可以观看博主上…...

DHCP和DNS

DHCP&#xff08;动态主机配置协议&#xff09;和DNS&#xff08;域名系统&#xff09;是计算机网络中两个重要的协议&#xff0c;它们在网络的管理和使用中发挥着关键作用。 DHCP&#xff08;动态主机配置协议&#xff09; 基本功能 自动分配IP地址&#xff1a;DHCP允许网…...

ONES 功能上新|ONES Project 甘特图再度升级

ONES Project 甘特图支持展示工作项标题、进度百分比、依赖关系延迟时间等信息。 应用场景&#xff1a; 在使用甘特图规划项目任务、编排项目计划时&#xff0c;可以对甘特图区域进行配置&#xff0c;展示工作项的工作项标题、进度百分比以及依赖关系延迟时间等维度&#xff0c…...

<工具 Claude Desktop> 配置 MCP server 连接本地 SQLite, 本机文件夹(目录) 网络驱动器 Windows 11 系统

也是在学习中... 起因&#xff1a; 抖音博客 艾克AI分享 他的视频 #143《Claude开源MCP彻底打破AI的信息孤岛》 提到: Claude开源的MCP太强了&#xff0c;视频后面是快速演示&#xff0c;反正看了好几遍也没弄明白。菜单都不一样&#xff0c;感觉用的不是同一家 Claude. 探…...

GIT的使用方法以及汉化方法

1.下载git软件&#xff0c;可以从官网下载 下载后默认安装即可。 2.找到一个文件夹&#xff0c;或者直接打开gitbash gitbash可以使用cd指令切换目录的 打开后输入 git clone https:[git仓库的网页]即可克隆仓库 就是这个地址 克隆后即可使用代码 如果忘记了命令可以使用 -…...

公因子的数目

给你两个正整数 a 和 b &#xff0c;返回 a 和 b 的 公 因子的数目。 如果 x 可以同时整除 a 和 b &#xff0c;则认为 x 是 a 和 b 的一个 公因子 。 输入&#xff1a;a 12, b 6 输出&#xff1a;4 解释&#xff1a;12 和 6 的公因子是 1、2、3、6 。 class Solution {pu…...

数据结构(三)——双向链表的介绍以及实现

前言 前面两期数据结构的文章我们介绍了顺序表和单向链表&#xff0c;那么本篇博文我们将来了解双向链表&#xff0c;作为最好用的一种链表&#xff0c;双向链表有什么特殊之处呢&#xff0c;接下来就让我们一起了解一下吧。 下面是前两篇数据结构的文章&#xff1a; 数据结…...

Webpack开发模式及处理样式资源

一、开发模式介绍 开发模式顾名思义就是我们开发代码时使用的模式。 这个模式下我们主要做两件事&#xff1a; 编译代码&#xff0c;使浏览器能识别运行 开发时我们有样式资源、字体图标、图片资源、html 资源等&#xff0c;webpack 默认都不能处理这些资源&#xff0c;所以我…...

leetcode--设计链表

707.设计链表 你可以选择使用单链表或者双链表&#xff0c;设计并实现自己的链表。 单链表中的节点应该具备两个属性&#xff1a;val 和 next 。val 是当前节点的值&#xff0c;next 是指向下一个节点的指针/引用。 如果是双向链表&#xff0c;则还需要属性 prev 以指示链表中的…...

【MySQL】:数据库操作

MySQL 数据库基础理论 2.1 数据库系统概述 介绍数据库系统的基本概念、发展历程、分类及 MySQL 在其中的地位与特点。 2.2 MySQL 数据库体系结构 解析 MySQL 的整体架构&#xff0c;包括服务器层与存储引擎层的功能与交互机制&#xff0c;重点探讨 InnoDB、MyISAM 等存…...

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…...

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中&#xff0c;可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行&#xff0c;可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令&#xff0c;并忽略错误 rm somefile…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件&#xff0c;常用于在两个集合之间进行数据转移&#xff0c;如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model&#xff1a;绑定右侧列表的值&…...

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文&#xff1f; 多租户隔离&#xff1a;自动为接入设备追加租户前缀&#xff0c;后端按 ClientID 拆分队列。零代码鉴权&#xff1a;将入站用户名替换为 OAuth Access-Token&#xff0c;后端 Broker 统一校验。灰度发布&#xff1a;根据 IP/地理位写…...

微信小程序 - 手机震动

一、界面 <button type"primary" bindtap"shortVibrate">短震动</button> <button type"primary" bindtap"longVibrate">长震动</button> 二、js逻辑代码 注&#xff1a;文档 https://developers.weixin.qq…...

成都鼎讯硬核科技!雷达目标与干扰模拟器,以卓越性能制胜电磁频谱战

在现代战争中&#xff0c;电磁频谱已成为继陆、海、空、天之后的 “第五维战场”&#xff0c;雷达作为电磁频谱领域的关键装备&#xff0c;其干扰与抗干扰能力的较量&#xff0c;直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器&#xff0c;凭借数字射…...

免费PDF转图片工具

免费PDF转图片工具 一款简单易用的PDF转图片工具&#xff0c;可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件&#xff0c;也不需要在线上传文件&#xff0c;保护您的隐私。 工具截图 主要特点 &#x1f680; 快速转换&#xff1a;本地转换&#xff0c;无需等待上…...

深度学习水论文:mamba+图像增强

&#x1f9c0;当前视觉领域对高效长序列建模需求激增&#xff0c;对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模&#xff0c;以及动态计算优势&#xff0c;在图像质量提升和细节恢复方面有难以替代的作用。 &#x1f9c0;因此短时间内&#xff0c;就有不…...

2025年渗透测试面试题总结-腾讯[实习]科恩实验室-安全工程师(题目+回答)

安全领域各种资源&#xff0c;学习文档&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具&#xff0c;欢迎关注。 目录 腾讯[实习]科恩实验室-安全工程师 一、网络与协议 1. TCP三次握手 2. SYN扫描原理 3. HTTPS证书机制 二…...