自然语言处理期末试题汇总
建议自己做,写完再来对答案。答案可能存在极小部分错误,不保证一定正确。
一、选择题
1-10、C A D B D B C D A A
11-20、A A A C A B D B B A
21-30、B C C D D A C A C B
31-40、B B B C D A B B A A
41-50、B D B C A B B B B C
51-60、A D D B B C B B C A
61-70、C B A B B B D B C B
71-78、B B A D B A C B
二、判断题
1-10、F F T F F T T F F F
11-20、F T T F T F F F T T
21-27、F T F F T T F
三、填空题
1-5、搜索引擎 输出门 Word2Vec 分布式 词
6-10、pytorch LSTM 分布式 深度学习 残差连接
11-15、GloVe 多头注意力 人名 细胞 多标签分类
16-20、join 正面 文本摘要 共现矩阵 生成
21-25、numpy.dot() RNN 二元模型 余弦相似度 位置编码
26-30、长距离依赖 TF-IDF 自注意力机制 稀疏向量表示 SGD
31-35、BERT 多头注意力机制 Hugging Face 精确 softmax(Qi*Ki^T)*Vi
36-40、TensorFlow 一 隐状态 三元模型 门控
41-45、相似性 目标词 BART 模型库(Hub库) 多分类
46-47、精确模式 召回率
四、简答题
1、(1)分词:句子1:“我 喜欢 学习 自然语言处理”;句子2:“自然语言处理 是 我 喜欢 的 课程”
构建词典:词典:{"我", "喜欢", "学习", "自然语言处理"}
编码:"我" -> [1, 0, 0, 0, 0] "学习" -> [0, 0, 1, 0] "喜欢" -> [0, 1, 0, 0] "自然语言处理"-> [0, 0, 0, 1]
生成特征向量:我喜欢学习自然语言处理:[1,1,1,1]
2、自注意机制的核心公式为:
自注意力机制的计算步骤为(1)初始化(2)计算相似度(3)归一化(4)加权求和
3、自然语言处理有两个核心方向:自然语言理解(NLU)和自然语言生成(NLG)。 (2分)
(1)自然语言理解
自然语言理解的目标是使计算机能够“理解”人类的语言,主要集中于解析、分析
和提取文本中的信息。NLU技术通常用于语义分析、信息提取、情感分析、命名实体识别。
(2)自然语言生成
自然语言生成的目标是使计算机能够生成具有逻辑和语法正确的自然语言文本。NLG技术通常用于文本摘要、对话系统、文本生成。
4、BERT模型在预训练过程中采用了掩码语言模型(MLM)和下一句预测(NSP)两种
策略。
(1)掩蔽语言模型(MLM)在训练过程中,BERT随机掩蔽输入句子中的某些单词(通常是15%),然后要求模型预测这些被掩蔽的单词。此策略使模型能够从上下文中学习词的表示,而不仅仅是从左到右或从右到左的顺序。这种双向的训练方式使BERT能够更好地理解上下文。
(2)BERT还通过下一句预测(NSP)这一策略训练模型理解句子之间的关系。在训练时,模型接受成对的句子,任务是判断第二个句子是否为第一个句子的后续句子。这个任务有助于模型学习句子间的逻辑关系,提升了模型在句子级任务(如问答和自然语言推理)上的表现。
5、该题答案不唯一,只要最终值z=w1*x1+w2*x2与θ的比较和对应真值表的值一致均正确。
6、CBOW(Continuous Bag of Words)和Skip-gram
相同点:(1)两者都是基于神经网络的模型,通过大规模的文本数据训练,学习到词语的词向量。(2)都使用窗口大小来定义上下文,目标是捕捉词与词之间的关系和相似性。
不同点:(1)目标不同:CBOW 通过上下文预测目标词, Skip-gram 通过目标词预测上下文。(2)计算复杂度:在训练时,Skip-gram 适合于低频词,而 CBOW 适合于高频词。Skip-gram 对低频词的学习效果更好,但计算开销较大;而 CBOW 对高频词的学习效果更好。
7、(1)遗忘门决定哪些信息将被丢弃;
(2)输入门决定哪些信息将被添加到细胞状态;
(3)输出门决定最终的隐藏状态。
8、(1)输入表示 (2)计算注意力得分(3)应用softmax函数(4)加权和(5)输出
9、TF-IDF(Term Frequency-Inverse Document Frequency)工作原理分为两部分:TF(Term Frequency):表示某个词在文档中出现的频率,这部分反映了词在特定文档中的重要性,频率越高,重要性越大。
IDF(Inverse Document Frequency):衡量某个词在整个文档集合中的重要性。IDF值越高,说明该词越少见,具有更高的区分度。
10、(1)Sigmoid 激活函数。优点:输出范围在 (0, 1),适合处理二分类问题。具有平滑的导数,便于梯度计算。缺点:容易导致梯度消失(vanishing gradient)问题,尤其在深层网络中。输出不是零均值,可能导致训练过程中的不稳定。
(2)ReLU(Rectified Linear Unit)激活函数。优点:计算简单,训练速度快。有效缓解梯度消失问题,使得深层网络能够更快地收敛。缺点:在训练过程中,某些神经元可能永远不被激活(dying ReLU问题),导致信息损失。
(3)Tanh 激活函数。优点:输出范围在 (-1, 1),有助于数据中心化,通常收敛速度比Sigmoid快。相对于Sigmoid,Tanh函数的梯度较大,缓解了梯度消失问题。缺点:仍然存在梯度消失问题,尤其在深层网络中。计算相对复杂,速度比ReLU慢。
相关文章:
自然语言处理期末试题汇总
建议自己做,写完再来对答案。答案可能存在极小部分错误,不保证一定正确。 一、选择题 1-10、C A D B D B C D A A 11-20、A A A C A B D B B A 21-30、B C C D D A C A C B 31-40、B B B C D A B B A A 41-50、B D B C A B B B B C 51-60、A D D …...
前端热门面试题目(四)——计算机网路篇
计算机网络常见面试题: 计算机网络面试(一) 计算机网络面试(二) 计算机网络速成: 计算机网络速成一 计算机网络速成二 计算机网络速成三 2. HTTP 1.0 和 2.0 的区别 连接复用: HTTP/1.0 使用短连…...
kubenetes流水线实施清单
整体实施方案概述 创建命名空间(Namespace):创建一个专用于 CI/CD 的命名空间 cicd。配置 Secrets: Git SSH 密钥(分别为 Maven 和 npm 项目)Docker Registry 凭证(Kaniko)SMTP 凭证…...
Redis4——持久化与集群
Redis4——持久化与集群 本文讲述了1.redis在内存占用达到限制后的key值淘汰策略;2.redis主从复制原理;3.redis的哨兵模式;4.redis集群模式。 1. 淘汰策略 设置过期时间 expire key <timeout>只能对主hash表中的键设置过期时间。 查…...
【LeetCode: 94. 二叉树的中序遍历 + 栈】
🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…...
Python系列 - MQTT协议
Python系列 - MQTT协议 资源连接 MQTT的介绍和应用场景的示例说明 一、什么是MQTT 百度关于MQTT的介绍如下: MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布订阅范式的消息协议。它工作在 TCP/IP协议之上,是为硬件性能低下的远程设…...
同时在github和gitee配置密钥
同时在github和gitee配置密钥 1. 生成不同的 SSH 密钥 为每个平台生成单独的 SSH 密钥。 # 为 GitHub 生成密钥(默认文件路径为 ~/.ssh/github_id_rsa) ssh-keygen -t rsa -b 4096 -C "your_github_emailexample.com" -f ~/.ssh/github_id_…...
Runway 技术浅析(六):文本到视频(Text-to-Video)
1. 核心组件与工作原理 1.1 自然语言处理(NLP) 1.1.1 文本解析与语义理解 文本到视频的第一步是将用户输入的自然语言文本解析为机器可理解的语义信息。Runway 使用预训练的 NLP 模型,如 GPT-3 和 BERT,这些模型通过大规模文本数…...
云计算vspere 安装过程
1 材料的准备 1 安装虚拟机 vmware workstation 2 安装esxi 主机 3 在esxi 主机上安装windows 2018 dns 服务器 4 在虚拟机上安装windows 2018 服务器 6 安装vcenter 5 登入界面测试 这里讲一下,由于部署vspere 需要在windows 2012 服务器上部…...
QT 实现QStackedWidget切换页面右移动画
1.实现效果 以下是一个QStackedWidget,放了两个QPushButton在上面,点击切换不同的界面。 为了方便查看动画特效,设置了每个界面的背景图片。 2.实现思路 首先截取当前界面的图片,渲染到一个QLabel上,然后设置QPropertyAnimation动画,动画的作用对象就是这个QLabel,不断…...
Android Camera2采集并编码为H.264
前言 本篇博文主要讲述的是基于Android原生MediaCodec通过Camera2 API进行图像数据采集并编码为H.264的实现过程,如果对此感兴趣的不妨驻足观看,也欢迎大家大家对本文中描述不当或者不正确的地方进行指正。如果对于Camera2预览还不熟悉的可以观看博主上…...
DHCP和DNS
DHCP(动态主机配置协议)和DNS(域名系统)是计算机网络中两个重要的协议,它们在网络的管理和使用中发挥着关键作用。 DHCP(动态主机配置协议) 基本功能 自动分配IP地址:DHCP允许网…...
ONES 功能上新|ONES Project 甘特图再度升级
ONES Project 甘特图支持展示工作项标题、进度百分比、依赖关系延迟时间等信息。 应用场景: 在使用甘特图规划项目任务、编排项目计划时,可以对甘特图区域进行配置,展示工作项的工作项标题、进度百分比以及依赖关系延迟时间等维度,…...
<工具 Claude Desktop> 配置 MCP server 连接本地 SQLite, 本机文件夹(目录) 网络驱动器 Windows 11 系统
也是在学习中... 起因: 抖音博客 艾克AI分享 他的视频 #143《Claude开源MCP彻底打破AI的信息孤岛》 提到: Claude开源的MCP太强了,视频后面是快速演示,反正看了好几遍也没弄明白。菜单都不一样,感觉用的不是同一家 Claude. 探…...
GIT的使用方法以及汉化方法
1.下载git软件,可以从官网下载 下载后默认安装即可。 2.找到一个文件夹,或者直接打开gitbash gitbash可以使用cd指令切换目录的 打开后输入 git clone https:[git仓库的网页]即可克隆仓库 就是这个地址 克隆后即可使用代码 如果忘记了命令可以使用 -…...
公因子的数目
给你两个正整数 a 和 b ,返回 a 和 b 的 公 因子的数目。 如果 x 可以同时整除 a 和 b ,则认为 x 是 a 和 b 的一个 公因子 。 输入:a 12, b 6 输出:4 解释:12 和 6 的公因子是 1、2、3、6 。 class Solution {pu…...
数据结构(三)——双向链表的介绍以及实现
前言 前面两期数据结构的文章我们介绍了顺序表和单向链表,那么本篇博文我们将来了解双向链表,作为最好用的一种链表,双向链表有什么特殊之处呢,接下来就让我们一起了解一下吧。 下面是前两篇数据结构的文章: 数据结…...
Webpack开发模式及处理样式资源
一、开发模式介绍 开发模式顾名思义就是我们开发代码时使用的模式。 这个模式下我们主要做两件事: 编译代码,使浏览器能识别运行 开发时我们有样式资源、字体图标、图片资源、html 资源等,webpack 默认都不能处理这些资源,所以我…...
leetcode--设计链表
707.设计链表 你可以选择使用单链表或者双链表,设计并实现自己的链表。 单链表中的节点应该具备两个属性:val 和 next 。val 是当前节点的值,next 是指向下一个节点的指针/引用。 如果是双向链表,则还需要属性 prev 以指示链表中的…...
【MySQL】:数据库操作
MySQL 数据库基础理论 2.1 数据库系统概述 介绍数据库系统的基本概念、发展历程、分类及 MySQL 在其中的地位与特点。 2.2 MySQL 数据库体系结构 解析 MySQL 的整体架构,包括服务器层与存储引擎层的功能与交互机制,重点探讨 InnoDB、MyISAM 等存…...
8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...
FastAPI 教程:从入门到实践
FastAPI 是一个现代、快速(高性能)的 Web 框架,用于构建 API,支持 Python 3.6。它基于标准 Python 类型提示,易于学习且功能强大。以下是一个完整的 FastAPI 入门教程,涵盖从环境搭建到创建并运行一个简单的…...
Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信
文章目录 Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket(服务端和客户端都要)2. 绑定本地地址和端口&#x…...
Java编程之桥接模式
定义 桥接模式(Bridge Pattern)属于结构型设计模式,它的核心意图是将抽象部分与实现部分分离,使它们可以独立地变化。这种模式通过组合关系来替代继承关系,从而降低了抽象和实现这两个可变维度之间的耦合度。 用例子…...
自然语言处理——文本分类
文本分类 传统机器学习方法文本表示向量空间模型 特征选择文档频率互信息信息增益(IG) 分类器设计贝叶斯理论:线性判别函数 文本分类性能评估P-R曲线ROC曲线 将文本文档或句子分类为预定义的类或类别, 有单标签多类别文本分类和多…...
前端调试HTTP状态码
1xx(信息类状态码) 这类状态码表示临时响应,需要客户端继续处理请求。 100 Continue 服务器已收到请求的初始部分,客户端应继续发送剩余部分。 2xx(成功类状态码) 表示请求已成功被服务器接收、理解并处…...
python读取SQLite表个并生成pdf文件
代码用于创建含50列的SQLite数据库并插入500行随机浮点数据,随后读取数据,通过ReportLab生成横向PDF表格,包含格式化(两位小数)及表头、网格线等美观样式。 # 导入所需库 import sqlite3 # 用于操作…...
PostgreSQL 与 SQL 基础:为 Fast API 打下数据基础
在构建任何动态、数据驱动的Web API时,一个稳定高效的数据存储方案是不可或缺的。对于使用Python FastAPI的开发者来说,深入理解关系型数据库的工作原理、掌握SQL这门与数据库“对话”的语言,以及学会如何在Python中操作数据库,是…...
轻量安全的密码管理工具Vaultwarden
一、Vaultwarden概述 Vaultwarden主要作用是提供一个自托管的密码管理器服务。它是Bitwarden密码管理器的第三方轻量版,由国外开发者在Bitwarden的基础上,采用Rust语言重写而成。 (一)Vaultwarden镜像的作用及特点 轻量级与高性…...
十二、【ESP32全栈开发指南: IDF开发环境下cJSON使用】
一、JSON简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,具有以下核心特性: 完全独立于编程语言的文本格式易于人阅读和编写易于机器解析和生成基于ECMAScript标准子集 1.1 JSON语法规则 {"name"…...
