当前位置: 首页 > news >正文

基于Python的自然语言处理系列(23):DrQA

        在本篇文章中,我们将实现 DrQA 模型,该模型最初由论文 Reading Wikipedia to Answer Open-Domain Questions 提出。DrQA 是一种用于开放域问答系统的端到端解决方案,最初包括信息检索模块和深度学习模型。本次实现中,我们主要探讨 DrQA 的深度学习模型部分。

1. 数据加载

        DrQA 使用了斯坦福问答数据集(SQuAD)。该数据集由一系列 Wikipedia 文章中的段落和相关问题组成,答案是段落中的某个片段,或问题无法回答。

import jsondef load_json(path):'''加载SQuAD数据集的JSON文件'''with open(path, 'r', encoding='utf-8') as f:data = json.load(f)print("数据集长度: ", len(data['data']))return data# 加载数据
train_data = load_json('data/squad_train.json')
valid_data = load_json('data/squad_dev.json')

2. 数据预处理

        由于 SQuAD 数据集的结构独特,每个段落可能有多个问题和答案,我们需要对其进行解析。我们将每个段落与相关的问题配对,并将其转换为易于处理的结构。

def parse_data(data:dict)->list:'''解析数据集,将每个问题和答案对与对应的段落配对'''qa_list = []for paragraphs in data['data']:for para in paragraphs['paragraphs']:context = para['context']for qa in para['qas']:id = qa['id']question = qa['question']for ans in qa['answers']:qa_dict = {'id': id,'context': context,'question': question,'answer': ans['text'],'label': [ans['answer_start'], ans['answer_start'] + len(ans['text'])]}qa_list.append(qa_dict)return qa_list# 解析数据集
train_list = parse_data(train_data)
valid_list = parse_data(valid_data)

3. 构建词汇表

        为了对文本进行数值化处理,我们需要构建词汇表。我们将使用 spaCy 分词器来帮助处理文本数据。

import spacy
from collections import Counternlp = spacy.load('en_core_web_sm')def build_word_vocab(vocab_text):'''构建词汇表'''words = []for sent in vocab_text:words.extend([word.text for word in nlp(sent, disable=['parser', 'ner'])])word_counter = Counter(words)word_vocab = sorted(word_counter, key=word_counter.get, reverse=True)word_vocab.insert(0, '<unk>')word_vocab.insert(1, '<pad>')word2idx = {word: idx for idx, word in enumerate(word_vocab)}idx2word = {v: k 

相关文章:

基于Python的自然语言处理系列(23):DrQA

在本篇文章中,我们将实现 DrQA 模型,该模型最初由论文 Reading Wikipedia to Answer Open-Domain Questions 提出。DrQA 是一种用于开放域问答系统的端到端解决方案,最初包括信息检索模块和深度学习模型。本次实现中,我们主要探讨 DrQA 的深度学习模型部分。 1. 数据加载 …...

誉天Linux云计算课程学什么?为什么保障就业?

一个IT工程师相当于干了哪些职业? 其中置顶回答生动而形象地描绘道&#xff1a; 一个IT工程师宛如一个超级多面手&#xff0c;相当于——加班狂程序员测试工程师实施工程师网络工程师电工装卸工搬运工超人。 此中酸甜苦辣咸&#xff0c;相信很多小伙伴们都深有体会。除了典…...

无人机控制和飞行、路径规划技术分析

无人机控制和飞行、路径规划技术是现代无人机技术的核心组成部分&#xff0c;它们共同决定了无人机的性能和应用范围。以下是对这些技术的详细分析&#xff1a; 一、无人机控制技术 无人机控制技术主要涉及飞行控制系统的设计、传感器数据的处理以及指令的发送与执行。飞行控…...

【C++】模拟实现红黑树

&#x1f984;个人主页:修修修也 &#x1f38f;所属专栏:实战项目集 ⚙️操作环境:Visual Studio 2022 目录 一.了解项目功能 二.逐步实现项目功能模块及其逻辑详解 &#x1f4cc;实现RBTreeNode类模板 &#x1f38f;构造RBTreeNode类成员变量 &#x1f38f;实现RBTreeNode类构…...

离线安装docker

背景描述 项目需要在研发环境虚拟机上安装docker部署应用。 所在的服务器是一个内网&#xff0c;无法访问到外网环境。 服务器OS版本是 麒麟V10 linux 安装docker 安装包下载 获取所需版本的docker binary包&#xff0c;官方链接https://download.docker.com/linux/stati…...

MySQL高阶2066-账户余额

目录 题目 准备数据 分析数据 总结 题目 请写出能够返回用户每次交易完成后的账户余额. 我们约定所有用户在进行交易前的账户余额都为0&#xff0c; 并且保证所有交易行为后的余额不为负数。 返回的结果请依次按照 账户&#xff08;account_id), 日期( day ) 进行升序排序…...

《RabbitMQ篇》Centos7安装RabbitMQ

安装RabbitMQ 安装包网盘下载地址 链接&#xff1a;https://pan.baidu.com/s/1bG_nP0iCdAejkctFp1QztQ?pwd4mlw 先上传安装包到服务器&#xff08;erlang-23.3.4.11-1.el7.x86_64.rpm和rabbitmq-server-3.9.16-1.el7.noarch.rpm&#xff09;然后使用指令安装 # 安装 erlang r…...

昇思学习打卡营第31天|深度解密 CycleGAN 图像风格迁移:从草图到线稿的无缝转化

1. 简介 图像风格迁移是计算机视觉领域中的一个热门研究方向&#xff0c;其中 CycleGAN (循环对抗生成网络) 在无监督领域取得了显著的突破。与传统需要成对训练数据的模型如 Pix2Pix 不同&#xff0c;CycleGAN 不需要严格的成对数据&#xff0c;只需两类图片域数据&#xff0c…...

跟我学C++中级篇——空值的定义

一、空值 在提到c/c的空值时&#xff0c;先扯远一些。谈一谈数学中的0&#xff0c;0的出现要晚于其它的数&#xff0c;而0的出现却引发了数学的极大的发展和进步。而在计算机科学中&#xff0c;在使用一个变量时&#xff0c;它的值的可能性有很多&#xff0c;其中&#xff0c;…...

(三)Mysql 数据库系统全解析

一、Mysql 数据库 数据库的作用和优势 作用&#xff1a;集中化存储结构性的数据。优势&#xff1a; 减小数据冗余&#xff0c;避免数据的重复存储。保证数据的真实有效和唯一性&#xff0c;提高数据的质量。方便数据共享访问&#xff0c;使得不同的用户和应用可以方便地获取所需…...

SAP HCM 0001信息类型一个月内有多个成本中心

一般跨部门调动时候&#xff0c;成本中心都会变化&#xff0c;SAP默认都是读取wpbp的最后一一条数据&#xff0c;但是今天过账会读取两个单位的成本中心&#xff0c;一直都觉得很奇怪&#xff0c;SAP如何都拆分出这样的情况&#xff0c; 没办法只有debug&#xff0c;初始化系统…...

字节输入流

1.是什么 字节输入流&#xff08;Byte Input Stream&#xff09;在Java中是用来读取原始字节流的数据。Java的java.io包提供了多种字节输入流类&#xff0c;其中InputStream是所有字节输入流类的超类。以下是关于字节输入流的详细解释和举例&#xff1a; 字节输入流的概念&…...

深度学习-----------------机器翻译与数据集

目录 机器翻译与数据集下载和预处理数据集预处理步骤词元化词汇表该部分总代码 固定长度阶段或填充该部分总代码 转换成小批量数据集用于训练训练模型总代码 机器翻译与数据集 import os import torch from d2l import torch as d2l下载和预处理数据集 #save d2l.DATA_HUB[fr…...

SOMEIP_ETS_151: SD_Send_triggerEventUINT8Reliable_Eventgroup_2

测试目的&#xff1a; 验证DUT在Tester订阅事件组后&#xff0c;能够响应Tester触发的triggerEventUINT8Reliable方法&#xff0c;并将TestEventUINT8Reliable事件发送到订阅请求中端点选项指定的IP地址和端口。 描述 本测试用例旨在确保DUT能够正确处理事件组的订阅请求&am…...

32 C 语言指针的长度与运算(指针加减整数、指针自增自减、同类型指针相减、指针的比较运算)

目录 1 指针的长度 2 指针与整数的加减运算 3 指针自增与自减 4 同类型指针相减 5 指针的比较运算 6 测试题 1 指针的长度 在 C 语言中&#xff0c;sizeof 运算符可以用来计算指针的长度。指针的长度实际上与指针所指向的数据类型无关&#xff0c;而是与系统的位数&…...

【系统架构设计师】经典论文:轮软件三层架构设计

更多内容请见: 备考系统架构设计师-核心总结目录 文章目录 摘要正文总结摘要 本人于 2022 年 1 月参与了中石化 XX 油田 XX 采油厂“用电管理系统”的项目建设,该系统建设目标是实现分单位、分线路、分系统评价、优化、考核,全面提升采油厂用 电管理水平。在该项目组中我担…...

(C语言贪吃蛇)13.实现贪吃蛇四方向的移动

目录 前言 原代码预览 解决方法⚠️ 运行效果 总结 前言 我们上节通过Linux线程实现了两个while(1)同时运行&#xff0c;这样就可以一边控制方向一遍刷新出贪吃蛇的身体节点了。本节我们就来实现贪吃蛇四方向的移动。 (此图片为最终效果) 原代码预览 我们之前的代码是通过…...

Spring Boot + MyBatis 项目中常用注解详解(万字长篇解读)

Spring Boot MyBatis 项目中常用注解详解 在现代Java开发中&#xff0c;Spring Boot和MyBatis是两大热门框架&#xff0c;广泛应用于构建高效、可维护的企业级应用。两者结合使用&#xff0c;可以充分发挥各自的优势&#xff0c;提高开发效率和代码质量。在这个过程中&#x…...

AWS Network Firewall -NAT网关配置只应许白名单域名出入站

1. 创建防火墙 选择防火墙的归属子网&#xff08;选择公有子网&#xff09; 2. 创建规则白名单域名放行 3. 绑定相关规则 继续往下拉 绑定非托管规则 4. 配置网络路由 相关规则 参考图 解释 防火墙的归属公有子网路由表规则机器实例的规则子网路由表规则nat网管路…...

【C语言系统编程】【第二部分:并发编程】2.3 实践与案例分析

2.3 实践与案例分析 2.3.1 案例分析&#xff1a;多线程文件搜索程序 本文中&#xff0c;我们将通过一个多线程文件搜索程序的案例&#xff0c;展示如何在实际项目中应用多线程编程技术&#xff0c;并具体介绍任务分解、线程创建、结果汇总及锁机制的应用。 2.3.1.1 任务分解…...

OpenClaw截图分析进阶:千问3.5-9B识别UI元素与操作建议

OpenClaw截图分析进阶&#xff1a;千问3.5-9B识别UI元素与操作建议 1. 为什么需要截图分析能力&#xff1f; 上周我在测试一个内部工具时遇到了一个典型问题——某个按钮在特定分辨率下会消失不见。手动排查需要反复调整窗口尺寸并肉眼检查&#xff0c;效率极低。这时我想到了…...

【C++27范围库前瞻实战指南】:20年标准库专家亲授5大扩展接口的工业级应用模式

第一章&#xff1a;C27范围库扩展全景概览C27 将对标准范围库&#xff08;Ranges&#xff09;进行实质性增强&#xff0c;聚焦于提升表达力、运行时效率与编译期元编程能力。核心演进方向包括惰性求值语义强化、范围适配器的定制化组合机制、对异步与并行范围操作的原生支持&am…...

2026年山东省首版次高端软件申报已经开始,中承信安助力企业快速申报

对于山东省内软件和信息技术领域的企业而言&#xff0c;首版次高端软件申报是获取省级政策资金扶持、强化产品核心竞争力、拓宽市场发展空间的核心抓手。2026 年山东省首版次高端软件申报工作已全面启动&#xff0c;然而不少企业却面临政策细则把握不准、申报门槛判断不清、申报…...

第 1 章 Python 基础 知识点精讲

1.1 在交互式环境中输入表达式核心知识点Python 提供两种运行代码的方式&#xff1a;交互式环境&#xff08;IDLE / 终端&#xff09; 和 脚本文件&#xff08;.py&#xff09;。交互式环境&#xff1a;输入一行代码立即执行&#xff0c;适合快速测试、调试、学习语法启动方式&…...

Ubuntu 20.04安装搜狗输入法全攻略:从配置到常见错误解决

Ubuntu 20.04 中文输入终极方案&#xff1a;搜狗输入法深度配置指南 在Linux桌面环境中实现流畅的中文输入一直是许多用户的痛点。作为国内最受欢迎的中文输入法之一&#xff0c;搜狗输入法凭借其强大的词库和智能预测功能&#xff0c;成为Ubuntu用户的首选。本文将带你从零开始…...

基于Matlab的自适应信号滤波降噪:心音信号处理之旅

基于matlab的自适应信号滤波降噪&#xff0c;利用自适应滤波器对心音信号进行降噪&#xff0c;包括了LMS算法&#xff0c;归一化LMS&#xff0c;变步长LMS和RLS算法&#xff0c;其中RLS的降噪效果最好 程序已调通&#xff0c;替换自己的数据可以直接运行在信号处理的领域中&…...

P1163 银行贷款 总结与反思

提炼以下几点&#xff1a;1&#xff0c;问&#xff1a;C中 整型怎么转浮点数&#xff08;int/ long long to double):答&#xff1a;直接赋值即可&#xff0c; eg ll N; double a N;2, 问&#xff1a;C中整型和浮点数怎么做加减法答&#xff1a;直接加减即可&#xff0c;自…...

面试官都爱问!Java并发编程18道灵魂拷问:从Synchronized到虚拟线程

文章目录开场&#xff1a;并发面试&#xff0c;一个让勇士变烈士的战场第一幕&#xff1a;基础篇——别小看Synchronized&#xff0c;水很深第1题&#xff1a;synchronized锁的底层原理是啥&#xff1f;Monitor又是啥玩意&#xff1f;第2题&#xff1a;synchronized和volatile到…...

10分钟掌握 Terraform AWS EKS Blueprints 的 Karpenter 集成:实现自动节点扩展与成本优化终极指南

10分钟掌握 Terraform AWS EKS Blueprints 的 Karpenter 集成&#xff1a;实现自动节点扩展与成本优化终极指南 【免费下载链接】terraform-aws-eks-blueprints Configure and deploy complete EKS clusters. 项目地址: https://gitcode.com/gh_mirrors/te/terraform-aws-eks…...

TPAMI 2025 | 港城大团队新作:强化学习引导 ODE 轨迹,提升图像复原性能

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶” 重磅干货&#xff0c;第一时间送达在计算机视觉领域&#xff0c;图像恢复一直是核心研究方向之一——从模糊的监控画面中还原清晰细节、让水下拍摄的照片重现真实色彩、给低光照的夜景图像提亮增晰&#x…...