当前位置：首页 > news >正文

BERT的中文问答系统50

news 2025/7/15 23:14:31

我们将对BERT的中文问答系统48-1代码进行以下改进：
1.增加时间日期和日历功能：在GUI中增加显示当前时间和日期的功能，并提供一个日历组件。
2.增加更多模型类型：增加娱乐、电脑、军事、汽车、植物、科技、历史（朝代、皇帝）、名人、生活（出行、菜品、菜谱、居家），法律、企业、标准等模型的建立、保存和加载。
3.统一使用百度百科：移除360百科的相关代码。
4.完善GUI布局：优化GUI布局，使其更加美观和易用。
以下是改进后的代码：

import os
import json
import jsonlines
import torch
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from transformers import BertModel, BertTokenizer
import tkinter as tk
from tkinter import filedialog, messagebox, ttk
import logging
from difflib import SequenceMatcher
from datetime import datetime
import requests
from bs4 import BeautifulSoup
import calendar# 获取项目根目录
PROJECT_ROOT = os.path.dirname(os.path.abspath(__file__))# 配置日志
LOGS_DIR = os.path.join(PROJECT_ROOT, 'logs')
os.makedirs(LOGS_DIR, exist_ok=True)def setup_logging():log_file = os.path.join(LOGS_DIR, datetime.now().strftime('%Y-%m-%d_%H-%M-%S_羲和.txt'))logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s - %(message)s',handlers=[logging.FileHandler(log_file),logging.StreamHandler()])setup_logging()# 数据集类
class XihuaDataset(Dataset):def __init__(self, file_path, tokenizer, max_length=128):self.tokenizer = tokenizerself.max_length = max_lengthself.data = self.load_data(file_path)def load_data(self, file_path):data = []if file_path.endswith('.jsonl'):with jsonlines.open(file_path) as reader:for i, item in enumerate(reader):try:data.append(item)except jsonlines.jsonlines.InvalidLineError as e:logging.warning(f"跳过无效行 {i + 1}: {e}")elif file_path.endswith('.json'):with open(file_path, 'r') as f:try:data = json.load(f)except json.JSONDecodeError as e:logging.warning(f"跳过无效文件 {file_path}: {e}")return datadef __len__(self):return len(self.data)def __getitem__(self, idx):item = self.data[idx]question = item.get('question', '')human_answer = item.get('human_answers', [''])[0]chatgpt_answer = item.get('chatgpt_answers', [''])[0]try:inputs = self.tokenizer(question, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)human_inputs = self.tokenizer(human_answer, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)chatgpt_inputs = self.tokenizer(chatgpt_answer, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)except Exception as e:logging.warning(f"跳过无效项 {idx}: {e}")return self.__getitem__((idx + 1) % len(self.data))return {'input_ids': inputs['input_ids'].squeeze(),'attention_mask': inputs['attention_mask'].squeeze(),'human_input_ids': human_inputs['input_ids'].squeeze(),'human_attention_mask': human_inputs['attention_mask'].squeeze(),'chatgpt_input_ids': chatgpt_inputs['input_ids'].squeeze(),'chatgpt_attention_mask': chatgpt_inputs['attention_mask'].squeeze(),'human_answer': human_answer,'chatgpt_answer': chatgpt_answer}# 获取数据加载器
def get_data_loader(file_path, tokenizer, batch_size=8, max_length=128):dataset = XihuaDataset(file_path, tokenizer, max_length)return DataLoader(dataset, batch_size=batch_size, shuffle=True)# 模型定义
class XihuaModel(torch.nn.Module):def __init__(self, pretrained_model_name='F:/models/bert-base-chinese'):super(XihuaModel, self).__init__()self.bert = BertModel.from_pretrained(pretrained_model_name)self.classifier = torch.nn.Linear(self.bert.config.hidden_size, 1)def forward(self, input_ids, attention_mask):outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)pooled_output = outputs.pooler_outputlogits = self.classifier(pooled_output)return logits# 训练函数
def train(model, data_loader, optimizer, criterion, device, progress_var=None):model.train()total_loss = 0.0num_batches = len(data_loader)for batch_idx, batch in enumerate(data_loader):try:input_ids = batch['input_ids'].to(device)attention_mask = batch['attention_mask'].to(device)human_input_ids = batch['human_input_ids'].to(device)human_attention_mask = batch['human_attention_mask'].to(device)chatgpt_input_ids = batch['chatgpt_input_ids'].to(device)chatgpt_attention_mask = batch['chatgpt_attention_mask'].to(device)optimizer.zero_grad()human_logits = model(human_input_ids, human_attention_mask)chatgpt_logits = model(chatgpt_input_ids, chatgpt_attention_mask)human_labels = torch.ones(human_logits.size(0), 1).to(device)chatgpt_labels = torch.zeros(chatgpt_logits.size(0), 1

BERT的中文问答系统50

我们将对BERT的中文问答系统48-1代码进行以下改进： 1.增加时间日期和日历功能：在GUI中增加显示当前时间和日期的功能，并提供一个日历组件。 2.增加更多模型类型：增加娱乐、电脑、军事、汽车、植物、科技、历史（朝代、皇帝）、名人、生活（出行、菜品、菜谱、居家），法律、…...

编程日记 2024/12/5 20:18:50

深入解析CMake中的find_package命令：用法、特性及版本依赖问题

深入解析CMake中的find_package命令：用法、特性及版本依赖问题在现代软件开发中，CMake作为一个强大的构建系统，广泛应用于跨平台项目的管理与编译。find_package是CMake中一个核心命令，用于查找并配置项目所依赖的外部库或包。本…...

编程日记 2024/12/5 20:15:43

【OpenDRIVE_Python】使用python脚本输出OpenDRIVE数据中含有隧道tunnel的道路ID和隧道信息

示例代码说明： 遍历OpenDRIVE数据中每条道路Road,若Road中存在隧道tunnel属性，则将该道路ID和包含的所有隧道信息输出到xml文件中。 import xml.dom.minidom from xml.dom.minidom import parse from xml.dom import Node import sys import os # 读取…...

编程日记 2024/12/5 20:12:40

SIP系列五：HTTP(SIP)鉴权

我的音视频/流媒体开源项目(github) SIP系列目录目录一、基本认证(basic) 二、摘要认证(digest) 1、摘要认证(digest) RFC 2069 2、摘要认证(digest) RFC 2617 2.1、未定义qop字段或值为"(空) 2.2、qop值为"auth" 2.3、qop值为"auth-int&quo…...

编程日记 2024/12/5 20:11:37

mysql json整数数组去重整数数组精确查找并删除相应数据

都是针对整数数组。低版本可用。懒得去查找资料的可以参考下。 json整数数组查找具体数据修改或者删除： update saas_new_tms.eda_logistics_limit set service_attribute json_remove(service_attribute,json_unquote(json_search(replace(service_attribute,…...

编程日记 2024/12/5 20:10:35

【5G】技术组件 Technology Components

5G的目标设置非常高，不仅在数据速率上要求达到20Gbps，在容量提升上要达到1000倍，还要为诸如大规模物联网（IoT， Internet of Things）和关键通信等新服务提供灵活的平台。这些高目标要求5G网络采用多种新技术…...

编程日记 2024/12/5 20:08:33

数据结构4——栈和队列

目录 1.栈 1.1.栈的概念及结构 1.2栈的实现 2.队列 2.1队列的概念及结构 2.2队列的实现 1.栈 1.1.栈的概念及结构栈：一种特殊的线性表，其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一段称为栈顶，另一端称为…...

编程日记 2024/12/5 20:06:31

PHP SM4 加密

PHP SM4 加密 sm4基类 class Sm4 {private $ck [0x00070e15, 0x1c232a31, 0x383f464d, 0x545b6269,0x70777e85, 0x8c939aa1, 0xa8afb6bd, 0xc4cbd2d9,0xe0e7eef5, 0xfc030a11, 0x181f262d, 0x343b4249,0x50575e65, 0x6c737a81, 0x888f969d, 0xa4abb2b9,0xc0c7ced5, 0xdce3ea…...

编程日记 2024/12/5 20:03:28

leetcode - 2825. Make String a Subsequence Using Cyclic Increments

Description You are given two 0-indexed strings str1 and str2. In an operation, you select a set of indices in str1, and for each index i in the set, increment str1[i] to the next character cyclically. That is ‘a’ becomes ‘b’, ‘b’ becomes ‘c’, an…...

编程日记 2024/12/5 20:02:25

工业—使用Flink处理Kafka中的数据_ChangeRecord1

使用 Flink 消费 Kafka 中 ChangeRecord 主题的数据，当某设备 30 秒状态连续为 “ 预警 ” ，输出预警信息。当前预警信息输出后，最近30...

编程日记 2024/12/5 20:01:22

探索嵌入式硬件设计：揭秘智能设备的心脏

目录引言嵌入式系统简介嵌入式硬件设计的组成部分设计流程微控制器选择原理图设计 PCB布局编程与调试系统集成与测试深入理解微控制器存储器管理输入/输出接口通信接口电源管理硬件抽象层（HAL） 操作系统（OS&am…...

编程日记 2024/12/5 20:00:21

数据结构-最小生成树

一.最小生成树的定义从V个顶点的图里生成的一颗树，这颗树有V个顶点是连通的，有V-1条边，并且边的权值和是最小的,而且不能有回路二.Prim算法 Prim算法又叫加点法，算法比较适合稠密图每次把边权最小的顶点加入到树中&#xff0…...

编程日记 2024/12/5 19:59:20

mac启动jmeter

// 设置使用java8，使用21版本会有问题 export JAVA_HOME/Library/Java/JavaVirtualMachines/jdk1.8.0_221.jdk/Contents/Home/ export PATH$JAVA_HOME/bin:$PATH cd /Users/user/software/apache-jmeter-5.1.1 //设置不使用代理 sh jmeter -Jhttp.proxyHost -J…...

编程日记 2024/12/5 19:58:18

spring学习笔记之静态代理和动态代理

在 Spring 开发中，静态代理和动态代理是实现面向切面编程（AOP）的两种常见方式。两者的主要区别在于代理类的生成时间和方式。静态代理定义静态代理是由开发者或工具在编译期明确创建代理类的方式，代理类和目标类在程序运行前就已经存在。特点代理类明确存在：需要…...

编程日记 2024/12/5 19:55:14

qemu搭建aarch64

qemu工具搭建aarch64系统下载准备下载qemu: https://qemu.weilnetz.de/w64/2022/qemu-w64-setup-20220831.exe 下载固件：https://publishing-ie-linaro-org.s3.amazonaws.com/releases/components/kernel/uefi-linaro/16.02/release/qemu64/QEMU_EFI.fd?Signat…...

编程日记 2024/12/5 19:48:00

delphi IDE 插件DelphiIDEPlugin_SearchProject，用于从项目组中查找项目

delphi IDE 插件DelphiIDEPlugin_SearchProject，用于从项目组中查找项目安装后在菜单Tools下第一个子菜单项查找项目 delphiIDE插件DelphiIDEPlugin-SearchProject，用于从项目组中查找项目资源-CSDN文库...

编程日记 2024/12/5 19:45:57

【Vue】Scoped、组件间通信、Props检验

目录 Scoped 作用 *原理组件通信前置知识什么是组件通信为什么需要组件通信如何进行组件通信如何辨别两个组件的关系父子组件通信父传子子传父非父子组件通信祖先传后代语法任意两个组件通信步骤 Props校验 props是什么作用语法组件的…...

编程日记 2024/12/5 19:44:56

openbmc dbus架构简析(二)

1.说明以前看内核代码觉得难，是因为内核代码涉及到硬件原理与算法结构和层次递进的代码逻辑，现在的应用层因为业务的复杂与代码和内核的交互接口复杂，也变得有些难度了。这篇文章是继:openbmc dbus架构简析的第二篇文章。首先贴出来前篇…...

编程日记 2024/12/5 19:42:54

【二分查找】Leetcode例题

【1】69. x 的平方根 - 力扣（LeetCode） 🍡解题思路：首先想到的是暴力查找，从1开始依次比较x与num*num的大小，然后找出满足num*num<x且(num1)*(num1)>x的num值；再来看看能不能优化一下&…...

编程日记 2024/12/5 19:41:53

gitlab配置调试minio

官方文档 rails console 调试查看配置Settings.uploads.object_store加载minio clientrequire fog/awsfog_connection Fog::Storage.new(provider: AWS,aws_access_key_id: 你的MINIO_ACCESS_KEY,aws_secret_access_key: 你的MINIO_SECRET_KEY,region: <S3 region>,e…...

编程日记 2024/12/5 19:40:51

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现，玩家控制一个角色（龙）躲避障碍物（仙人掌和乌鸦）。以下是代码的详细介绍：…...

编程新知 2025/7/15 21:41:19

安宝特方案丨XRSOP人员作业标准化管理平台：AR智慧点检验收套件

在选煤厂、化工厂、钢铁厂等过程生产型企业，其生产设备的运行效率和非计划停机对工业制造效益有较大影响。随着企业自动化和智能化建设的推进，需提前预防假检、错检、漏检，推动智慧生产运维系统数据的流动和现场赋能应用。同时，…...

编程新知 2025/7/10 10:37:13

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据案例一对于查询类API，查询的是单条数据，比如根据主键ID查询用户信息，sql如下： select id, name, age from user where id #{id}API默认返回的数据格式是多条的，如下： {&qu…...

编程新知 2025/7/15 13:10:43

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/7/8 18:59:18

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因常见解决方法更好的解决方法设计精妙之处登录续期登录续期常见实现方式特…...

编程新知 2025/6/22 19:33:11

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

本文介绍了一种名为AnomalyAny的创新框架，该方法利用Stable Diffusion的强大生成能力，仅需单个正常样本和文本描述，即可生成逼真且多样化的异常样本，有效解决了视觉异常检测中异常样本稀缺的难题，为工业质检、医疗影像…...

编程新知 2025/7/15 17:23:56

【无标题】湖北理元理律师事务所：债务优化中的生活保障与法律平衡之道

文/法律实务观察组在债务重组领域，专业机构的核心价值不仅在于减轻债务数字，更在于帮助债务人在履行义务的同时维持基本生活尊严。湖北理元理律师事务所的服务实践表明，合法债务优化需同步实现三重平衡： 法律刚性（债…...

编程新知 2025/7/15 18:25:58

一些实用的chrome扩展0x01

简介浏览器扩展程序有助于自动化任务、查找隐藏的漏洞、隐藏自身痕迹。以下列出了一些必备扩展程序，无论是测试应用程序、搜寻漏洞还是收集情报，它们都能提升工作流程。 FoxyProxy 代理管理工具，此扩展简化了使用代理（如 Burp…...

编程新知 2025/7/14 12:15:45

【若依】框架项目部署笔记

参考【SpringBoot】【Vue】项目部署_no main manifest attribute, in springboot-0.0.1-sn-CSDN博客多一个redis安装准备工作： 压缩包下载：http://download.redis.io/releases 1. 上传压缩包，并进入压缩包所在目录，解压到目标…...

编程新知 2025/7/13 4:15:17

BERT的中文问答系统50

相关文章：

BERT的中文问答系统50

深入解析CMake中的find_package命令：用法、特性及版本依赖问题

【OpenDRIVE_Python】使用python脚本输出OpenDRIVE数据中含有隧道tunnel的道路ID和隧道信息

SIP系列五：HTTP(SIP)鉴权

mysql json整数数组去重整数数组精确查找并删除相应数据

【5G】技术组件 Technology Components

数据结构4——栈和队列

PHP SM4 加密

leetcode - 2825. Make String a Subsequence Using Cyclic Increments

工业—使用Flink处理Kafka中的数据_ChangeRecord1

探索嵌入式硬件设计：揭秘智能设备的心脏

数据结构-最小生成树

mac启动jmeter

spring学习笔记之静态代理和动态代理

qemu搭建aarch64

delphi IDE 插件DelphiIDEPlugin_SearchProject，用于从项目组中查找项目

【Vue】Scoped、组件间通信、Props检验

openbmc dbus架构简析(二)

【二分查找】Leetcode例题

gitlab配置调试minio

【Python】 -- 趣味代码 - 小恐龙游戏

安宝特方案丨XRSOP人员作业标准化管理平台：AR智慧点检验收套件

DBAPI如何优雅的获取单条数据

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

【无标题】湖北理元理律师事务所：债务优化中的生活保障与法律平衡之道

热门Chrome扩展程序存在明文传输风险，用户隐私安全受威胁

一些实用的chrome扩展0x01

【若依】框架项目部署笔记