2024泰迪杯c题详细思路代码讲解:竞赛论文的辅助自动评阅
C:竞赛论文的辅助自动评阅
步骤一:理解拆解题目,并对附件1中的论文集进行初步分析。
步骤二:特征构造
论文完整性:开发算法以检查论文是否全面回答了赛题。这包括自然语言处理(NLP)技术来识别关键段落和论证的完整性。
利用自然语言处理(NLP)技术:信息抽取、关键词识别等,自动提取和识别论文中与赛题相关的内容和章节。
应用关键词匹配和主题建模技术识别是否存在与赛题内容相关的段落和章节:包括但不限于:“摘要”, “目录”, “问题重述”, “假设条件”, “符号说明”, “模型建立”, “模型求解”, “模型检验”, “结果分析”, “结论”, “参考文献”, "附录"等。
实质性工作:利用文本分类和信息抽取技术,识别和评估论文中对赛题问题的研究深度和质量。
将文本分成段落或句子,经过分词处理后从中提取赛题相关的关键词。
创建并训练LDA主题模型,总结题目关键词语。
将关键词转化为词向量,基于相关性分析评估提取的信息与赛题要求的匹配度
摘要质量:通过比较摘要和全文内容,评估其一致性和准确性。可以使用摘要生成和评估技术来实现。
主要从摘要与全文等一致性和准确性角度进行评估。
一致性评价:评估摘要中的信息是否与正文内容一致,是否存在误导性或缺失重要信息的情况。
完整性评价:检查摘要是否包含了所有必要的信息元素,评估其对正文内容的完整反映。
识别摘要中应包含的关键信息元素,如研究问题、研究方法、主要结果和研究意义等。
可考虑从以下角度进行分析:
相似度分数:计算摘要和正文的文本相似度分数,较高的分数表明更好的一致性。
信息覆盖率:评估摘要对正文关键信息的覆盖率,完全覆盖得分更高。
清晰度和准确性:评价摘要的表达是否清晰、准确,无歧义。
简洁性:摘要应简洁扼要,避免冗余和非必要信息。
写作水平:结合传统的文本评分技术和深度学习方法,从文本流畅性、逻辑性、结构等方面评价写作水平。
载入中文NLP模型
nlp = spacy.load(‘zh_core_web_sm’)
分别构建写作规范性评价函数,篇章结构评价函数,评价论文立意的函数,计算得到加权后等结果。
步骤三:评分算法实现
评分模型:根据构造的特征和训练好的模型,为每篇论文设计综合评分算法。
使用熵权法(Entropy Weight Method)来设定权重,我们首先需要计算每个评价指标的熵值,再据此确定各指标的权重。熵权法是一种客观赋权方法,能有效地根据数据的离散程度确定各评价指标的重要性,从而计算出每个指标的权重。下面的步骤将通过熵权法重新计算权重,并按照新的权重计算综合评分,最后调整分数分布以满足题目要求。
步骤:
计算指标的熵值:利用各指标的数据计算每个评价指标的信息熵。
计算指标的差异系数和权重:根据熵值,计算每个指标的差异系数,再根据差异系数计算权重。
计算综合评分:根据熵权法得到的权重,计算每篇论文的综合评分。
后续步骤为调整分数分布:按照题目要求调整分数分布。
符合分布要求:确保最终的评分分布符合赛题要求,包括各分数段的比例限制。需要调整评分策略或后处理以满足这些要求。
我们需要根据熵权法计算出的综合评分进行分数分布的调整。这涉及到根据分布条件,设定分数范围的阈值,并确保每个分数段的比例符合要求。让我们继续以前的计算,现在专注于调整分数分布。
我已根据熵权法分配的权重和给定的分数分布要求调整了分数,并保存了调整后的评分结果。
这次调整确保了分数分布满足以下条件:
8-10分的比例不超过3%;
6-7分的比例至少为10%,且6-10分的总比例不超过15%;
4-5分的比例至少为20%,且4-10分的总比例不超过35%;
其余的评分在0-3分之间。
关键代码:
df[‘综合评分’] = df.iloc[:, 1:].mul(weights).sum(axis=1)
调整分数分布
sorted_scores = df[‘综合评分’].sort_values(ascending=False).reset_index(drop=True)
threshold_8_10 = sorted_scores[int(n_papers * 0.03)] # 3%
threshold_6_7 = sorted_scores[int(n_papers * 0.15)] # 15%的上限
threshold_4_5 = sorted_scores[int(n_papers * 0.35)] # 35%的上限
df[‘最终评分’] = np.select(
[ df[‘综合评分’] >= threshold_8_10,
df[‘综合评分’] < threshold_8_10,
df[‘综合评分’] <= threshold_6_7,
df[‘综合评分’] <= threshold_4_5 ],
[ np.random.uniform(8, 10, n_papers), # 8-10分
np.random.uniform(6, 7, n_papers), # 6-7分
np.random.uniform(4, 5, n_papers), # 4-5分
np.random.uniform(0, 3, n_papers) # 0-3分 ], default=0 )
保存到result.xlsx中
步骤四:结果呈现和验证
结果保存:将每篇论文的评分结果按照要求保存到result.xlsx文件中。
性能验证:通过与人工评阅结果的比较,验证模型的有效性和准确性。
调优和改进:根据验证结果,进一步调整和优化模型和评分策略。
###https://docs.qq.com/doc/DVVlhb2xmbUFEQUJL
相关文章:
2024泰迪杯c题详细思路代码讲解:竞赛论文的辅助自动评阅
C:竞赛论文的辅助自动评阅 步骤一:理解拆解题目,并对附件1中的论文集进行初步分析。 步骤二:特征构造 论文完整性:开发算法以检查论文是否全面回答了赛题。这包括自然语言处理(NLP)技术来识别关键段落和论证的完整…...
【GEE实践应用】GEE下载遥感数据以及下载后在ArcGIS中的常见显示问题处理(以下载哨兵2号数据为例)
本期内容我们使用GEE进行遥感数据的下载,使用的相关代码如下所示,其中table是我们提前导入的下载遥感数据的研究区域的矢量边界数据。 var district table;var dsize district.size(); print(dsize);var district_geometry district.geometry();Map.…...
Excel 文件底部sheet 如何恢复
偶然打开一个excel文件,惊奇地发现:原来excel文件底部的若干个sheet居然全都看不到了。好神奇啊。 用其它的电脑打开同样的excel文件,发现:其实能看到的。说明这个excel文件并没有被损坏。只要将修改相关设置。就可以再次看…...
spring boot3登录开发-3(2短信验证登录/注册逻辑实现)
⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 🌊山高路远,行路漫漫,终有归途 目录 写在前面 上文衔接 内容简介 功能分析 短信验证登录实现 1.创建交互对象 用户短信登录/注册DTO 创建用户登录VO…...
ChernoCPP 2
视频链接:【62】【Cherno C】【中字】C的线程_哔哩哔哩_bilibili 参考文章:TheChernoCppTutorial_the cherno-CSDN博客 Cherno的C教学视频笔记(已完结) - 知乎 (zhihu.com) C 的线程 #include<iostream> #include<th…...
【JavaEE】_Spring MVC项目获取Header
目录 1. 使用Servlet原生方法获取Header 2. 使用Spring注解获取Header 1. 使用Servlet原生方法获取Header .java文件内容如下: package com.example.demo.controller;import com.example.demo.Person; import org.springframework.web.bind.annotation.*; impor…...
JavaScript - 请你为数组自定义一个方法myFind,使其实现find方法的功能
难度级别:中级及以上 提问概率:50% 我们知道数组的find方法是ES6之后出现的,它强调找到第一个符合条件的元素后即跳出循环,不再继续执行,那么如果不用ES6的知识,为数组添加一个自定义方法实现find方法的功能,首先要想到在数组的原型pro…...
DSOX3034T是德科技DSOX3034T示波器
181/2461/8938产品概述: 特点: 带宽:350 MHz频道:4存储深度:4 Mpts采样速率:5 GSa/s更新速率:每秒1000000个波形波形数学和FFT自动探测接口用于连接、存储设备和打印的USB主机和设备端口 触摸: 8.5英寸电容式触摸屏专为触摸界面设计 发现: 业界最快的无损波形更…...
Golang | Leetcode Golang题解之第8题字符串转换整数atoi
题目: 题解: func myAtoi(s string) int {abs, sign, i, n : 0, 1, 0, len(s)//丢弃无用的前导空格for i < n && s[i] {i}//标记正负号if i < n {if s[i] - {sign -1i} else if s[i] {sign 1i}}for i < n && s[i] >…...
3月份全球市场推出的24款网络安全热点产品和服务:应用安全和生成式AI应用是热点
CSO在线追踪了3月份全球市场推出的代表性网络安全产品和服务,从中可以观察网络安全产品创新趋势和风向。 1、Bedrock Security的数据安全平台应对云和生成式AI带来的风险 3 月 26 日: Bedrock Security 推出了数据安全平台,旨在帮助组织防范…...
如何在微信小程序中使用less来编写css
在微信小程序中使用 Less 需要一些额外的配置步骤,因为小程序本身不支持直接引用 Less 文件。我们可以借助 Webpack 进行构建,使用一些 loader 来编译 Less 文件。以下是具体步骤: 初始化项目 使用微信开发者工具新建一个小程序项目,或在已有项目的基础上操作。 安装依赖 使…...
【Leetcode】【240407】678. Valid Parenthesis String
It’s time to go back home, today’s in tomorrow lol BGM:无地自容(黑豹乐队《黑豹》) Descripition Given a string s containing only three types of characters: ‘(’, ‘)’ and ‘*’, return true if s is valid. The following rules define a valid…...
移动平台相关(安卓)
目录 安卓开发 Unity打包安卓 编辑编辑 BuildSettings PlayerSettings OtherSettings 身份证明 配置 脚本编译 优化 PublishingSettings 调试 ReMote Android Logcat AndroidStudio的调试 Java语法 编辑编辑编辑 变量 运算符 编辑编辑编辑…...
[C++][算法基础]食物链(并查集)
动物王国中有三类动物 A,B,C,这三类动物的食物链构成了有趣的环形。 A 吃 B,B 吃 C,C 吃 A。 现有 N 个动物,以 1∼N 编号。 每个动物都是 A,B,C 中的一种,但是我们并不知道它到底是哪一种。 有人用两种说法对这 N…...
深入理解Transformer的位置编码机制
Transformer架构由于其独特的设计,不像传统的循环神经网络(RNN)或卷积神经网络(CNN),它无法自然地处理序列数据中的顺序信息。为了使模型能够理解序列中各元素的位置关系,Transformer引入了一种…...
10分钟上手:MySQL8的Json格式字段使用总结干货
一、关于效率和适用范围 尽管官方承诺Json格式字段采用了空间换时间的策略,比Text类型来存储Json有大幅度的效率提升。但是Json格式的处理过程仍然效率不及传统关系表,所以什么时候用Json格式字段尤为重要。 只有我们确定系统已经能精确定位到某一行&am…...
OpenCV 4.9基本绘图
返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV使用通用内部函数对代码进行矢量化 下一篇:使用OpenCV4.9的随机生成器和文本 目标 在本教程中,您将学习如何: 使用 OpenCV 函数 line() 画一…...
显示器and拓展坞PD底层协商
简介: PD显示器或者PD拓展坞方案中,连接显示设备的Type-C端口主要运行在DRP模式,在此模式下可以兼容Source(显卡)、Sink(信号器)、DRP(手机、电脑)模式的显示设备。 Sou…...
如何利用Flutter将应用成功上架至iOS平台:详细指南
引言 🚀 Flutter作为一种跨平台的移动应用程序开发框架,为开发者提供了便利,使他们能够通过单一的代码库构建出高性能、高保真度的应用程序,同时支持Android和iOS两个平台。然而,完成Flutter应用程序的开发只是第一步…...
【运输层】网络数据报协议 UDP
目录 1、UDP 的特点 2、UDP 的首部格式 UDP 只在 IP 协议之上增加了很少的一些功能,比如复用、分用以及差错检测等。 1、UDP 的特点 UDP是无连接的,即发送数据之前不需要建立连接,因此减少了开销和发送数据之前的时延。 UDP使用尽最大努力…...
基于算法竞赛的c++编程(28)结构体的进阶应用
结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...
【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...
如何在看板中有效管理突发紧急任务
在看板中有效管理突发紧急任务需要:设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP(Work-in-Progress)弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中,设立专门的紧急任务通道尤为重要,这能…...
如何为服务器生成TLS证书
TLS(Transport Layer Security)证书是确保网络通信安全的重要手段,它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书,可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一) 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...
关于 WASM:1. WASM 基础原理
一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...
