当前位置：首页 > article >正文

LLM自动化评测

article 2026/3/12 11:44:49

使用的数据集：ceval-exam

import requests
from datasets import load_dataset, concatenate_datasets
import re
from tqdm import tqdm
import re, time, tiktoken, ollama
from ollama import ChatResponse
from ollama import Optionsdef llm(model, query, temperature=0.6, stream=False, encoding=tiktoken.encoding_for_model("gpt-4"), max_tokens=None):# return "A"options = Options(temperature=temperature,num_gpu=0, # num_gpu=0即使用CPU计算# num_thread=32,# num_ctx=4096, # 上下文窗口大小)# 流式输出response = ollama.chat(model=model,messages=[{"role": "system","content": "你是一个做题专家。请完成下列单项选择题。\n\n## output format\n只能输出一个选项编号字母，不要有解析等其他任何内容。",},{"role": "user","content": query,},],options=options,stream=stream,keep_alive=0)if stream:chunks = ""# 逐块打印响应内容for chunk in response:chunks += chunk["message"]["content"]# print(chunk["message"]["content"], end="", flush=True)if max_tokens != None and len(encoding.encode(chunks)) > max_tokens:breakresponse = chunkselse:# print(response["message"]["content"])response = response["message"]["content"]# stream=True时无效# with open("tmp.txt", "a", encoding="utf-8") as f:#     f.write(response + "\n"+ 100*'*' + '\n')if '<think>' in response and '</think>' in response:response = re.sub(r'<think>.*?</think>', '', response, flags=re.DOTALL)return response.strip()task_list = ["computer_network","operating_system","computer_architecture","college_programming","college_physics","college_chemistry","advanced_mathematics","probability_and_statistics","discrete_mathematics","electrical_engineer","metrology_engineer","high_school_mathematics","high_school_physics","high_school_chemistry","high_school_biology","middle_school_mathematics","middle_school_biology","middle_school_physics","middle_school_chemistry","veterinary_medicine","college_economics","business_administration","marxism","mao_zedong_thought","education_science","teacher_qualification","high_school_politics","high_school_geography","middle_school_politics","middle_school_geography","modern_chinese_history","ideological_and_moral_cultivation","logic","law","chinese_language_and_literature","art_studies","professional_tour_guide","legal_professional","high_school_chinese","high_school_history","middle_school_history","civil_servant","sports_science","plant_protection","basic_medicine","clinical_medicine","urban_and_rural_planner","accountant","fire_engineer","environmental_impact_assessment_engineer","tax_accountant","physician",
]
task_chinese_name_list = ["计算机网络","操作系统","计算机架构","大学编程","大学物理","大学化学","高等数学","概率与统计","离散数学","电气工程师","计量工程师","高中数学","高中物理","高中化学","高中生物学","中学数学","中学生物学","中学物理","中学化学","兽医学","大学经济学","工商管理","马克思主义","毛泽东思想","教育科学","教师资格","高中政治","高中地理","中学政治","中学地理","现代中国史","思想道德修养","逻辑","法律","汉语与文学","艺术研究","专业旅游指南","法律专业","高中汉语","高中历史","中学历史","公务员","体育科学","植物保护","基础医学","临床医学","城市与农村规划","会计","消防工程师","环境影响评估工程师","税务会计","医生",
]def test_split(model_name):encoding = tiktoken.encoding_for_model("gpt-4")model_name_write = model_name.replace(":", "_").replace("/", "_")# with open(f"{model_name_write}.txt", "w", encoding="utf-8") as f:#     f.write(f"")# 加载数据集sum_total = 0sum_correct = 0for i in range(26, len(task_list)):try:dataset_tmp = load_dataset(r"ceval/data", name=task_list[i])dataset = concatenate_datasets([dataset_tmp["dev"], dataset_tmp["val"]])print(f"\nNo.{i}: {task_list[i]}({task_chinese_name_list[i]})数据集加载完成, len(dataset)={len(dataset)}")except:print(f"\nNo.{i}: {task_list[i]}({task_chinese_name_list[i]})数据集加载失败")continue# 初始化统计变量correct = 0total = len(dataset)for item in tqdm(dataset, desc=f"No.{i}: Processing"):# for item in dataset:try:# 构造完整问题user_prompt = f"{item['question']}\nA. {item['A']}\nB. {item['B']}\nC. {item['C']}\nD. {item['D']}\n答案："# 调用Ollama APImodel_answer = llm(model_name, user_prompt, stream=True, encoding=encoding, max_tokens=4096)# 提取并验证答案"""从模型输出中提取答案选项（A/B/C/D）"""match = re.search(r"[A-D]", model_answer.upper())extracted = match.group(0) if match else Noneif extracted and extracted == item["answer"]:correct += 1except:print("\nerror.")# 输出结果sum_total += totalsum_correct += correctprint(f"No.{i}: {task_list[i]}({task_chinese_name_list[i]})数据集准确率: {correct}/{total} = {correct/total:.2%}")with open(f"{model_name_write}.txt", "a", encoding="utf-8") as f:f.write(f"No.{i}: {task_list[i]}({task_chinese_name_list[i]})数据集准确率: {correct}/{total} = {correct/total:.2%}\n\n")with open(f"{model_name_write}.txt", "a", encoding="utf-8") as f:f.write(f"总准确率: {sum_correct}/{sum_total} = {sum_correct/sum_total:.2%}\n\n")print(f"总准确率: {sum_correct}/{sum_total} = {sum_correct/sum_total:.2%}")# huihui_ai/qwen2.5-abliterate:7b-instruct-q4_K_M    
# qwen2.5:3b-instruct-q8_0                           
# qwen2.5:7b-instruct-q5_K_M                         
# deepseek-r1-7b:latest 
# test_split(model_name="qwen2.5:3b-instruct-q8_0")
# test_split(model_name="qwen2.5:7b-instruct-q5_K_M")
# test_split(model_name="huihui_ai/qwen2.5-abliterate:7b-instruct-q4_K_M")
# test_split(model_name="qwen2.5:1.5b")
# test_split(model_name="qwen2.5:1.5b-instruct-fp16")
# test_split(model_name="qwen2.5:3b")
# test_split(model_name="gemma3:4b")
# test_split(model_name="qwen2.5:7b")
# test_split(model_name="gemma3:4b-it-q8_0")
# test_split(model_name="qwen2.5:0.5b-instruct-fp16")
# test_split(model_name="qwen2.5:0.5b")test_split(model_name="deepseek-r1:1.5b")
# test_split(model_name="deepseek-r1:1.5b-qwen-distill-fp16")
# test_split(model_name="deepseek-r1:7b")

LLM自动化评测

使用的数据集：ceval-exam import requests from datasets import load_dataset, concatenate_datasets import re from tqdm import tqdm import re, time, tiktoken, ollama from ollama import ChatResponse from ollama import Optionsdef llm(model, query, te…...

编程日记 2026/3/8 6:28:23

Linux--操作系统/进程

ok，我们今天学习linux中的操作系统和进程 1. 冯诺依曼体系我们常⻅的计算机，如笔记本。我们不常⻅的计算机，如服务器，⼤部分都遵守冯诺依曼体系。内存是CPU和外设之间的一个巨大的缓存！ 截⾄⽬前，我们…...

编程日记 2026/3/3 1:50:26

MFC控件按钮的使用

MFC窗口的创建/消息映射机制 mfc.h #include<afxwin.h>//mfc头文件//应用程序类 class MyApp:public CWinApp //继承于应用程序类 { public://程序入口virtual BOOL InitInstance(); };//框架类 class MyFrame:public CFrameWnd { public:MyFrame();//声明宏提供消息映…...

编程日记 2026/2/15 5:51:26

Java面试八股—Redis篇

一、Redis的使用场景 （一）缓存 1.Redis使用场景缓存场景：缓存热点数据（如用户信息、商品详情），减少数据库访问压力，提升响应速度。 2.缓存穿透正常的访问是：根据ID查询文章&…...

编程日记 2026/3/9 7:52:32

计算矩阵边缘元素之和（信息学奥赛一本通-1121）

【题目描述】输入一个整数矩阵，计算位于矩阵边缘的元素之和。所谓矩阵边缘的元素，就是第一行和最后一行的元素以及第一列和最后一列的元素。【输入】第一行分别为矩阵的行数m和列数n（m<100，n<100）&#xff0c…...

编程日记 2026/3/7 7:07:25

Web后端开发之Maven

Maven Mven是apache旗下的一个开源项目，用来管理和构建java项目的工具。通过一小段描述信息来管理项目。 Maven的作用 1.依赖管理：方便快捷的管理项目依赖的资源（jar包），避免版本冲突问题以前用某个jar包需要下载…...

编程日记 2026/3/7 20:54:21

哈希算法，蓝桥杯java备战中

哈希表的实现核心思路目标：实现一个基于开放寻址法（线性探测）的哈希表，支持插入元素 I x 和查询元素 Q x 两种操作。核心逻辑： 哈希函数：将元素映射到固定范围的索引（哈希值）。…...

编程日记 2026/2/15 20:43:37

there are no enabled repos

我做了两个操作第一个操作： 1.先在本地电脑，也就是在我们电脑的桌面上下载 https://repo.huaweicloud.com/repository/conf/CentOS-7-reg.repo 2.在CentOS 创建etc文件夹 3在etc文件夹内创建yum.repos.d文件夹 4.将下载好的repo 黏贴到yum.repos.d…...

编程日记 2026/2/24 18:58:24

OpenEuler-22.03-LTS上利用Ansible轻松部署MySQL 5.7

一、需求使用ansible自动化部署mysql二进制部署mysql部署mysql并创建JDBC用户二、环境信息本文涉及的代码，配置文件地址： 链接：百度网盘请输入提取码提取码：1g6y 软件名称版本备注Ansible2.9.27All modules — Ansible Doc…...

编程日记 2026/3/1 20:04:38

前端无限滚动内容自动回收技术详解：原理、实现与优化

文章目录一、核心需求与技术挑战1.1 无限滚动的问题症结1.2 自动回收的三大目标二、技术实现原理2.1 虚拟滚动核心机制2.2 关键技术指标三、完整实现方案3.1 基础HTML结构3.2 CSS关键样式3.3 JavaScript核心逻辑3.3.1 滚动控制器3.3.2 动态尺寸处理四、性能优化策略4.1 内存…...

编程日记 2026/3/2 2:05:25

LeetCode hot 100 每日一题(9)——560. 和为 K 的子数组

这是一道难度为中等的题目，让我们来看看题目描述： 给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。示例 1： 输入： nums [1,1,1], k 2 输…...

编程日记 2026/2/14 22:11:49

C++Primer学习（6.7 函数指针——难！）

6.7 函数指针 (这一章节比较难) 函数指针指向的是函数而非对象。和其他指针一样，函数指针指向某种特定类型。函数的类型由它的返回类型和形参类型共同决定，与函数名无关。例如: //比较两个 string 对象的长度 bool lengthCompare(const string &,co…...

编程日记 2026/2/14 16:43:05

单一责任原则在Java设计模式中的深度解析

在软件开发中，设计模式提供了一种解决特定问题的思路。在众多的设计原则中，单一责任原则（Single Responsibility Principle，SRP）是一个非常重要的概念。它主要强调一个类应该只有一个责任，也就是说&#xf…...

编程日记 2026/2/15 2:01:39

如何在Ubuntu上构建编译LLVM和ISPC，以及Ubuntu上ISPC的使用方法

之前一直在 Mac 上使用 ISPC，奈何核心/线程太少了。最近想在 Ubuntu 上搞搞，但是 snap 安装的 ISPC不知道为什么只能单核，很奇怪，就想着编译一下，需要 Clang 和 LLVM。但是 Ubuntu 很搞，他的很多软件版本是…...

编程日记 2026/3/11 22:11:47

学习计划：第四阶段（第十周）

目录第四阶段：特殊方法与高级特性第 10 周：综合复习与实践周一周二周三周四周五总结一、项目设计与实现二、问题与解决三、学习成果四、后续展望第四阶段：特殊方法与高级特性第 10 周：综合复习与实践 …...

编程日记 2026/2/14 22:29:25

如何查看redis的缓存时间

要查看 Redis 缓存的时间，有下列两种方式： 一、使用 TTL 命令来获取缓存剩余的时间 Redis提供了多个命令来查看缓存数据的时间戳，其中最常用的命令是ttl和pttl。 ttl它返回的是以秒为单位的时间，表示 key 距离过期的时间还有多久…...

编程日记 2025/7/14 2:59:57

每日学习Java之一万个为什么

JVM的加载过程启动阶段：启动JVM实例，设置初始配置参数，加载核心类库如java.lang类加载器：自举加载器，扩展加载器，系统加载器，自定义加载器。分别负责- 1.核心类库rt.jar等 2.扩展目录下的类库…...

编程日记 2025/6/9 2:00:14

【MySQL】表的约束（上）

文章目录表的约束什么是表的约束空属性默认值列描述（comment）零填充（zerofill）主键总结表的约束什么是表的约束表的约束（Constraints）是数据库表中的规则，用于限制存储的数据&#xff0c…...

编程日记 2026/3/12 1:09:50

静态分析技术：Jadx-GUI高级用法与模式识别

1. 深度反编译策略 1.1 多层级反混淆方案代码恢复流程： graph TD A[混淆代码] --> B{符号恢复} B -->|字典匹配| C[变量重命名] B -->|类型推导| D[参数重构] C --> E[控制流优化] D --> E E --> F[语义化输出] 反混淆脚本示例&…...

编程日记 2026/3/5 18:17:51

30天学习Java第六天——Object类

Object类 java.lang.Object时所有类的超类。Java中所有类都实现了这个类中的方法。 toString方法将Java对象转换成字符串的表示形式。 public String toString() {return getClass().getName() "" Integer.toHexString(hashCode()); }默认实现是：完…...

编程日记 2026/3/3 9:19:39

【C语言】编译和链接详解

hi，各位，让我们开启今日份博客~ 小编个人主页点这里~ 目录一、翻译环境和运行环境1、翻译环境1.1预处理（预编译）1.2编译1.2.1词法分析1.2.2语法分析1.2.3语义分析 1.3汇编1.4链接 2.运行环境一、翻译环境和运行环境在ANSI C…...

编程日记 2026/3/7 6:47:20

Secs/Gem第一讲(基于secs4net项目的ChatGpt介绍)

后续内容为基于github上secs4net项目源码的ChatGpt介绍以该项目为主，从零开始介绍讲解secs/gem，更多的以面试口吻讲述形式。主要为个人学习，提升使用 🎓 第一讲：SECS/GEM 协议是个什么东西？ &#x1f4c…...

编程日记 2026/2/27 1:23:54

DataWhale 速通AI编程开发：（基础篇）第1章环境下载、安装与配置

课程地址：Datawhale-学用 AI,从此开始 vscode 更新为最新版目前绝大多数deepseek非官方渠道均兼容openai的api格式，这里以硅基流动为例进行演示，其他非官方渠道同理。点击链接注册账号之后，点击“实名认证“完成实名&#xff0…...

编程日记 2026/2/28 1:38:55

本地知识库RAG总结

目录 RAG流程: 知识库的要求： 知识抽取： 知识存储: 向量化: 知识检索: 应用客户端: RAG智能问答应用几个痛点： 如何提升召回率改进思路： 如何提升回答专业性： RAG评测： 总结： 参考…...

编程日记 2026/3/11 15:46:08

torch_geometric 安装

环境监测： import torch print(torch.__version__) # 查看pytorch安装的版本号 print(torch.cuda.is_available()) # 查看cuda是否可用。True为可用，即是gpu版本pytorch print(torch.cuda.get_device_name(0)) # 返回GPU型号 …...

编程日记 2026/2/27 10:04:05

网页打印很简单！用web打印插件lodop轻松实现文件打印

最近，给客户发一个事件提醒软件，其中客户要求实现打印功能，因为是用asp.net mvc 开发首先考虑到用水晶报表来实现（crystalReport），以前开发c# winform程序，感觉水晶报表还是蛮好的，但…...

编程日记 2026/2/15 21:11:10

北京迅为iTOP-RK3568开发板OpenHarmony系统南向驱动开发实操-HDF驱动配置LED

瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码，支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU，可用于轻量级人工…...

编程日记 2026/3/11 0:35:56

C语言函数全解析 | 零基础入门指南

📚 C语言函数全解析 | 零基础入门指南 📑 目录 🌟 什么是函数？🔧 函数的定义与结构⚙️ 函数参数与返回值💡 函数声明与调用🏁 Main函数详解🚀 实战案例演示 1. 什么是函数功能单…...

编程日记 2026/2/21 5:06:04

驻场运维服务方案书（Word文件）

目录第一章背景分析 1.1. 项目背景 1.2. 项目目标 1.3. 系统现状 1.3.1. 网络系统 1.3.2. 设备清单梳理 1.3.3. 应用系统第二章需求分析及理解 2.1. 在重要日期能保障信息系统安全 2.2. 信息系统可长期安全、持续、稳定的运行 2.3. 提升发现安全问题、解决安全…...

编程日记 2026/3/1 5:19:09

【时时三省】(C语言基础)用printf函数输出数据2

山不在高，有仙则名。水不在深，有龙则灵。 ----CSDN 时时三省格式字符在输出时，对不同类型的数据要指定不同的格式声明，而格式声明中最重要的内容是格式字符。常用的有以下几种格式字符。 ( 1 ) d格式符。用来输出一个有符号的…...

编程日记 2026/2/15 16:30:45

相关文章：