当前位置: 首页 > article >正文

从0-1体验模型部署到评测

以下为mac电脑环境window部分命令自行替换目录1.首先python环境安装2.创建python虚拟环境3.安装评测框架4.小模型下载常见问题1执行报错是没安装 PyTorch常见问题2 代码执行超时是由于网络问题最好使用国内镜像5.运行评测命令常见问题1ModuleNotFoundError: No module named accelerate常见问题2httpx.ConnectTimeout: [Errno 60] Operation timed out常见问题3timed out thrown while requesting HEAD https://huggingface.co/datasets/Rowan/hellaswag/resolve/main/README.mdRetrying in 1s [Retry 1/5].补充说明仅yaml文件不创建python utils.py的文件查看.parquet文件内容的方式1.首先python环境安装推荐 3.9以上2.创建python虚拟环境# 创建虚拟环境 python3 -m venv venv # 激活 ,激活后剩余base命令操作均需在虚拟环境中 source venv/bin/activate当一切操作结束退出虚拟环境deactivate3.安装评测框架# 下载评测框架 git clone https://github.com/EleutherAI/lm-evaluation-harness # 安装 cd lm-evaluation-harness pip install -e .4.小模型下载可以在https://huggingface.co/ 上直接下载小模型到本地也可以通过代码下载模型名说明gpt2GPT‑2 基础模型非常小很适合初步体验评测链路EleutherAI/pythia‑160m约 160M 权重的小模型训练/评估快StabilityAI/stablelm‑2‑1.6b中型开源模型质量和速度比较好本地可跑以下载gpt2为例# 首先安装transformers pip install transformers # 其次安装 torch pip install torch # 在安装 pip install accelerate # 全部安装完成后执行如下命令验证 python -c import torch; import transformers; import accelerate; print(All good!)在python代码中下载gpt2模型from transformers import AutoModelForCausalLM, AutoTokenizer model_name gpt2 # 也可以是 EleutherAI/pythia-160m tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name)这段代码会自动把模型权重下载到本地缓存 (~ ~/.cache/huggingface/transformers)。常见问题1执行报错是没安装 PyTorch安装命令(CPU版本)pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu如果GPU版本pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118如果不确定显卡或驱动情况先用 CPU 版本即可跑小模型足够练手。验证安装在 Python 中执行import torch print(torch.__version__) print(torch.cuda.is_available())输出类似2.1.0 False说明 PyTorch 安装成功CPU 可用GPU 可选。常见问题2 代码执行超时是由于网络问题最好使用国内镜像import os # 设置镜像源加速下载 os.environ[HF_ENDPOINT] https://hf-mirror.com from transformers import AutoModelForCausalLM, AutoTokenizer model_name gpt2 # 让 transformers 自动管理缓存,不要手动指定路径 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name) print(模型加载成功!) print(f模型参数量: {sum(p.numel() for p in model.parameters()):,})加载完成会得到如下输出如果还会报加载模型失败就干脆直接在huaggingface下载模型。核心文件如下5.运行评测命令查看有哪些评测任务lm-eval ls tasks评估模型基本能力以GPT‑2 在 HellaSwag benchmark上跑分为例lm_eval --model hf --model_args pretrainedgpt2 --tasks hellaswag --device cpu --batch_size 4 --output results.json注意如果执行报错连接失败看常见问题3按本地数据集的方式运行参数解释--model hf使用 HuggingFace 模型后端--model_args pretrainedgpt2模型名称可以换成本地路径--tasks hellaswag评测任务名字--device cpu若有 GPU可以设成cuda:0--batch_size 4每批多少样本--output results.json输出评测结果 JSON 文件评测结束后大概5-10分钟你将看到类似{results: { hellaswag_local: { name: hellaswag_local, alias: hellaswag_local, sample_len: 10042, acc,none: 0.2891854212308305, acc_stderr,none: 0.004524575892953094, acc_norm,none: 0.31139215295757816, acc_norm_stderr,none: 0.004621163476949437 } } }这表示 GPT‑2 在 HellaSwag 上的准确率大约是 28.91%- acc,none → 准确率 28.92%- acc_stderr,none → 标准误 0.45%就是 ± 后面的数- acc_norm,none → 标准化准确率 31.14%- acc_norm_stderr,none → 标准误 0.46%也可以在过程文件 eval_output.log 和日志打印中看到。也可以评测多个任务. 示例lm_eval --model hf \ --model_args pretrainedgpt2 \ --tasks hellaswag,mmlu \ --device cpu \ --batch_size 4 \ --output full_results.json这里列出运行日志2026-03-20:14:26:02 INFO [_cli.run:377] Including path: /Users/hongshao/dataset/tasks 2026-03-20:14:26:02 INFO [_cli.run:378] Selected Tasks: [hellaswag_local] 2026-03-20:14:26:03 INFO [evaluator:213] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234 | Setting fewshot manual seed to 1234 2026-03-20:14:26:03 INFO [evaluator:238] Initializing hf model, with arguments: {pretrained: /Users/hongshao/models/gpt2} 2026-03-20:14:26:05 INFO [models.huggingface:256] Using device cpu 2026-03-20:14:26:05 INFO [models.huggingface:518] Model parallel was set to False, max memory was not set, and device map was set to {: cpu} Loading weights: 0%| | 0/148 [00:00?, ?it/s] Loading weights: 100%|██████████| 148/148 [00:0000:00, 66519.18it/s] 2026-03-20:14:26:06 INFO [evaluator_utils:446] Selected tasks: 2026-03-20:14:26:06 INFO [evaluator_utils:480] Task: hellaswag_local (/Users/hongshao/dataset/tasks/hellaswag_local.yaml) 2026-03-20:14:26:06 INFO [api.task:312] Building contexts for hellaswag_local on rank 0... 0%| | 0/10042 [00:00?, ?it/s] 3%|▎ | 296/10042 [00:0000:08, 1216.45it/s] 7%|▋ | 727/10042 [00:0000:03, 2359.78it/s] 12%|█▏ | 1181/10042 [00:0000:02, 3112.42it/s] 中间省略--------------------------- Running loglikelihood requests: 100%|█████████▉| 40164/40168 [16:0200:00, 90.43it/s] Running loglikelihood requests: 100%|██████████| 40168/40168 [16:0200:00, 41.73it/s] fatal: not a git repository (or any of the parent directories): .git 2026-03-20:14:42:21 INFO [loggers.evaluation_tracker:247] Saving results aggregated hf ({pretrained: /Users/hongshao/models/gpt2}), gen_kwargs: ({}), limit: None, num_fewshot: None, batch_size: 4 | Tasks |Version|Filter|n-shot| Metric | |Value | |Stderr| |---------------|------:|------|-----:|--------|---|-----:|---|-----:| |hellaswag_local| 1|none | 0|acc |↑ |0.2892|± |0.0045| | | |none | 0|acc_norm|↑ |0.3114|± |0.0046|常见问题1ModuleNotFoundError: No module named accelerate在虚拟环境中执行pip install accelerate常见问题2httpx.ConnectTimeout: [Errno 60] Operation timed out由于我们是联网加载模型进行评测因此会受网络问题影响。这里就需要将gpt模型下载到本地。然后修改模型加载的方式用本地模型方式from transformers import AutoTokenizer, AutoModelForCausalLM model_dir /Users/hongshao/models/gpt2 tokenizer AutoTokenizer.from_pretrained(model_dir, local_files_onlyTrue) model AutoModelForCausalLM.from_pretrained(model_dir, local_files_onlyTrue)同时评测命令的执行注意使用# 也是加载本地模型的方式就避免了联网不稳定 lm_eval --model hf --model_args pretrained/Users/hongshao/models/gpt2 --tasks hellaswag --device cpu --batch_size 4 --output results.json常见问题3timed out thrown while requesting HEAD https://huggingface.co/datasets/Rowan/hellaswag/resolve/main/README.mdRetrying in 1s [Retry 1/5].原因模型已经加载完成但是lm-evaluation-harness仍在尝试从 HuggingFace Hub 下载 benchmark 数据集因为hellaswagbenchmark 数据集默认不是本地的需要联网下载。你的网络不稳定或者被墙所以报超时。解决办法1.打开 HellaSwag 数据集页面https://huggingface.co/datasets/Rowan/hellaswag2.点击 Files and versions下载文件到本地 /User/hongshao/dataset/​​​​此时只能通过代码的方式执行因为lm-evaluation-harness没有支持的CLI 参数加载本地评测数据集3.处理文件差异原始 hellaswag 数据集字段 { activity_label: Removing ice from car, ctx_a: Then, the man writes over the snow..., ctx_b: then, endings: [option1, option2, option3, option4], label: 3 # 字符串类型 } lm-eval 需要的字段 { query: Removing ice from car: Then, the man writes..., # 需要拼接 choices: [option1, option2, option3, option4], gold: 3 # 需要是整数 }4.运行评测脚本4.1创建本地yaml配置文件 /Users/hongshao/dataset/tasks/hellaswag_local.yamltask: hellaswag_local dataset_path: /Users/hongshao/dataset/hellaswag dataset_name: null output_type: multiple_choice training_split: null validation_split: validation test_split: null process_docs: !function utils.process_docs doc_to_text: {{query}} doc_to_target: {{gold}} doc_to_choice: choices metric_list: - metric: acc aggregation: mean higher_is_better: true - metric: acc_norm aggregation: mean higher_is_better: true metadata: version: 1.04.2创建 本地 Utils 函数文件 (/Users/hongshao/dataset/tasks/utils.py) 也可以使用纯yaml完成这件事下面补充import re def preprocess(text): text text.strip() text text.replace( [title], . ) text re.sub(\\[.*?\\], , text) text text.replace( , ) return text def process_docs(dataset): def _process_doc(doc): ctx doc[ctx_a] doc[ctx_b].capitalize() label doc.get(label, 0) try: gold int(label) except (ValueError, TypeError): gold 0 out_doc { query: preprocess(doc[activity_label] : ctx), choices: [preprocess(ending) for ending in doc[endings]], gold: gold, } return out_doc return dataset.map(_process_doc)process_docs 函数做三件事1. 拼接字段: 把 activity_label ctx_a ctx_b 拼成完整的 query2. 类型转换: 把 label 从字符串 3 转成整数 33. 文本清洗: preprocess 去除多余空格和伪影在虚拟机中执行HF_ENDPOINThttps://hf-mirror.com lm-eval run \ --model hf \ --model_args pretrained/Users/hongshao/models/gpt2 \ --tasks hellaswag_local \ --include_path /Users/hongshao/dataset/tasks \ --device cpu \ --batch_size 4 \ --output_path /Users/hongshao/results.json到这里你就静静等待结果吧。补充说明仅yaml文件不创建python utils.py的文件task: hellaswag_simple dataset_path: /Users/hongshao/dataset/hellaswag dataset_name: null output_type: multiple_choice validation_split: validation doc_to_text: {{activity_label}}: {{ctx_a}} {{ctx_b | capitalize}} doc_to_target: {{label | int}} doc_to_choice: {{endings}} metric_list: - metric: acc aggregation: mean higher_is_better: true metadata: version: 1.0查看.parquet文件内容的方式1使用 Python pandas最简单source venv/bin/activate python -c import pandas as pd df pd.read_parquet(/Users/hongshao/dataset/hellaswag/data/validation-00000-of-00001.parquet) print(df.head(2)) # 打印前 2 行 print(df.columns) # 打印列名 print(df.shape) # 打印形状 2直接用 lm-eval 内置的查看功能source venv/bin/activate python -c from datasets import load_dataset ds load_dataset(/Users/hongshao/dataset/hellaswag, splitvalidation) print(ds.features) # 查看字段 print(ds[0]) # 查看第一条数据 输出结果 字段定义 {ind: Value(int32), activity_label: Value(string), ctx_a: Value(string), ctx_b: Value(string), ctx: Value(string), endings: List(Value(string)), source_id: Value(string), split: Value(string), split_type: Value(string), label: Value(string)} 第一条数据 ind: 24 activity_label: Roof shingle removal ctx_a: A man is sitting on a roof. ctx_b: he ctx: A man is sitting on a roof. he endings: [is using wrap to wrap a pair of skis., is ripping level tiles off., is holding a rubiks cube., starts pulling up roofing on a roof.] source_id: activitynet~v_-JhWjGDPHMY split: val split_type: indomain label: 3

相关文章:

从0-1体验模型部署到评测

以下为mac电脑环境,window部分命令自行替换 目录 1.首先python环境安装 2.创建python虚拟环境 3.安装评测框架 4.小模型下载 常见问题1:执行报错:是没安装 PyTorch 常见问题2: 代码执行超时,是由于网络问题&…...

CH347F实战:5分钟搞定OpenOCD驱动安装与JTAG调试(Windows避坑指南)

CH347F实战:Windows平台OpenOCD驱动安装与JTAG调试全解析 最近在嵌入式开发圈里,CH347F这颗国产USB转接芯片突然火了起来。作为一款集成了JTAG/SWD调试接口、高速串口、SPI和I2C的多功能芯片,它确实给开发者带来了不少便利。但当我第一次尝试…...

JTAG接口上下拉电阻实战指南:从TMS到TCK的硬件设计细节

JTAG接口上下拉电阻实战指南:从TMS到TCK的硬件设计细节 在嵌入式系统开发中,JTAG接口作为调试和编程的重要通道,其稳定性直接影响开发效率。但许多工程师在设计JTAG电路时,往往对上下拉电阻的配置存在困惑——为什么TMS必须上拉&a…...

OpenClaw安全实践:GLM-4.7-Flash本地化部署的数据隐私保护

OpenClaw安全实践:GLM-4.7-Flash本地化部署的数据隐私保护 1. 为什么金融法律从业者需要本地化AI助手 去年处理一起跨境并购案时,我深刻体会到数据隐私的脆弱性。当时团队使用某云端AI工具分析合同条款,尽管已脱敏处理,但第三方…...

共生依赖症治疗:戒除AI决策辅助的康复方案

测试行业的数字共生危机在AI测试工具普及的当下,软件测试从业者正面临新型职业风险——数字共生依赖症。该症状表现为:测试人员过度依赖AI生成的用例、脚本及缺陷报告,导致自主分析能力退化、决策判断权让渡,甚至出现“工具失效即…...

基于OpenCV的二维码识别与创建:图像算法、Python与GUI界面的实时生成与识别功能

基于opencv二维码的识别与创建,图像算法,python,gui界面,具有生成二维码功能,图片视频和摄像头实时识别功能最近在折腾二维码相关的项目,发现OpenCV自带的二维码识别模块比想象中好用。直接上实战吧&#x…...

算法性能建模中的非线性因素与误差控制的技术6

引言算法性能建模的意义与应用场景非线性因素对模型准确性的影响误差控制在性能优化中的重要性非线性因素的来源与分类硬件层面的非线性(缓存、分支预测、功耗限制)算法层面的非线性(递归深度、数据依赖性、并行度变化)输入规模与…...

别等审计通报才行动:MCP OAuth 2026强制合规窗口仅剩89天,这份含12个可执行checklist的速通手册已内部封存

第一章:MCP OAuth 2026强制合规的底层逻辑与倒计时警讯MCP(Multi-Cloud Provider)OAuth 2026规范并非演进式升级,而是由全球主要云服务商联合签署的强制性互操作协议,其核心驱动力源于监管层面对身份联邦治理失效的系统…...

Qwen3-0.6B-FP8作品集:FP8模型在正则表达式生成任务准确率

Qwen3-0.6B-FP8作品集:FP8模型在正则表达式生成任务准确率 正则表达式,这个让无数程序员又爱又恨的工具。爱它,是因为它能用一行代码解决复杂的文本匹配问题;恨它,是因为它的语法晦涩难懂,写起来像在解谜。…...

eVTOL应急消杀模块功率链路优化:基于高压隔离、高效驱动与精准负载管理的MOSFET选型方案

前言:构筑空中防疫屏障的“电力骨架”——论eVTOL特种功率模块的系统思维在都市空中交通与应急防疫结合的前沿领域,eVTOL飞行器搭载的智能消杀模块,不仅是应对突发公共卫生事件的关键装备,更是一套对功率密度、可靠性与重量极度敏…...

ollama部署QwQ-32B参数详解:RMSNorm层对推理稳定性的影响

ollama部署QwQ-32B参数详解:RMSNorm层对推理稳定性的影响 1. 模型概述与核心特性 QwQ-32B是Qwen系列中具备强大推理能力的语言模型,与传统指令调优模型相比,它在解决复杂问题和逻辑推理任务上表现显著更优。这款325亿参数的模型采用了先进的…...

07-大模型微调-LLama Factor微调Qwen -- 局部微调/训练医疗问答模型

课前小知识 显卡占用 有时候LLama Factor,点击卸载模型之后,显卡占用还是很高,这个时候将服务停止后重启 停止,重启 权重保存位置 大模型微调 瓶颈结构 神经网络有很多层,每一层参数对模型的影响是不同的&#xff08…...

GTE+SeqGPT与Keil5集成开发:嵌入式AI应用实战

GTESeqGPT与Keil5集成开发:嵌入式AI应用实战 1. 嵌入式AI开发新选择 最近在做一个智能家居项目时,遇到了一个有趣的问题:如何让一个小小的嵌入式设备也能理解自然语言指令?传统的语音识别方案要么太耗资源,要么准确率…...

金管局地市级计算机岗之工作中遇到的所有类型数据库全解析:从 Oracle 到图数据库的监管数据生态全景

金管局地市级计算机岗之工作中遇到的所有类型数据库全解析:从 Oracle 到图数据库的监管数据生态全景 作者:培风图南以星河揽胜 CSDN 博客主页|长期稳定全国 Top 600,平台头部创作者 专栏直达:金监局计算机岗专题 声明&…...

OpenClaw性能优化:降低GLM-4.7-Flash任务执行的Token消耗

OpenClaw性能优化:降低GLM-4.7-Flash任务执行的Token消耗 1. 问题背景:Token消耗的隐形成本 上周在尝试用OpenClaw自动整理项目文档时,我盯着账单上的Token消耗数字陷入了沉思——一个简单的文件归类操作,竟然消耗了相当于人工处…...

美工连夜骂娘!这款手机端的“邪修”改图神器,3秒钟砸碎了 PS 的专业饭碗

被“图层”和“仿制图章”支配的噩梦,醒了在数字时代,我们早就习惯了“有图有真相”。但如果你知道,现在修改一张图片上的核心文字,所需要的时间和门槛已经趋近于**“零”**,你还会对屏幕上的像素深信不疑吗&#xff1…...

js常用库函数

1.(1)Math.min()(2)空数组:const resultnew Array(len)(3)n*n的数组:let res Array.from({ length: n }, () > Array(n).fill(0));或者:let res new Array(n); for …...

Emotion2Vec+ Large商业落地:智能音箱如何利用情感识别提升用户体验?

Emotion2Vec Large商业落地:智能音箱如何利用情感识别提升用户体验? 1. 情感识别技术概述 1.1 语音情感识别的发展现状 语音情感识别技术正在经历从实验室研究到商业落地的关键转折期。传统的情感识别主要依赖面部表情和肢体语言分析,但这…...

AI智能体与商业航天的范式革命:迈向自主航天时代的5-10年技术演进与战略蓝图

引言:新太空竞赛的决胜关键商业航天正在经历从“太空物流”到“太空经济”的深刻转型。这一转型的核心矛盾,是指数级增长的太空活动需求与线性缓慢下降的发射成本之间的巨大鸿沟。传统航天工程依赖“十年磨一箭”的经验积累与“人海战术”的精细打磨&…...

Lingyuxiu MXJ LoRA VSCode配置:Python开发环境优化

Lingyuxiu MXJ LoRA VSCode配置:Python开发环境优化 为AI绘画开发打造顺手的编程环境,让创意流畅实现 作为一名经常使用Lingyuxiu MXJ LoRA进行AI绘画开发的程序员,我深刻体会到开发环境对工作效率的影响。好的配置不仅能提升编码体验&#x…...

深入拆解AI Coding Agent 的底层原理

本文基于Amazon Q Developer CLI和Claude Code两个开源项目,从架构层面拆解AI Coding Agent的核心设计。详细分析了Agent Loop智能体循环、工具系统、四层安全模型、Context Window管理策略、MCP工具扩展协议等关键技术,总结了七大设计原则。这些工具通过…...

React核心语法:组件化与声明式编程

React 的核心语法围绕“组件化”“声明式编程”展开,从最初的类组件,到如今的函数组件Hooks,开发体验不断优化。以下是开发和面试中最常用的核心语法,附实战代码、考点解析和避坑指南,确保拿来就用、记了就会。2.1 核心…...

SpringBoot 业务逻辑层架构设计:Service+DTO+ 参数校验

SpringBoot业务逻辑层设计:服务接口+通用抽象+异常处理+DTO设计 💡 摘要: 本文系统讲解SpringBoot业务逻辑层的完整设计方案,深入解析服务层架构设计、通用服务抽象实现、业务异常处理体系、数据传输对象设计以及服务层性能优化策略。包含5个常见业务逻辑层陷阱解决方案(职责…...

一些论文word格式

三线图右键选择表格属性选择边框和底纹,设置无,然后选择宽度,最后点击上下边框,然后就成了页码插入——页码 找到要用到页码的那页,从本页插入奇偶数设置页眉插入——页眉页脚——奇偶数不同统一改样式目录目录在引用…...

清华开源新成果,国内首个L4来了!

B站:啥都会一点的研究生公众号:啥都会一点的研究生 AI科技圈最近一周又发生了啥新鲜事? Cursor 发布 Composer 2 Cursor 推出其智能编程助手的全新版本 Composer 2,该版本核心升级为支持跨多个文件的协同编辑与深度上下文理解能…...

电脑密码忘了怎么办?【图文讲解】登录密码?密码设置?修改密码?密码错误

一、问题背景有没有这样一个崩溃瞬间?开机,输入密码。提示:密码错误。再试一次,还是错。第三次,心开始慌了。明明昨天还在用,今天却被电脑拒之门外。文件在里面,资料在里面,工作也在…...

正点原子2026开发板教程——从0开始配置Linux内核(5)——设备树在内核中的使用

正点原子2026开发板教程——从0开始配置Linux内核(5)——设备树在内核中的使用教程已经在Github上开源: https://github.com/Awesome-Embedded-Learning-Studio/imx-forge 欢迎尝试和围观!为什么要谈内核中的设备树 上一章我们讲了…...

计算机毕业设计 java 疫情期间物资分配管理系统 SpringBoot 疫情物资智能分配管理平台 JavaWeb 疫情期间物资申请分配系统

计算机毕业设计 java 疫情期间物资分配管理系统 714499,末尾的数字和英文也要加上 (配套有源码 程序 mysql 数据库 论文)本套源码可以先看具体功能演示视频领取,文末有联 xi 可分享疫情期间,各类防控物资的合理分配与高…...

正点原子IMX6ULL史诗级新内核移植教程(2)—— 编译内核(新瓶子装旧酒)

正点原子IMX6ULL史诗级新内核移植教程(2)—— 编译内核(新瓶子装旧酒) 前言:为什么这篇文章这么长 说实话,编译 Linux 内核这件事本身并不复杂——不就是 make 一下吗?但问题在于,…...

第 2 章 应用层 总述|《计算机网络:自顶向下方法》精读版

本文是计算机网络经典教材精读系列的第二章,承接第一章因特网总述,正式进入自顶向下的核心学习路径 —— 从用户最直观接触的应用层出发,拆解网络应用的工作原理、通信范式与核心协议,搭建应用层完整知识框架。一、应用层定位&…...