当前位置：首页 > news >正文

Chinese-LLaMA-Alpaca-2模型的测评

news 2026/2/10 10:49:39

训练生成效果评测

Fastchat Chatbot Arena推出了模型在线对战平台，可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标，并且可以查看两两模型的对战胜率等结果。生成回复具有随机性，受解码超参、随机种子等因素影响，因此相关评测并非绝对严谨，结果仅供晾晒参考。

⚔️ 模型竞技场：http://llm-arena.ymcui.com

系统	对战胜率（无平局） ↓	Elo评分
Chinese-Alpaca-2-13B-16K	86.84%	1580
Chinese-Alpaca-2-13B	72.01%	1579
Chinese-Alpaca-Pro-33B	64.87%	1548
Chinese-Alpaca-2-7B	64.11%	1572
Chinese-Alpaca-Pro-7B	62.05%	1500
Chinese-Alpaca-2-7B-16K	61.67%	1540
Chinese-Alpaca-Pro-13B	61.26%	1567
Chinese-Alpaca-Plus-33B	31.29%	1401
Chinese-Alpaca-Plus-13B	23.43%	1329
Chinese-Alpaca-Plus-7B	20.92%	1379

以上结果截至2023年9月1日。最新结果请进入⚔️竞技场进行查看。

客观效果评测：C-Eval

C-Eval是一个全面的中文基础模型评估套件，其中验证集和测试集分别包含1.3K和12.3K个选择题，涵盖52个学科。实验结果以“zero-shot / 5-shot”进行呈现。C-Eval推理代码请参考本项目：📖GitHub Wiki

LLaMA Models	Valid	Test	Alpaca Models	Valid	Test
Chinese-LLaMA-2-13B	40.6 / 42.7	38.0 / 41.6	Chinese-Alpaca-2-13B	44.3 / 45.9	42.6 / 44.0
Chinese-LLaMA-2-7B	28.2 / 36.0	30.3 / 34.2	Chinese-Alpaca-2-7B	41.3 / 42.9	40.3 / 39.5
Chinese-LLaMA-Plus-33B	37.4 / 40.0	35.7 / 38.3	Chinese-Alpaca-Plus-33B	46.5 / 46.3	44.9 / 43.5
Chinese-LLaMA-Plus-13B	27.3 / 34.0	27.8 / 33.3	Chinese-Alpaca-Plus-13B	43.3 / 42.4	41.5 / 39.9
Chinese-LLaMA-Plus-7B	27.3 / 28.3	26.9 / 28.4	Chinese-Alpaca-Plus-7B	36.7 / 32.9	36.4 / 32.3

客观效果评测：CMMLU

CMMLU是另一个综合性中文评测数据集，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题，共计11.5K个选择题。CMMLU推理代码请参考本项目：📖GitHub Wiki

LLaMA Models	Test (0/few-shot)	Alpaca Models	Test (0/few-shot)
Chinese-LLaMA-2-13B	38.9 / 42.5	Chinese-Alpaca-2-13B	43.2 / 45.5
Chinese-LLaMA-2-7B	27.9 / 34.1	Chinese-Alpaca-2-7B	40.0 / 41.8
Chinese-LLaMA-Plus-33B	35.2 / 38.8	Chinese-Alpaca-Plus-33B	46.6 / 45.3
Chinese-LLaMA-Plus-13B	29.6 / 34.0	Chinese-Alpaca-Plus-13B	40.6 / 39.9
Chinese-LLaMA-Plus-7B	25.4 / 26.3	Chinese-Alpaca-Plus-7B	36.8 / 32.6

长上下文版模型（16K）评测

LongBench是一个大模型长文本理解能力的评测基准，由6大类、20个不同的任务组成，多数任务的平均长度在5K-15K之间，共包含约4.75K条测试数据。LongBench推理代码请参考本项目：📖GitHub Wiki

Models	单文档QA	多文档QA	摘要	Few-shot学习	代码补全	合成任务	Avg
Chinese-Alpaca-2-13B-16K	48.1	26.0	12.8	23.3	45.5	21.5	29.5
Chinese-Alpaca-2-13B	38.4	20.0	12.2	18.0	46.2	9.0	24.0
Chinese-Alpaca-2-7B-16K	46.6	23.6	14.5	29.0	47.1	9.0	28.3
Chinese-Alpaca-2-7B	32.0	17.2	11.5	21.5	48.8	5.0	22.7
Chinese-LLaMA-2-13B-16K	37.3	18.1	3.4	30.8	13.0	3.0	17.6
Chinese-LLaMA-2-13B	26.7	14.0	4.4	16.3	9.8	5.5	12.8
Chinese-LLaMA-2-7B-16K	33.7	16.5	5.3	24.3	9.9	4.2	15.6
Chinese-LLaMA-2-7B	20.7	14.5	6.5	12.8	11.5	5.3	11.9

量化效果评测

以Chinese-LLaMA-2-7B为例，对比不同精度下的模型大小、PPL（困惑度）、C-Eval效果，方便用户了解量化精度损失。PPL以4K上下文大小计算，C-Eval汇报的是valid集合上zero-shot和5-shot结果。

精度	模型大小	PPL	C-Eval
FP16	12.9 GB	9.373	28.2 / 36.0
8-bit量化	6.8 GB	9.476	26.8 / 35.4
4-bit量化	3.7 GB	10.132	25.5 / 32.8

特别地，以下是在llama.cpp下不同量化方法的评测数据，供用户参考，速度以ms/tok计，测试设备为M1 Max。具体细节见📖GitHub Wiki

llama.cpp	F16	Q2_K	Q3_K	Q4_0	Q4_1	Q4_K	Q5_0	Q5_1	Q5_K	Q6_K	Q8_0
PPL	9.128	11.107	9.576	9.476	9.576	9.240	9.156	9.213	9.168	9.133	9.129
Size	12.91G	2.41G	3.18G	3.69G	4.08G	3.92G	4.47G	4.86G	4.59G	5.30G	6.81G
CPU Speed	117	42	51	39	44	43	48	51	50	54	65
GPU Speed	53	19	21	17	18	20	x	x	25	26	x

Chinese-LLaMA-Alpaca-2模型的测评

训练生成效果评测

客观效果评测：C-Eval

客观效果评测：CMMLU

长上下文版模型（16K）评测

量化效果评测

相关文章：

Chinese-LLaMA-Alpaca-2模型的测评

SLAM论文详解(5) — Bundle_Adjustment_LM(BALM)论文详解

C语言对单链表所有操作与一些相关面试题

高防服务器如何抵御大规模攻击

Go 接口和多态

Git忽略文件的几种方法，以及.gitignore文件的忽略规则

C语言——指针进阶（2）

【汇编中的寄存器分类与不同寄存器的用途】

基于文本提示的图像目标检测与分割实践

【4-5章】Spark编程基础(Python版)

04 卷积神经网络搭建

【hadoop运维】running beyond physical memory limits：正确配置yarn中的mapreduce内存

数据结构--6.5二叉排序树（插入，查找和删除）

无需公网IP，在家SSH远程连接公司内网服务器「cpolar内网穿透」

Java工具类

makefile之使用函数wildcard和patsubst

算法通关村第十八关——排列问题

基于STM32设计的生理监测装置

Go-Python-Java-C-LeetCode高分解法-第五周合集

【前端知识】前端加密算法(base64、md5、sha1、escape/unescape、AES/DES)

【WiFi帧结构】

基础测试工具使用经验

React19源码系列之事件插件系统

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

MySQL 8.0 OCP 英文题库解析（十三）

RNN避坑指南：从数学推导到LSTM/GRU工业级部署实战流程

代码随想录刷题day30

GitHub 趋势日报 (2025年06月06日)

LangChain 中的文档加载器（Loader）与文本切分器（Splitter）详解《二》

医疗AI模型可解释性编程研究：基于SHAP、LIME与Anchor