当前位置：首页 > news >正文

大模型Java编码能力评估

news 2026/2/10 11:20:54

大模型如火如荼发展，不能只看热闹，也需要躬身入局。要想评估大模型的能力，必须有一个评估方法和评估数据集。下面就梳理下当前大模型是如何评估代码能力的

权威评估

opencompass: https://opencompass.org.cn/
datalearner: https://www.datalearner.com/ai-models/llm-coding-evaluation
llm-leaderboard：https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard

评估指标

OpenAI 提出的 pass@k 作为评价指标来计算

编码能力评估

humaneval-x：主要是类似 LeetCode 的编程题。
https://huggingface.co/datasets/THUDM/humaneval-x
humaneval：一个手写的问题解决数据集，要求根据给定的问题和代码模板，生成正确的代码片段。这个数据集包含了164个高质量的问题，涵盖了五种编程语言：Python, C++, Java, Go, 和 JavaScript。这些问题涉及了不同的编程概念，如控制流、数据结构、算法、输入输出等。https://github.com/openai/human-eval
MBPP (Mostly Basic Python Programming)：由大约 1,000 个众包的 Python 编程问题组成，旨在由入门级程序员解决，涵盖编程基础知识、标准库功能等。每个问题都包含任务描述、代码解决方案和 3 个自动化测试用例。

总结

从数据集来看，目前大模型支持更多还是函数级别。涉及不到类层面。因此，Java 语言的评估模型是不是需要优化？

参考

1、Large Language Model Evaluation in 2023: 5 Methods (aimultiple.com)
https://research.aimultiple.com/large-language-model-evaluation/
2、Evaluating the Code Quality of AI-Assisted Code Generation Tools: An Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT
https://arxiv.org/pdf/2304.10778.pdf
3. HumanEval Benchmark (Code Generation) | Papers With Code
4. Evaluating Large Language Models Trained on Code
5. THUDM/CodeGeeX2: CodeGeeX2: A More Powerful Multilingual Code Generation Model (github.com)
6. 常见大模型数据集

大模型Java编码能力评估

权威评估

评估指标

编码能力评估

总结

参考

相关文章：

大模型Java编码能力评估

javascript选择框和选择文本的创建与增加以及设置选中项

汽车驾驶任务的隐马尔可夫模型识别方法研究

Java编程题（完数）

国庆day6

力扣 -- 873. 最长的斐波那契子序列的长度

【程序员必看】计算机网络，快速了解网络层次、常用协议和物理设备！

1.软件测试基础

综合布线系统概述

Labview 实战 99乘法表

需求变化频繁的情况下，如何实施自动化测试

C++设计模式-桥接（Bridge）

Springboot+vue的开放性实验室管理系统（有报告）。Javaee项目，springboot vue前后端分离项目。

1.9.C++项目：仿muduo库实现并发服务器之Connection模块的设计

Iphone文件传到电脑用什么软件，看这里

JS进阶-原型对象prototype

【Unity】两种方式实现弹跳平台/反弹玩家（玩家触发与物体自身触发事件实现蹦床的物理效果）

python开发幸运水果抽奖大转盘

【CMU15-445 Part-16】Concurrency Control Theory

软件设计模式系列之二十五——访问者模式

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

Docker 运行 Kafka 带 SASL 认证教程

Opencv中的addweighted函数

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

Map相关知识

大数据学习（132）-HIve数据分析

高考志愿填报管理系统---开发介绍

云安全与网络安全：核心区别与协同作用解析