当前位置: 首页 > article >正文

AI 测试必修课:深入理解 LLM 的 Token、上下文与温度参数

一位资深测试工程师的血泪忠告:“你花三个月搭建的测试框架崩溃了——不是因为代码逻辑有bug,而是因为昨天 temperature 是 0 的时候模型输出是‘PASS’,今天同样的代码、同样的输入,模型说‘FAIL’。你以为温度设成 0 就稳了?天真。”这是一篇写给 AI 测试工程师、LLM 应用开发者以及所有需要与大型语言模型打交道的人的文章。Token、上下文窗口、温度参数——这三个概念是 LLM 的“底层三件套”,它们决定了模型能读多少、能写多少、写出来的东西靠不靠谱。但绝大多数人直到踩了坑才开始认真对待它们。接下来的内容将沿着一条主线展开:先弄清楚 Token 和上下文窗口为什么是 AI 测试的硬约束,再深入温度参数和其他采样策略如何影响模型输出的稳定性与多样性,然后讨论这些参数在不同部署方案、不同模型之间的差异,最后给出可落地的工程实践指南。全文约 12000 字,建议收藏。一、Token:大模型世界的“计量单位”1.1 LLM 到底在做什么?——自回归生成的本质当你向 ChatGPT 提问“今天天气怎么样”时,模型并不是一次性“写出”整个回答,而是一个字一个字(严格说是“一个 Token 一个 Token”)地预测下一个最可能出现的文本片段。每生成一个 Token,就把这个 Token 加进已有的序列,再预测下一个——这个过程叫做自回归生成。理解了这个机制,所有概

相关文章:

AI 测试必修课:深入理解 LLM 的 Token、上下文与温度参数

一位资深测试工程师的血泪忠告:“你花三个月搭建的测试框架崩溃了——不是因为代码逻辑有bug,而是因为昨天 temperature 是 0 的时候模型输出是‘PASS’,今天同样的代码、同样的输入,模型说‘FAIL’。你以为温度设成 0 就稳了?天真。” 这是一篇写给 AI 测试工程师、LLM 应…...

嵌入式学习的第八天

字符指针常见错误 核心&#xff1a;字符串常量存只读内存&#xff0c;不可修改&#xff01; #include <stdio.h> int main() {// 错误写法&#xff1a;指针指向字符串常量&#xff08;只读&#xff09;&#xff0c;不能修改内容char *p "hello"; // *(p0) e…...

别再让你的Qt界面有锯齿了!手把手教你用QPainter的Antialiasing和HighQualityAntialiasing

Qt图形渲染优化实战&#xff1a;抗锯齿原理与性能调优指南 在开发需要精细图形展示的Qt应用时&#xff0c;开发者常会遇到一个棘手问题——图形边缘的锯齿现象。无论是仪表盘上的指针、数据可视化中的曲线&#xff0c;还是自定义控件的圆角边框&#xff0c;锯齿都会严重影响视觉…...

嵌入式Linux应用开发实战:DR1平台GDB调试、Python优化与MQTT通信

1. 项目概述&#xff1a;从零到一&#xff0c;构建嵌入式Linux应用的实战手册最近在DR1平台上折腾了几个应用项目&#xff0c;从简单的数据采集到复杂的网络通信&#xff0c;整个过程踩了不少坑&#xff0c;也积累了不少心得。DR1作为一款资源受限但功能完整的嵌入式平台&#…...

农业深度视觉:探究 YOLO 算法在植物叶片病害分类中的应用效能

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID&#xff5c;计算机视觉研究院学习群&#xff5c;扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12750877/pdf/13040_2025_Article_497.pdf计算机视觉研究院专栏Column of Computer Vision In…...

FreeRTOS+LwIP 2.2.0实战:tcpip_thread消息队列与定时器如何协同工作?

FreeRTOS与LwIP 2.2.0深度协同&#xff1a;消息队列与定时器的精妙舞步 在嵌入式网络开发中&#xff0c;实时操作系统与轻量级TCP/IP协议栈的协同工作一直是开发者关注的焦点。FreeRTOS作为嵌入式领域广泛使用的实时操作系统&#xff0c;与LwIP这一轻量级TCP/IP协议栈的组合&am…...

从Kafka设计哲学到高性能系统通用模式:吞吐、顺序I/O与批处理的艺术

1. 项目概述&#xff1a;为什么是Kafka&#xff1f;如果你在后台开发、数据平台或者中间件领域摸爬滚打过几年&#xff0c;大概率会听过甚至深度使用过Apache Kafka。它早已不是一个简单的消息队列&#xff0c;而是现代数据驱动架构的“中枢神经系统”。我最初接触Kafka&#x…...

智慧树视频自动播放插件:3分钟搞定所有课程学习的终极指南

智慧树视频自动播放插件&#xff1a;3分钟搞定所有课程学习的终极指南 【免费下载链接】zhihuishu 智慧树刷课插件&#xff0c;自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的手动操作而烦恼吗&#x…...

基于CW32F030的BLDC电机控制:从国产MCU到完整评估方案

1. 项目概述&#xff1a;从一颗国产MCU到一套完整的BLDC评估方案最近在做一个直流无刷电机&#xff08;BLDC&#xff09;的小项目&#xff0c;选型时发现了一款挺有意思的国产MCU——武汉芯源的CW32F030C8T6&#xff0c;以及围绕它打造的一套完整的评估套件CW32_BLCD_EVA。对于…...

智能硬件行业现状与未来趋势:技术、市场与盈利三重门解析

1. 项目概述&#xff1a;为什么现在要聊智能硬件&#xff1f;最近几年&#xff0c;身边的朋友、客户&#xff0c;甚至家里的长辈&#xff0c;都在问我同一个问题&#xff1a;“现在做智能硬件还有机会吗&#xff1f;” 这个问题背后&#xff0c;其实反映了一个普遍的行业焦虑&a…...

测试岗真的是“青春饭”吗?40岁资深测试专家的职业复盘

在IT行业的诸多岗位中&#xff0c;软件测试岗常常被贴上“青春饭”的标签。不少从业者&#xff0c;尤其是刚入行的年轻人&#xff0c;总会在某个深夜陷入焦虑&#xff1a;“我到了35岁、40岁&#xff0c;还能在这个岗位上立足吗&#xff1f;”作为一名在测试领域深耕20年&#…...

Hermes Agent 权限分级实战:3 级凭证隔离配置与 4 类越权风险规避

1. 权限不是加个 if 就完事:Hermes Agent 的凭证隔离为什么必须分三级 我第一次在生产环境上线 Hermes Agent 时,给所有子智能体(sub-agent)统一配了同一个数据库只读账号。逻辑很朴素:「反正只读,能出什么问题?」——直到某天凌晨三点,监控告警显示核心订单库被高频扫…...

Git忽略文件失效?一招解决!

场景&#xff1a; 在某次 Git 提交时&#xff0c;忘记在 .gitignore 文件中添加上某个原本应该被忽略的文件夹或者文件&#xff0c;于是后一次的提交时在 .gitignore 加上了这些文件&#xff0c;但是在远程的仓库中这些文件夹、文件却并没有消失。这个属于属于什么问题&#xf…...

别再死磕PI参数了!用MATLAB/Simulink手把手教你搭建异步电机FOC仿真(附模型下载)

异步电机FOC仿真实战&#xff1a;从零搭建到参数调优全指南 在电机控制领域&#xff0c;矢量控制(FOC)技术因其优异的动态性能和效率表现&#xff0c;已成为工业应用中的主流方案。然而从理论到实践的跨越往往充满挑战——许多工程师能够理解Park变换、空间矢量调制等概念&…...

从单机到联网:手把手教你用NetCA为Oracle数据库配置‘电话线’(监听程序与本地网络服务)

从单机到联网&#xff1a;手把手教你用NetCA为Oracle数据库配置‘电话线’ 想象一下&#xff0c;你刚搬进一栋新公寓&#xff0c;已经熟悉了家里的水电开关&#xff08;本地Oracle安装&#xff09;&#xff0c;但还没登记电话号码&#xff08;监听程序&#xff09;和录入邻居联…...

小学期第一周作业

...

Codex + SSH 远程运维实战:让 AI 管你的云服务器

Codex SSH 远程运维实战&#xff1a;让 AI 管你的云服务器从 Docker 部署到数据库调优&#xff0c;从日志排查到安全加固——用 Codex CLI 通过 SSH 管理云服务器的完整实战指南。一、为什么用 Codex 做运维&#xff1f; 传统运维的痛点&#xff1a; 半夜报警&#xff0c;睡眼…...

ncmdumpGUI:专业音频解密工具实现网易云音乐跨平台播放自由

ncmdumpGUI&#xff1a;专业音频解密工具实现网易云音乐跨平台播放自由 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换&#xff0c;Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 在数字音乐时代&#xff0c;平台间的格…...

电脑安装双系统

电脑安装双系统 本次是在Windows 10的环境下安装Ubuntu的系统。 1、可能需要的准备工作 首先打开cmd输入msinfo32的命令查看电脑的BIOS的模式是不是UEFI,如下所示&#xff1a; 本次安装系统基于以上的BIOS模式下。此外如果遇到安装之后不能跳转到ubuntu系统的问题&#xff…...

5步实现Windows电脑直接运行安卓应用:APK安装器终极指南

5步实现Windows电脑直接运行安卓应用&#xff1a;APK安装器终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer APK安装器是一款革命性的Windows工具&#xff0c;让…...

如何用Inkscape实现专业级光学设计?终极免费光线追踪插件完整指南

如何用Inkscape实现专业级光学设计&#xff1f;终极免费光线追踪插件完整指南 【免费下载链接】inkscape-raytracing An extension for Inkscape that makes it easier to draw optical diagrams. 项目地址: https://gitcode.com/gh_mirrors/in/inkscape-raytracing 你…...

Linux新手看过来:手把手解决TeXLive安装与VSCode配置中的那些“坑”(从镜像下载到环境变量)

Linux新手避坑指南&#xff1a;TeXLive安装与VSCode配置全流程解析 第一次在Linux系统上配置TeXLive和VSCode环境时&#xff0c;我花了整整两天时间才把所有问题解决。那些看似简单的教程在实际操作中总会遇到各种意外情况——镜像下载速度慢如蜗牛、环境变量配置错误导致命令无…...

Yuzu模拟器进阶设置指南:图形选项怎么调?多核CPU如何利用?让你的《王国之泪》帧数翻倍

Yuzu模拟器进阶设置指南&#xff1a;图形选项与多核CPU优化实战 当《塞尔达传说&#xff1a;王国之泪》在Yuzu模拟器上运行时&#xff0c;你是否遇到过这些情况&#xff1a;画面闪烁不定、帧数剧烈波动、复杂场景突然卡顿&#xff1f;这些问题往往源于模拟器设置与硬件特性的不…...

RAG vs LoRA:AI产品选型困境终结者!产品经理必看的技术选型指南

本文深入剖析了AI产品开发中RAG与LoRA技术的选型困境&#xff0c;指出两者并非竞争关系&#xff0c;而是基于不同场景的产品判断失误。文章从概念解析入手&#xff0c;通过生动类比区分了RAG&#xff08;知识库增强&#xff09;与LoRA&#xff08;模型微调&#xff09;的核心差…...

Visual C++运行库合集:解决Windows程序依赖的终极方案

Visual C运行库合集&#xff1a;解决Windows程序依赖的终极方案 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否遇到过这样的烦恼&#xff1f;刚下载了一个…...

避坑指南:STM32F4 HAL库驱动MPU6050,从GitHub标准库移植到DMA模式的完整记录

STM32F4 HAL库下MPU6050 DMA模式移植实战&#xff1a;从标准库到高效姿态采集 移植第三方传感器驱动是嵌入式开发中的高频操作。最近在平衡车项目中&#xff0c;需要将GitHub上一个基于标准库的MPU6050驱动移植到STM32CubeMX生成的HAL库环境&#xff0c;并升级为DMA传输模式。这…...

从IGS文件命名变迁,看GNSS数据处理流程的演进与自动化机遇

从IGS文件命名变迁透视GNSS数据处理的智能化演进 在卫星导航定位领域&#xff0c;IGS&#xff08;国际GNSS服务组织&#xff09;产品文件命名规则的每一次调整都像一面镜子&#xff0c;映射出整个行业的技术演进方向。2022年底从V1.0到V2.0命名规范的升级&#xff0c;绝非简单的…...

从VBS到VBE:一次搞懂Windows脚本编码器的前世今生与实战避坑

从VBS到VBE&#xff1a;Windows脚本编码器的技术考古与安全实践 在Windows系统管理的工具箱里&#xff0c;VBScript&#xff08;VBS&#xff09;曾经是自动化任务的瑞士军刀。尽管如今PowerShell和现代编程语言已成为主流&#xff0c;但理解VBScript及其编码器&#xff08;VBE&…...

用STM32和HC-SR04做个智能小车避障,代码和接线图都给你准备好了

STM32与HC-SR04构建智能小车避障系统实战指南 1. 项目概述与核心组件选型 智能小车避障系统是嵌入式开发中极具实用价值的练手项目&#xff0c;它能综合考察开发者对传感器数据采集、电机控制和简单算法的掌握程度。这个项目的核心在于如何让小车自主感知环境并做出避障决策&…...

G-Helper:华硕笔记本用户的终极轻量级硬件控制方案

G-Helper&#xff1a;华硕笔记本用户的终极轻量级硬件控制方案 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Exper…...