当前位置: 首页 > article >正文

你怎么知道AI真的做对了?我花了三个月才想明白这个问题

你怎么知道AI真的做对了?我花了三个月才想明白这个问题用AI写代码这件事,最让人上头的不是它能写多快,而是它总能用一种“我绝对没问题”的语气给你输出结果。然后你看着那个结果,心里开始打鼓:这玩意儿到底对不对?我经历过三个阶段。第一阶段是“盲目信任期”——看到代码跑通了就觉得牛逼;第二阶段是“疑神疑期”——每行代码都要人工过一遍,比不用AI还累;第三阶段是现在的“工程化验证期”——建立了一套判断AI到底做没做对的方法。今天就把这套东西摊开来聊聊。别被“跑通了”骗了先讲一个真实翻车案例。上个月我用Claude Code重构一个数据处理脚本,原脚本处理一万条记录要45秒,AI信誓旦旦说优化后只要3秒。我跑了一下,确实3秒出结果,数据量也对。正要合并代码的时候,多留了个心眼——抽查了10条原始数据和结果的对应关系。结果发现一个恐怖的事情:AI把数据去重逻辑写错了。它用了一个“看起来更高效”的哈希方法,但哈希碰撞导致原本不重复的200多条记录被错误合并了。程序跑通了,没有报错,甚至性能数据漂亮得不行。但结果是错的。这就是第一个要命的问题:AI擅长让你相信它做对了,因为它的输出格式永远是自信满满的。它不会像人类程序员那样说“我不确定这个边界条件有没有覆盖到”。模型没有“不确定”这个情绪,它只会给你最可能的token序列,而这个序列恰好长得很像正确答案。那怎么办?我的血泪教训是:永远不要用“有没有报错”来判断正确性。报错至少说明它错了,不报错反而更危险。我的三层验证体系踩了足够多的坑之后,我给自己定了一套规矩,任何AI生成的重要代码都必须经过这三层过滤。第一层:单元测试的对抗性改写。常规做法是让AI写单元测试,然后跑通。这不够。我现在会让AI“故意破坏”自己的代码——比如“请在这个函数里插入一个逻辑错误,不要告诉我插在哪里”。然后我运行测试,看能不能抓到。如果抓不到,说

相关文章:

你怎么知道AI真的做对了?我花了三个月才想明白这个问题

你怎么知道AI真的做对了?我花了三个月才想明白这个问题 用AI写代码这件事,最让人上头的不是它能写多快,而是它总能用一种“我绝对没问题”的语气给你输出结果。然后你看着那个结果,心里开始打鼓:这玩意儿到底对不对? 我经历过三个阶段。第一阶段是“盲目信任期”——看…...

ViGEmBus深度解析:Windows内核级游戏控制器虚拟化架构揭秘

ViGEmBus深度解析:Windows内核级游戏控制器虚拟化架构揭秘 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 在游戏输入设备兼容性领域&#xff0c…...

江城智造,共赴盛会!AICA数智创新公开课·武汉专场圆满举办

在4月9日,由武汉市工业信息化中心指导,百度飞桨(武汉)人工智能产业赋能中心主办,国家数字化设计与制造创新中心、e-works、武汉企业信息化促进会、深度学习技术及应用国家工程研究中心、湖北省人工智能学会协办的「首席…...

基于Raspberry Pi和OpenCV的家庭智能监控系统

智能家居新选择:树莓派监控系统 在科技飞速发展的今天,家庭安全监控已成为现代生活的刚需。基于Raspberry Pi(树莓派)和OpenCV的智能监控系统,凭借低成本、高灵活性和强大图像处理能力,成为DIY爱好者和技术…...

自动化测试:PO模式介绍及案例

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快PO(Page Object)设计模式是一种面向对象( 页面对象)的设计模式,将测试对象及单个的测试步骤封装在每个Page对象以pag…...

【GitHub项目推荐--InkOS:把 AI 写小说变成“全自动流水线”】

GitHub 地址:https://github.com/Narcooo/inkos 简介 InkOS​ 是一个基于 TypeScript 开发的命令行(CLI)AI 小说创作智能体。它彻底颠覆了“单次生成”的玩法,将写小说变成了一个可审计、可续写、可仿写的工程化系统。 普通 AI …...

终极Windows安卓应用安装指南:如何快速批量安装APK文件

终极Windows安卓应用安装指南:如何快速批量安装APK文件 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想要在Windows电脑上轻松安装Android应用吗&#xf…...

K8s StatefulSet 的数据持久化方案

Kubernetes StatefulSet 的数据持久化方案解析 在云原生应用架构中,有状态服务的数据持久化一直是关键挑战之一。Kubernetes StatefulSet 作为管理有状态工作负载的核心控制器,通过独特的持久化机制为分布式数据库、消息队列等场景提供了稳定支持。本文…...

吗替麦考酚酯Mycophenolate Mofetil预防实体器官移植排斥的长期移植物存活效果

在实体器官移植领域,移植物长期存活是评估免疫抑制治疗方案成功与否的核心指标。作为新一代免疫抑制剂,吗替麦考酚酯(Mycophenolate Mofetil,MMF)凭借其独特的药理特性,已成为预防器官移植排斥反应的标准药…...

云原生技术思考

云原生技术思考:构建未来数字基础设施的核心 在数字化转型的浪潮中,云原生技术已成为企业构建敏捷、弹性与高效系统的关键。它不仅是技术栈的升级,更是一种全新的架构理念,通过容器化、微服务、DevOps等方法,帮助组织…...

宗格替尼Zongertinib靶向治疗HER2突变非小细胞肺癌的真实客观缓解率

在非小细胞肺癌(NSCLC)的治疗领域,HER2突变型非小细胞肺癌因其独特的生物学特性和治疗挑战,一直是临床研究的热点。随着靶向治疗药物的不断研发与进步,宗格替尼(Zongertinib)作为一种新型口服HE…...

从GCC源码看DWARF栈展开:_Unwind_FrameState结构体详解与调试技巧

从GCC源码看DWARF栈展开:_Unwind_FrameState结构体详解与调试技巧 调试器如何实现栈回溯?当程序崩溃时,gdb为何能准确显示调用链?这一切的核心在于DWARF调试格式中的栈展开机制。本文将深入GCC 4.8.5源码,剖析_Unwind_…...

HTML标签不区分大小写吗_标签大小写规范建议【解答】

HTML标签名必须统一用小写,因HTML5规范强制要求、工具链默认适配、团队协作需要;大写标签虽浏览器可解析,但在XHTML/XML工具、编辑器校验、SSR框架、JSX及TypeScript中均会出错。HTML 标签在解析时确实不区分大小写,但实际开发中必…...

叶片泵的结构设计及造型(论文+CAD图纸+三维图+动画仿真……)

叶片泵作为流体机械领域的关键设备,其结构设计直接影响系统效率与可靠性。其核心作用在于通过转子旋转带动叶片运动,实现流体压力能转换,广泛应用于液压系统、润滑装置及化工流程中。结构设计需兼顾密封性、耐磨性与动态平衡,例如…...

Sunshine游戏串流实战解析:构建你的专属高性能云端游戏平台

Sunshine游戏串流实战解析:构建你的专属高性能云端游戏平台 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 还在为游戏设备的限制而烦恼吗?想象一下&#x…...

考拉兹猜想完整证明:全域数学理论的威力【乖乖数学】

考拉兹猜想完整证明:全域数学理论的威力【乖乖数学】 考拉兹猜想(3n1猜想)完整证明 —基于全域数学理论与平行素数对网格的统一框架 作者:乖乖数学抖音名;国际精算师SOA微信名;20260408...

Nunchaku FLUX.1 CustomV3快速部署:支持CUDA 12.4+PyTorch 2.3的开箱即用镜像

Nunchaku FLUX.1 CustomV3快速部署:支持CUDA 12.4PyTorch 2.3的开箱即用镜像 1. 开篇介绍:为什么选择这个镜像? 如果你正在寻找一个能够快速生成高质量图片的AI工具,但又不想折腾复杂的环境配置,那么Nunchaku FLUX.1…...

横河 GX90XA-10-U2N-CC无纸记录仪采集模块 适用于GP10,GP20

无纸记录仪SMARTDAC GX10/GX20通过触摸屏为用户提供更直观的操作。模块化结构支持丰富的输入/输出模块,并将不断扩展。灵活的用户界面 多种显示功能标准显示画面清晰的指示通道数据及其单位、标记,以及报警日志、信息日志和其他事件日志信息。 触摸屏实现…...

Agilent E5100A 高速网络分析仪

10 kHz 至 180 MHz/300M 提供快速测量(扫描速度高达 0.04 ms/点)、快速波形分析命令和高速处理器,可提高生产线的生产效率 使用波形分析命令和相位跟踪功能更快速地完成滤波器和谐振器评测 使用嵌入式 IBASIC 更轻松地开发自动化程序 使用蒸发…...

横河 Yokogawa 便携式无纸记录仪 GP10/GP20系列

主要特点 ● PID控制(GX90UT PID控制模块) ● 程序控制(/PG选件) ● 双测量周期 ● 高速(1ms)测量(GX90XA-04-H0 高速AI模块) ● 4线RTD输入、 电阻测量(GX90XA-06-R1 4线RTD模块) ● 再传输/手动mA输出(GX90YA模拟输出模块)技术参数 型号 GP20 GP10 结构 便携型 便…...

从Gaussian Splatting到‘像素级’镜面:手把手拆解延迟着色如何让3DGS学会精准反射

从Gaussian Splatting到像素级镜面:延迟着色技术深度解析 在计算机图形学领域,3D Gaussian Splatting(3DGS)技术因其高效的实时渲染能力而备受瞩目。然而,当场景中出现镜面反射材质时,传统3DGS方法往往力不…...

手把手教你用kimera-semantics实现3D语义重建:从环境配置到Euroc数据集运行

从零构建3D语义地图:Kimera-Semantics实战指南与Euroc数据集调优 在三维感知与机器人自主导航领域,实时语义重建技术正成为学术界和工业界的热点。MIT SPARK实验室开源的Kimera-Semantics框架,通过融合几何重建与语义分割,实现了对…...

3步快速实现知网文献批量下载:CNKI-download自动化工具完整指南

3步快速实现知网文献批量下载:CNKI-download自动化工具完整指南 【免费下载链接】CNKI-download :frog: 知网(CNKI)文献下载及文献速览爬虫 (Web Scraper for Extracting Data) 项目地址: https://gitcode.com/gh_mirrors/cn/CNKI-download 你是否曾经为了收…...

11. TCN BPDU:揭秘 STP 拓扑变更的通知与收敛机制

一、TCN BPDU介绍 在 STP 网络稳定运行时,根桥会周期性发送​​​配置 BPDU​​(Configuration BPDU),用于维持整个生成树拓扑的稳定性。然而,当网络中出现链路故障、端口 UP/DOWN 等拓扑变更事件时,仅靠常…...

【Linux命令饲养指南】Ubuntu 安装 MySQL【AI辅助实现】

声明:由于本人经常记混 Linux 软件安装和卸载命令,本文相关步骤是在 AI 辅助下整理完成,仅供参考。一、APT 是啥?它和 yum 是兄弟 APT(Advanced Package Tool):Ubuntu/Debian 的包管理器&#x…...

大量TIME_WAIT状态的连接问题

服务器卡顿的元凶:TIME_WAIT连接之谜当服务器突然响应变慢,运维人员查看网络状态时,常会发现成千上万的TIME_WAIT连接。这种看似无害的状态,实则是隐藏在TCP协议中的"沉默杀手"。作为TCP四次挥手过程的最后环节&#xf…...

Genshin FPS Unlocker:三步解锁《原神》60帧限制,畅享高刷游戏体验

Genshin FPS Unlocker:三步解锁《原神》60帧限制,畅享高刷游戏体验 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 你是否因为《原神》的60帧限制而无法充分发挥高…...

动手学深度学习——使用注意力机制的 Seq2Seq 代码

1. 前言上一篇我们已经从原理上理解了使用注意力机制的 Seq2Seq:基础 Seq2Seq 的问题是固定上下文向量注意力机制让解码器在每一步都能动态查看输入序列query 通常来自解码器当前状态key 和 value 通常来自编码器所有时间步输出这一篇就继续按李沐的节奏&#xff0c…...

科沃斯 Deebot X12 扫地机器人上市,1499 美元解锁顽固污渍清洁新体验

Deebot X12:顽固污渍清洁新利器科沃斯为 Deebot 系列自动清洁器增添新成员 Deebot X12 OmniCyclone。它利用摄像头和 AI 技术识别泥脚印、洒出的汽水渍等顽固污渍,在使用滚刷拖把清洁前,会喷洒水和清洁液的混合溶液软化污渍,使其更…...

动手学深度学习——注意力分数

1. 前言 上一篇我们已经把注意力机制代码的整体流程看清楚了: 先算 query 和 key 的相关性分数 再通过 softmax 变成注意力权重 最后对 value 做加权和 到这里,一个很自然的问题就来了: 这个“分数”到底该怎么计算? 因为注意…...