当前位置: 首页 > article >正文

越使用 AI,越不担忧

模型能力的一种衡量方法怎么衡量大模型的能力现在的方法是使用一个测试集去计算大模型的分数。它的缺点是只能用于横向比较很难衡量进步速度。最近一篇论文提出了一种新的衡量方法。科学家首先计算人类完成某一项任务需要多少时间。比如计算 4 5 7人类需要2秒而计算 37 * 52 * 19可能需要1分钟。然后测试大模型能否以50%的成功率完成这项任务。研究发现GPT-2 以50%成功率能够完成的任务时间范围是两秒Claude 3.7 Sonnet 是50分钟O3 接近两小时Opus 4.6 约为12小时。也就是说人类需要12小时才能完成的任务Opus 4.6 的成功概率是50%。结果就是上图可以发现大模型的进化速度在对数坐标下是一根直线。每7个月大模型能够以50%成功率完成的任务时间范围扩大一倍。按照这个趋势大模型将在2027年至2031年间以50%的成功率完成人类专家需要一个月才能完成的任务。如果这篇论文正确就意味着年底发布的模型将比年初强一倍。我用 AI 生成了一个 JavaScript 引擎英文作者用六周时间生成了一个100%通过 test262 测试集的 JavaScript 引擎涵盖所有98,426个场景。本文是对这件事的介绍。解剖 .claude/ 目录英文Claude Code 会生成 .claude/ 子目录所有 AI 处理的底层数据都放在里面本文研究这个目录到底有什么。越使用 AI越不担忧因为我发现 AI 编程只是流程的一部分我的工作不仅仅是编写代码。我的真正工作是找出可以用代码解决的问题然后解决它们并验证解决方案是否有效。AI 最终或许能够完全承担中间的编码部分并帮助解决第一部分和最后一部分但无论如何仍然需要有人去发现问题、定义问题并确认问题已经得到解决。这就是我的工作的80%内容。花在 AI 编程的时间越多对自己的职业生涯的担忧就越少即使 AI 的编程能力越来越强。摩尔定律的不可持续性摩尔定律指的是大约每两年芯片上的晶体管数量就会翻一番。但是它还有一个伴生效应很少人提到。那就是大约每五年芯片工厂的建造成本就会翻一番而能承担这种成本的芯片公司数量则会减半。二十五年前大约有40家公司可以建造芯片工厂每个工厂的建造成本约为20亿至40亿美元。如今只剩下两家或三家芯片公司数量取决于你对英特尔的乐观程度可以建造最先进的芯片工厂建造成本飙升到几百亿美元。如果按照这种趋势再过10年芯片工厂的建设成本继续翻倍飙升也许只有一家公司或根本没有公司能够负担这样的成本。目前芯片的制造工艺已经逼近1纳米再往下发展技术壁垒和资金壁垒将同时接近极限。预计摩尔定律很快就会失效未来增长主要在于算力而不是单块芯片的计算能力。未来的芯片将会像二手车行驶速度都差不多只是新旧差异。甚至觉得2035年生产的芯片和2065年生产的芯片之间将几乎没有什么实质性区别。

相关文章:

越使用 AI,越不担忧

模型能力的一种衡量方法怎么衡量大模型的能力?现在的方法是使用一个测试集,去计算大模型的分数。它的缺点是,只能用于横向比较,很难衡量进步速度。最近,一篇论文提出了一种新的衡量方法。科学家首先计算,人…...

Git冲突实战:当IDEA/VSCode图形化界面失灵时,如何用纯命令‘救场’?

Git冲突实战:当IDE图形化界面失灵时,如何用纯命令‘救场’? 想象一下这样的场景:你在IntelliJ IDEA中点击了"Merge"按钮,却发现冲突文件中的标记混乱不堪,图形化界面突然变得难以操作。或者&…...

XGBoost随机梯度提升原理与参数调优实战

1. 随机梯度提升与XGBoost核心原理剖析在机器学习领域,集成学习方法通过组合多个弱学习器来构建强学习器,其中梯度提升决策树(GBDT)因其卓越的性能表现而广受推崇。XGBoost作为GBDT的高效实现,通过引入随机梯度提升技术…...

零 unsafe 代码!Rust 垃圾回收库 safe - gc 实现无安全隐患回收

无需不安全代码的垃圾回收2024 年 2 月 6 日,包括作者在内的很多人都为 Rust 实现了垃圾回收(Garbage Collection,GC)库。几年前,Manish Goregaokar 撰写了一篇精彩的综述,介绍了这一领域。这些库旨在为用户…...

别只懂按Q!深度挖掘Cubase量化设置:量化预置、长度量化与网格显示的隐藏关系

别只懂按Q!深度挖掘Cubase量化设置:量化预置、长度量化与网格显示的隐藏关系 在数字音频工作站的世界里,量化功能就像一位隐形的节奏矫正师。许多制作人习惯性地按下Q键就期待完美对齐,却常常发现结果不尽如人意——三连音变成了规…...

UEFI电源管理探秘:从S3睡眠到唤醒的完整旅程

1. 电源管理基础:SX与GX状态解析 现代计算机的电源管理远比我们想象的复杂。想象一下你的笔记本电脑合上盖子时发生了什么——屏幕熄灭、风扇停转,但内存中的数据依然保持。这就是S3睡眠状态的典型应用场景。电源管理状态主要分为SX(Sleep St…...

高效使用 JMeter 生成随机数:探索 Random 和 UUID 算法

在压力测试中,经常需要生成随机值来模拟用户行为。JMeter 提供了多种方式来生成随机值,本文来具体介绍一下。 随机数函数 JMeter 提供了多个用于生成随机数的函数,其中最常用的是__Random函数。该函数可以生成一个指定范围内的随机整数或浮…...

别再傻傻手动旋转了!用Blender父子约束5分钟搞定产品360°展示动画

用Blender父子约束5分钟打造专业级产品展示动画 在电商视觉设计和产品展示领域,一个流畅的360度旋转动画往往比静态图片更能吸引用户注意。传统手动逐帧调整的动画制作方式不仅耗时费力,而且难以保证旋转的精确性和流畅度。Blender的父子约束功能正是解决…...

LeetCode热题100-在排序数组中查找元素的第一个和最后一个位置

给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值 target,返回 [-1, -1]。你必须设计并实现时间复杂度为 O(log n) 的算法解决此问题。思路:找左边…...

Python缺失值可视化分析实战:以Ames房价数据为例

1. 项目概述:缺失值可视化分析的价值在数据分析领域,缺失值就像隐藏在数据集中的隐形陷阱,稍不注意就会导致模型偏差或结论错误。Ames Housing数据集作为房价预测领域的经典数据集,包含80个特征变量和2930条房产记录,其…...

2025届最火的十大降AI率平台推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 随着人工智能生成内容越来越普及,各种各样的AI检测系统出现了。为了保证文本能通…...

人体活动识别技术:算法评估与工程实践

1. 项目背景与核心挑战人体活动识别(Human Activity Recognition, HAR)是机器学习在可穿戴设备和智能感知领域的重要应用场景。我们经常需要从加速度计、陀螺仪等传感器数据中自动识别行走、跑步、坐卧等日常活动。这个任务看似简单,但在实际…...

Nano Banana 配图提示词完全指南(CSDN适配版)——精准出图,提示词撰写\+优化全攻略

🔥 Nano Banana 配图提示词完全指南(CSDN适配版)——精准出图,提示词撰写优化全攻略 核心看点:Nano Banana 作为轻量高效的AI配图工具,凭借简洁操作、高适配性,成为CSDN博主、设计师、开发者的配…...

别再乱用GFP_KERNEL了!Linux内核alloc_pages内存分配标志保姆级避坑指南

Linux内核内存分配标志深度解析:从原理到实战避坑指南 在Linux内核开发中,内存分配是最基础也最容易被低估的技术细节之一。许多开发者在使用alloc_pages这类底层接口时,往往只关注了内存大小参数,却忽略了gfp_mask标志的选择——…...

pytest + yaml 框架 - Pycharm 设置 yaml 格式用例模板,高效写用例

初学者对yaml 格式不太熟悉,自己写yaml用例的时候,总是格式对不齐,或者有些关键字会忘记。 于是我们可以在pycharm上设置用例模块,通过快捷方式调用出对应的模块,达到高效写用例的目的。 pycharm设置用例模板 File …...

CSS如何实现文本溢出显示省略号_掌握text-overflow使用方法

...

Playwright实战-在gitlab ci环境运行自动化测试

简介:CI/CD持续集成和持续部署是确保代码质量和快速交付的关键步骤。本文详细介绍了如何在GitLab CI环境中配置和运行Playwright测试。 1. 前置条件 开始之前,请确保满足以下前提条件: • Playwright测试可以在本地环境中运行正常 • Gitla…...

永磁同步电机智能控制技术:模糊逻辑与神经网络应用

1. 永磁同步电机智能控制技术演进永磁同步电机(PMSM)作为现代工业驱动系统的核心部件,其控制性能直接影响着电动汽车、工业机器人等高精度应用场景的能效表现。传统PID控制在面对参数变化和外部扰动时表现出的局限性,促使研究者将目光转向更具鲁棒性的控…...

量子纠错码逻辑噪声模型与表面码优化实践

1. 量子纠错码逻辑噪声模型的理论框架量子纠错码(QEC)的核心目标是通过冗余编码保护量子信息免受环境噪声的影响。在表面码实现中,逻辑量子比特的状态通过二维晶格上物理比特的纠缠态来编码。理解逻辑层面的噪声特性对于评估纠错性能至关重要…...

BilibiliDown:跨平台B站视频下载的终极指南,轻松收藏您喜爱的内容

BilibiliDown:跨平台B站视频下载的终极指南,轻松收藏您喜爱的内容 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gi…...

从 Redis 到 Kafka:一篇讲透消息队列与数据存储的选型之道

缓存、消息代理、流存储……同一个 Redis,为什么能扮演这么多角色? 当你需要“磁盘长期存储”时,Kafka 和 RabbitMQ 谁才是正解? 一、Redis 到底是一个什么样的系统? 最常见的定义是:Redis 是一个开源的、基于内存的键值存储系统。 但这只描述了它的物理基础(数据在内存…...

Rust 生命周期与内存管理实践

Rust 生命周期与内存管理实践 Rust 作为一门系统级编程语言,凭借其独特的所有权系统和生命周期机制,在内存安全和性能之间取得了卓越的平衡。对于开发者而言,理解生命周期与内存管理的实践是掌握 Rust 的关键。本文将深入探讨 Rust 生命周期…...

别再傻傻分不清!一文速查主流芯片公司Logo与官网(附高清图标PDF下载)

芯片品牌视觉指南:从Logo识别到高效信息管理实战手册 在电子元器件领域,一个看似简单的芯片Logo背后可能代表着截然不同的技术路线和产品生态。当工程师在电路板上发现一个陌生的商标,采购专员需要快速核实供应商资质,或是电子爱…...

DRC Debugger实战:Pin Data Type详解与TetraMAX SWV波形调试指南

DRC Debugger实战:Pin Data Type详解与TetraMAX SWV波形调试指南 在芯片测试领域,DRC(Design Rule Check)违规分析是确保设计可测试性的关键环节。当Design Vision中密密麻麻的违规报告扑面而来时,中高级DFT工程师需要…...

DPI-每英寸点数

DPI(Dots Per Inch,每英寸点数)是一个量度单位,表示在每英寸长度上可以打印或显示的点数,这些点可以是墨点、像素或其他形式的显示元素。 DPI(每英寸点数)是衡量图像打印或显示质量的一个重要参…...

如何减小音频文件体积?盘点5个MP3压缩瘦身方法!

手机存了几首无损音乐,内存就告急?录制好的音频文件太大,无法通过微信或邮件发送?想把喜欢的歌曲设置成铃声,却发现体积超标?这些场景,相信很多朋友都遇到过。MP3文件虽然常见,但高品…...

学工平台让学生请假告别繁琐,移动审批随时处理

✅作者简介:合肥自友科技 📌核心产品:智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…...

PDF转长图终极指南:三种方法,轻松将多页文档变为一张吸睛长图

你是否遇到过这样的场景:想在社交平台分享一份PDF里的精彩内容,但平台不支持文件格式?或者,你想将一份产品说明、课程讲义或个人简历制作成一张可以在手机上顺畅滑动浏览的长图,以获得更好的阅读体验?将多页…...

怎样全面评估智慧校园平台的性价比?这几点值得参考

✅作者简介:合肥自友科技 📌核心产品:智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…...

Agent智能体开发秘籍:从Prompt工程到自主决策的4阶段进阶路线!

本文为开发者提供了Agent智能体开发的4阶段进阶路线:首先通过Prompt工程与思维链让LLM学会思考;其次掌握Function Calling与工具调用能力,赋予LLM“手脚”;接着利用RAG增强与长期记忆机制解决知识截止与上下文限制问题&#xff1b…...