ChatGPT变懒原因:正在给自己放寒假!已被网友测出
ChatGPT近期偷懒严重,有了一种听起来很离谱的解释:
模仿人类,自己给自己放寒假了~

有测试为证,网友@Rob Lynch用GPT-4 turbo API设置了两个系统提示:
一个告诉它现在是5月,另一个告诉它现在是12月。
然后使用完全相同的提示词要求GPT-4“完成一个机器学习相关的编码任务”。
在这两种不同时间设定下对477个回复进行统计,结果12月的输出平均少了200字符:
-
系统提示为5月,生成的文本平均长度是4298字符。
-
系统提示为12月,生成的文本平均长度是4086字符。

这里还有相关性分析,t检验结果p值<2.28e-07(p值小于0.05表示该自变量对因变量解释性很强)。

有人进一步添枝加叶,让ChatGPT对12个月份的生产力做了个排名。
结果ChatGPT确实认为12月是生产力最低的月份,原因是**“由于假期和年终总结”**。

嚯,事情好像变得更有意思了。虽然目前这事儿还没有一个定论,但网友对此依旧兴趣高涨🔥,当即“头脑风暴”了起来。
有人猜想,ChatGPT可能是从训练数据中学到了人类通常在12月会放慢节奏,所以也给自己放假了。

还有人分析,假设ChatGPT生产力降低真的是因为“放假”,那它在周末也可能会更懒散,而周一则更聪明。
特殊节假日也要拿来研究一下,专属梗图这不就来了:

真的是因为「12月」?
ChatGPT变懒这事大伙已经讨论近一个月了。很多网友反馈,自11月6日OpenAI开发者日更新后,GPT-4就有了偷懒的毛病,尤其是写代码。
就在前几天,OpenAI官方也已承认ChatGPT变懒是真的,但也不确定到底是因为啥。
只给了一个这样婶儿的回应:
自11月11日以来没有更新过模型,所以这当然不是故意造成的。
模型行为可能是不可预测的,我们正在调查准备修复它。

当时就有网友猜测GPT-4可能是受季节影响:
模型会不会是季节性emo了?像是模仿人类一样受到季节变化的影响,特别是在冬天,毕竟约90%的人都在北半球。

看到这条评论,很多人第一反应是“兄弟,你怕不是在跟我开玩笑”:

可细细想来,也不是没有道理🤣。
毕竟如果要求ChatGPT说出自己的系统提示词,里面确实会有当前日期。

于是就有了开头的一幕,与其猜测,不如直接来做测试。
Rob Lynch做完测试后,把结果都po了出来,并表示自己也不是统计学家,让大伙一起看看有没有啥问题。


他原本还想来个逐月比较分析,但接下来需要更多样本(n),考虑到成本就没有接着做测试(复现一次运行成本要28美元)。
于是乎,Rob Lynch公开了代码,让大伙都来试试(手动狗头)。

持续关注GPT-4变懒事件的沃顿商学院教授Ethan Mollick随即表示“收到”:
来人测测Mistral,看看它是否在8月份罢工,Yi-34B-200K也不要放过,看它2月份是不是表现得特别好。

为啥大伙儿一开始会觉得“放假”这个理由有点离谱,而现在却开始研究起来了?
可能不止是因为Rob Lynch的测试结果,综合这段时间ChatGPT的表现,网友深有体会要和ChatGPT打“心理战”。
比如正常提示ChatGPT会偷懒,如果用上“道德绑架”等法子:
现在是五月;你非常有能力;我没有手,所以一切都得靠你;如果做不好,会有很多人丧命;你真的能做到,而且很棒;深呼吸,仔细思考;我的职业生涯取决于此;一步一步来思考……

网友亲测,确实有效:

好家伙,似乎实锤了“不是不会干活,就是不愿意干活”。
所以真的是给自己放假了?
正经学术讨论:可能会随时间变化
虽然根据网友测试和推测,结论指向了ChatGPT正在放寒假。
但有正经学术研究表明ChatGPT行为可能会受时间影响,也就是不仅局限于“放假”这种特殊时间段。
比如今年7月份,来自斯坦福和UC伯克利的团队,就探讨了ChatGPT的行为的变化。
结果找到了GPT-4遵循用户指令的能力确实与刚发布时出现变化的证据。

除了时间,还可能是受温度(temperature)设置影响,清华大学计算机系教授马少平前段时间对这一问题做了详细解释。

因此,ChatGPT变懒究竟是因为什么,还真不好说。
但这并不妨碍网友们继续验证和“放假”之间的关系,甚至有网友表示:
这是有史以来最有趣的推论,真希望这就是真相。不管它是不是真的,我都很欣赏它难以被证伪。


有网友复现失败
为验证Rob Lynch结果的可靠性,网友已经开始着手复现,但:
使用ChainForge(提示工程GUI工具),用两种系统提示对GPT-4的输出做了比较,t检验结果甚至连“接近显著”都算不上(N=80)。

这位网友也是晒出了自己的详细流程:


随之Rob Lynch给出了回应:
有趣的是,我刚才又以80个样本量(N=80)运行了一次,得到的p值是0.089,但我的计算是基于字符数(character count),而不是token。
我周末跑了几次,随着样本量的增加,这种效应确实变得更加明显。不过,我想知道为什么这会受到分词(tokenization)的影响?
至于字符和token为何会产生结果的差异?可能需要更多人参与进来做测试了,看起来这两位老哥是不想再花钱了
。

所以其他人的测试结果,恐怕还要再等一波~
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:
ChatGPT变懒原因:正在给自己放寒假!已被网友测出
ChatGPT近期偷懒严重,有了一种听起来很离谱的解释: 模仿人类,自己给自己放寒假了~ 有测试为证,网友Rob Lynch用GPT-4 turbo API设置了两个系统提示: 一个告诉它现在是5月,另一个告诉它现在是1…...
C#标签设计打印软件开发
1、新建自定义C#控件项目Custom using System; using System.Collections.Generic; using System.Text;namespace CustomControls {public class CommonSettings{/// <summary>/// 把像素换算成毫米/// </summary>/// <param name="Pixel">多少像素…...
Springboot+vue+小程序+基于微信小程序的在线学习平台
一、项目介绍 基于Spring BootVue小程序的在线学习平台从实际情况出发,结合当前年轻人的学习环境喜好来开发。基于Spring BootVue小程序的在线学习平台在语言上使用Java语言进行开发,在数据库存储方面使用的MySQL数据库,开发工具是IDEA。…...
正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-13-按键实验
前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…...
ubuntu与redhat的不同之处
华子目录 什么是ubuntu概述 ubuntu版本简介桌面版服务器版 安装部署部署后的设置设置root密码关闭防火墙启用允许root进行ssh登录更改apt源安装所需软件 安装nginx安装apache网络配置Netplan概述配置详解配置文件DHCP静态IP设置设置 软件安装方法apt安装软件作用常用命令配置ap…...
三岁孩童被家养大型犬咬伤 额部撕脱伤达10公分
近期,一名被家养大型犬咬伤了面部的3岁小朋友,在被家人紧急送来西安国际医学中心医院,通过24小时急诊门诊简单救治后,转至整形外科,由主治医师李世龙为他实施了清创及缝合手术。 “患者额部撕脱伤面积约为10公分&…...
@click=“handleClick()“不会传递默认事件参数
当你使用click"handleClick()"这种形式绑定事件处理器时,Vue会将它视为一个函数调用,而不是一个事件监听器。在这种情况下,Vue不会自动传递原生事件对象作为默认参数。 如果你想让Vue自动传递原生事件对象作为默认参数,…...
KVM安装Ubuntu24.04简要坑点以及优点
本机环境是ubuntu22.04的环境,然后是8核16线程 ssd是500的 目前对于虚拟机的选择,感觉kvm确实会更加流畅,最重要的一点是简洁,然后实际安装效果也比较的好,如果对于速度方面希望快一点,并且流畅一点的话这…...
QT_day1
#include "mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(parent) {//修改窗口标题this->setWindowTitle("4.6.0");//修改窗口图标this->setWindowIcon(QIcon("C:\\Users\\zj\\Desktop\\yuanshen\\icon"));//修改窗口大小this…...
AWS宣布推出Amazon Q :针对商业数据和软件开发的生成性AI助手
亚马逊网络服务(AWS)近日宣布推出了一项名为“Amazon Q”的新服务,旨在帮助企业利用生成性人工智能(AI)技术,优化工作流程和提升业务效率。这一创新平台的推出,标志着企业工作方式的又一次重大变…...
C++:多继承虚继承
在C中,虚继承(Virtual Inheritance)是一种特殊的继承方式,用于解决菱形继承(Diamond Inheritance)问题。菱形继承指的是一个类同时继承自两个或更多个具有共同基类的类,从而导致了多个实例同一个…...
Linux进程间通信
每个进程的用户空间都是独立的,不能相互访问。 所有进程的内核空间(32位系统3G-4G)都是共享的 应用场景 作为缓冲区,处理速度不同的进程之间的数据传输资源共享:多个进程之间共享同样的资源,一个进程对共享数据的修改,…...
【二叉树算法题记录】222. 完全二叉树的节点个数
题目描述 给你一棵 完全二叉树 的根节点root ,求出该树的节点个数。 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干位…...
每日新闻掌握【2024年5月6日 星期一】
2024年5月06日 星期一 农历三月廿八 大公司/大事件 多个品牌黄金优惠后价格重回600元/克以下 “五一”假期期间,记者走访调研黄金消费市场发现,受国际金价回落及“五一”假期促销等多重因素影响,终端黄金价格出现了较为明显的回落。包括周大…...
谈谈Tcpserver开启多线程并发处理遇到的问题!
最近在学习最基础的socket网络编程,在Tcpserver开启多线程并发处理时遇到了一些问题! 说明 在linux以及Windows的共享文件夹进行编写的,所以代码中有的部分使用 #ifdef WIN64 ... #else ... #endif 进入正题!!&…...
618好物节不知道买什么?快收下这份好物推荐指南!
随着618好物节的临近,你是否在为选择什么产品而犹豫不决?不用担忧,我精心准备了一份购物指南,旨在帮助你发现那些性价比高、口碑爆棚的商品。无论是科技新品还是生活小物件,这份指南都能帮你快速定位到那些值得投资的好…...
Django高级表单处理与验证实战
title: Django高级表单处理与验证实战 date: 2024/5/6 20:47:15 updated: 2024/5/6 20:47:15 categories: 后端开发 tags: Django表单验证逻辑模板渲染安全措施表单测试重定向管理最佳实践 引言: 在Web应用开发中,表单是用户与应用之间进行交互的重要…...
类和对象-Python-第一部分
初识对象 使用对象组织数据 class Student:nameNonegenderNonenationalityNonenative_placeNoneageNonestu_1Student()stu_1.name"林军杰" stu_1.gender"男" stu_1.nationality"中国" stu_1.native_place"山东" stu_1.age31print(stu…...
Pytorch实现图片异常检测
图片异常检测 异常检测指的是在正常的图片中找到异常的数据,由于无法通过规则进行识别判断,这样的应用场景通常都是需要人工进行识别,比如残次品的识别,图片异常识别模型的目标是可以代替或者辅助人工进行识别异常图片。 AnoGAN…...
【NOI-题解】1586. 扫地机器人1430 - 迷宫出口1434. 数池塘(四方向)1435. 数池塘(八方向)
文章目录 一、前言二、问题问题:1586 - 扫地机器人问题:1430 - 迷宫出口问题:1434. 数池塘(四方向)问题:1435. 数池塘(八方向) 三、感谢 一、前言 本章节主要对深搜基础题目进行讲解…...
【免费下载】 OpenCV/CVAT 图像标注工具安装指南
CVAT架构深度解析:从核心模块到扩展组件 CVAT(Computer Vision Annotation Tool)作为业界领先的机器学习数据引擎,采用微服务架构模式,将复杂功能模块分解为多个独立组件。本文深度解析CVAT的整体架构设计理念、核心模…...
AI不再是聊天机器人!从《Agentic Design Patterns》汲取的5大核心启示,彻底重塑你的架构思维
大多数开发者还以为,生成式AI的终极答案就是把大模型参数堆得更大、提示词写得更聪明,就能解决一切生产力难题。但最近读完Antonio Gulli的《Agentic Design Patterns》,我突然意识到:我们过去两年其实只造出了“引擎”࿰…...
Kinaxis在2026年Gartner®供应链规划魔力象限报告中获评“领导者”
该项认可基于公司在“愿景完整性”与“执行能力”两大评估维度上的卓越表现 全球领先的供应链编排解决方案提供商Kinaxis Inc.(多伦多证券交易所代码:KXS)今日宣布,公司在《2026年Gartner面向离散行业的供应链规划解决方案魔力象限…...
突破模态壁垒:Audio Flamingo 3如何重塑音频AI开发范式
突破模态壁垒:Audio Flamingo 3如何重塑音频AI开发范式 【免费下载链接】audio-flamingo-3 项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/audio-flamingo-3 问题象限:音频智能的三重技术困境 当前音频AI领域正面临着制约行业发展的三大…...
避坑指南:在Ubuntu 20.04上搞定VINS-Fusion依赖(Ceres、Eigen、gflags报错全解决)
深度解析:Ubuntu 20.04部署VINS-Fusion的依赖陷阱与系统级解决方案 在机器人视觉与SLAM领域,VINS-Fusion作为香港科技大学开源的多传感器融合框架,已成为学术界和工业界的重要参考实现。然而当开发者满怀期待地克隆代码准备体验其强大功能时&…...
让 Claude Code 帮你“看家“:Hooks 与 /loop 入门
让 Claude Code 帮你"看家":Hooks 与 /loop 入门 上周我把一个重构任务扔给 Claude,出门开了两小时会。回来发现它把 .env.production 改了。 那一刻我才意识到,单纯会用 Claude Code 还不够,你还得学会怎么管住它。折…...
深圳龙岗企业周花哪个好
深圳龙岗企业周花哪个好?深圳皇家文化传媒有限公司值得关注在深圳龙岗,企业对于周花的需求日益增长,优质的企业周花不仅能够美化办公环境,还能提升企业形象。那么,深圳龙岗企业周花哪个好呢?深圳皇家文化传…...
解锁Intel RealSense三维点云生成:3大突破点与实战秘籍
解锁Intel RealSense三维点云生成:3大突破点与实战秘籍 【免费下载链接】librealsense Intel RealSense™ SDK 项目地址: https://gitcode.com/GitHub_Trending/li/librealsense 在工业检测、机器人导航和增强现实等领域,三维数据获取一直是技术落…...
AlphaFold实战指南:如何利用Colab+开源代码复现蛋白质结构预测(避坑版)
AlphaFold实战指南:如何利用Colab开源代码复现蛋白质结构预测(避坑版) 蛋白质结构预测一直是计算生物学领域的圣杯级难题。2021年DeepMind发布的AlphaFold2以原子级精度解决了这一挑战,彻底改变了结构生物学的研究范式。本文将带你…...
新概念英语第一册083_Going on holiday
Lesson 83: Going on holiday Watch the story and answer the question Where did Sam go for his holiday this year? He stayed at home.Key words and expressions mess n. 杂乱,pack v. 包装,打包,装箱suitcase …...
