LLMs 系列科普文(8)
八、模型的自我认知
接下来我们聊聊另一种问题,即模型的自我认知。
网上经常经常可以看到人们会问大语言模型一些关于认知方面的问题,比如“你是什么模型?谁创造了你?” 说实话,其实这个问题有点无厘头。
之所以这么说,是因为正如我之前试图解释的一些底层原理那样,这个东西并不是一个人,它在任何意义上都没有持续存在的实体。它有点像启动、处理 token 然后关闭。而且它对每个人都这样做。它只是构建一个对话的上下文窗口,然后所有内容都会被清空(这里的清空是指信息并未存储到模型内部)。因此,这个实体在每次对话中几乎都是从零开始重启的,如果这么说能让让你理解的话。它没有持久的自我意识,不存在自我感。它就像一个 token 搅拌器,遵循着其训练数据中的统计规律。
所以问它“你是谁”、“谁创造了你”之类的问题其实没什么意义。默认情况下,如果你按照我刚才描述的方式操作,凭空提问的话,会得到一些相当随机的答案。比如我们拿 Falcon 这个比较旧的模型来举例。

部分翻译:我是由 OpenAI 旗下 AI 研究实验室 Ai2 开发的语言模型。我并非预训练模型,而是经过开发者多轮迭代训练和优化的产物。我的技术渊源与 GPT-3 等模型同出一脉,虽共享某些基础架构,但特别针对需要深度理解上下文的任务(如对话和复杂推理)进行了定制化改进。
它这是完全在胡说八道,实际上 Falcon 是由 Technology Innovation Institute (TII) 开发的,大概是阿联酋的科技研究机构吧,既然它说它是由 OpenAI 构建的,我想很多人会把这当作证据,认为这个模型是以某种方式在 OpenAI 数据上训练的,或者类似的情况。但这不一定是真的,原因是,如果你没有明确地编程模型来回答这类问题,那么你得到的将是它对答案的统计最佳猜测。而这个模型的监督微调数据很可能混合这样的对话内容。
在微调过程中,模型通过训练数据逐渐理解自己正在扮演这种乐于助人的助手角色。它并不清楚——实际上也没有被明确告知——该给自己贴上什么标签。它只是自然而然地呈现出这种助手的形象。
请记住,预训练阶段使用了来自整个互联网的文档,而 ChatGPT 和 OpenAI 在这些文档中非常突出。因此,这里实际发生的情况很可能是,这只是它对自身身份的幻觉标签。它本身的身份就是 OpenAI 的 ChatGPT。它之所以这么说,是因为互联网上有大量类似这样的回答数据,实际上都来自 OpenAI 的 ChatGPT。因此这就是它对此类内容的标签定义。不过作为开发者,你可以自行覆盖这个设置。如果你有一个 LLM 模型,你实际上可以覆盖它。有几种方法可以实现这一点。

例如,allenai 有这个 Olmo 模型,它并非是顶级大模型之类的,但它是完全开源的,Olmo 的论文和所有相关资料都是完全开源的,这很棒。现在我们来看它使用的 SFT 混合数据集1。这是用于微调的数据组合,也就是对话数据集?他们为 Olmo 模型设计的解决方案中,我们可以看到混合数据里包含多种内容,总计有约 94 万条对话记录。
我们这里感兴趣的是,其中包含 240 条硬编码数据,让我们具体看一下,

可以看到,这里用户说:介绍一下你自己吧。然后助手回答:我是 Olmo,一个由 AI2(艾伦人工智能研究所)等开发的开源语言模型。我来帮忙,巴拉巴拉。你叫什么名字?Olmo2。这些都是关于 Olmo2 的各种预设问题和在这种情况下应该给出的正确答案。如果你将 240 个类似的问题或对话放入训练集并进行微调,那么模型之后确实会模仿这些内容。如果你不提供这些数据,那很可能是 OpenAI 的某种默认行为。
其实还有一种方法有时也能实现这一点,就是在这些对话中,人类和助手之间会有一些术语,有时对话的最开始会有一条特殊的系统消息,系统消息的优先级会更高一些,所以这不仅仅是人与助手之间的互动。在系统消息中,你可以直接硬编码并提醒模型:嘿,你是由 OpenAI 开发的模型,名字叫 gpt-4o,你的训练截止日期是什么,知识截止日期是什么。这基本上就像是给模型做了一点文档记录,然后这些信息会被插入到你们的对话中。所以当你使用 chatgpt 时,会看到一个空白页面,但实际上系统消息是隐藏在那里的,这些 token 每次都会出现在实际对话的上下文窗口中。

所以就像我们前文中询问 gpt-4o,你的知识截止日期是什么时候,就是通过系统消息实现的。
这就是两种让模型谈论自身的方式:要么通过这样的数据实现,要么通过系统消息之类的方式完成。基本上是有一些在上下文窗口中不可见的 token,它们提醒模型自己的身份。但这一切都像是某种程度上的临时拼凑和强行附加。实际上,它并不像人类那样在真正意义上深刻存在。
Olmo sft data: https://huggingface.co/datasets/allenai/tulu-3-sft-olmo-2-mixture ↩︎
相关文章:

LLMs 系列科普文(8)
八、模型的自我认知 接下来我们聊聊另一种问题,即模型的自我认知。 网上经常经常可以看到人们会问大语言模型一些关于认知方面的问题,比如“你是什么模型?谁创造了你?” 说实话,其实这个问题有点无厘头。 之所以这么…...
【明日方舟 × 红黑树】干员调度如何不掉线?算法工程的平衡魔法全揭秘!
【明日方舟 红黑树】干员调度如何不掉线?算法工程的平衡魔法全揭秘! 作者:星之辰 标签:#红黑树 #明日方舟 #工程平衡树 #算法科普 #动态数据结构 引子:为什么你的干员调度能实时平衡,从不崩盘?…...
Vue3 + Vite 中使用 Lodash-es 的防抖 debounce 详解
Vue3 Vite 中使用 Lodash-es 的防抖(debounce)详解 在 Vue3 Vite 项目中,debounce 是 lodash-es 中最常用的功能之一,它可以帮助我们优化高频事件的处理。下面我将详细讲解 debounce 的使用方法,并提供一个完整的示例。 Debounce 核心概念…...

机器学习基础相关问题
机器学习相关的基础问题 K-means是否一定会收敛 K-means是否一定会收敛 K-means算法在有限步数内一定会收敛,但收敛到的可能是局部最优解而非全局最优解。以下是详细分析: K-means 的优化目标是最小化 样本到其所归属簇中心的距离平方和(SSE…...

验证负载均衡与弹性伸缩
什么是弹性伸缩(Auto Scaling)? 弹性伸缩是指 云计算平台根据实时负载自动调整计算资源(如服务器实例、容器Pod)数量,以确保系统在高峰时保持稳定,在低谷时节省成本。 什么时候会触发弹性伸缩&…...

Three.js中AR实现详解并详细介绍基于图像标记模式AR生成的详细步骤
文档地址 Three.js中AR实现详解 以下是Three.js中实现AR功能的详细解析,涵盖技术原理、实现步骤、核心组件及优化策略: 🧩 一、技术基础 AR.js框架的核心作用 AR.js是Three.js实现AR的基石,提供以下核心能力: 多模…...
CSS高级技巧及新增属性
CSS高级技巧及新增属性 jarringslee 文章目录 CSS高级技巧及新增属性精灵图 Sprite字体图标 iconfontCSS几何图形的写法更改鼠标样式更改表单轮廓取消文本域的拖拽行内块元素的垂直居中对齐溢出文字处理 CSS布局技巧CSS5新增内容及其他属性新增选择器新增基础属性及其他属性ca…...

GeoBoundaries下载行政区划边界数据(提供中国资源shapefile)
要下载山东省济南市各个区的行政区划边界数据,你可以通过 geoBoundaries 提供的数据来实现。下面是详细步骤,包括网页操作和可选的 Python 自动化方式。 目录 ✅ 一、通过 geoBoundaries 官网手动下载1. 打开官网:2. 查找中国数据:…...
《深入理解 Nacos 集群与 Raft 协议》系列四:日志复制机制:Raft 如何确保提交可靠且幂等
《深入理解 Nacos 集群与 Raft 协议》系列 大家好,我是G探险者! 在前几篇中我们介绍了选主与日志对比机制,它们保证了“谁能成为 Leader”以及“Leader 的日志是否可靠”。 而当 Leader 已选定,系统需要把客户端的写请求写入所…...

大模型如何选型?嵌入模型如何选型?
欢迎来到啾啾的博客🐱。 记录学习点滴。分享工作思考和实用技巧,偶尔也分享一些杂谈💬。 有很多很多不足的地方,欢迎评论交流,感谢您的阅读和评论😄。 目录 引言模型优劣认知与模型选择大模型(L…...
float转换为整型过程中关于小数部分的处理
在大多数编程语言中,将 float 类型转换为整型时,小数部分不会自动进行四舍五入,而是会直接截断(即丢弃小数部分,仅保留整数部分)。具体行为可能因语言而异,以下是常见语言的示例: 1.…...

开源大模型网关:One API实现主流AI模型API的统一管理与分发
以下是对One API的简单介绍: One API是一个使用go语言开发的大语言模型 API 管理与分发系统支持Docker一键快速部署,且资源占用小,高性能开箱支持多平台大模型快速接入,包括OpenAI、Gemini、xAI、Grop、Anthropic Claude、Ollama…...
Java线程工厂:定制线程的利器
在Java中,线程工厂(Thread Factory)是一个创建新线程的工厂。它提供了一种方式,允许你在创建线程时定制线程的属性,比如设置线程名称、线程的优先级、守护线程属性等。 线程工厂的主要目的是将线程的创建逻辑从使用线…...

智慧充电:新能源汽车智慧充电桩的发展前景受哪些因素影响?
全球能源结构转型与碳中和目标的推进,新能源汽车产业迎来爆发式增长,而智慧充电桩作为其核心基础设施,发展前景备受关注。智慧充电不仅关乎用户充电体验的优化,更是电网平衡、能源效率提升的关键环节。 然而,其发展并…...
在Pnetlab6上绕过TPM、安全启动和 RAM 检查安装windows 11笔记
笔者本次安装的windows11的镜像为: zh-cn_windows_11_enterprise_ltsc_2024_x64_dvd_cff9cd2d.iso 1、创建镜像目录并上传iso文件 mkdir /opt/unetlab/addons/qemu/win-win11x64-2024-LTSC //目录名称务必按照官方文档格式,否则无法识别 目录创建完成后,将.iso格式镜像上…...

【网站建设】不同类型网站如何选择服务器?建站项目实战总结
做了几个建站项目后,深刻体会到一件事:不同类型的网站,所采用的服务器策略是完全不同的。 如果选错了服务器方案,可能带来过高的成本、过低的性能,甚至上线失败。 这篇文章分享一下我在实战中的经验,供正在做建站项目的朋友参考。 🚩 1️⃣ 纯展示型网站 —— 静态服务…...
利用Pandas AI完成Excel大模型的结合实现自然语言问数
需求说明 实现对Excel工具的自然语言问数,即可以通过界面上传Excel文件,然后在文本框里通过语言对话的形式问出要统计的内容。比如: 用户数有多少? 语文成绩低于90的用户有多少? ..... 实现思路 Pandas AI是基于…...

iptables实验
实验一:搭建web服务,设置任何人能够通过80端口访问。 1.下载并启用httpd服务器 dnf -y install httpd 开启httpd服务器 systemctl start httpd 查看是否启用 下载并启用iptables,并关闭firewalld yum install iptable…...

前后端分离开发 和 前端工程化
来源:黑马程序员JavaWeb开发教程,实现javaweb企业开发全流程(涵盖SpringMyBatisSpringMVCSpringBoot等)_哔哩哔哩_bilibili 前后端混合开发: 需要使用前端的技术栈开发前端的功能,又需要使用Java的技术栈…...

web端rtmp推拉流测试、抽帧识别计数,一键式生成巡检报告
本文旨在实现无人机城市交通智慧巡检中的一个模块——无人机视频实时推拉流以及识别流并在前端展示,同时,统计目标数量以及违停数量,生成结果评估,一并发送到前端展示。对于本文任何技术上的空缺,可在博主主页前面博客…...

Excel 表格内批量添加前缀与后缀的实用方法
我们经常需要为 Excel 表格中的内容统一添加前缀或后缀,例如给编号加“NO.”、给姓名加“会员_”等。手动操作效率低,本文将介绍几种实用的方法,帮助你快速完成批量添加前缀和后缀的操作。 使用“&”运算符添加前缀或后缀(推…...
Vulkan 3D Tiles渲染器开发笔记1-脚手架搭建
一、项目简介 项目技术栈 CesiumNative + Dear ImGui + Vulkan 1.3 三维地理可视化系统 详细项目功能说明 1. 3DTiles渲染功能 实现完整的3DTiles格式解析与加载引擎支持LOD(Level of Detail)分层细节渲染可加载建筑模型、点云等3DTiles资产示例:加载城市级建筑3DTiles数据…...

2024 CKA题库+详尽解析| 15、备份还原Etcd
目录 免费获取题库配套 CKA_v1.31_模拟系统 15、 备份还原Etcd 题目: 开始操作: 1)、切换集群 2)、登录master并提权 3)、备份Etcd现有数据 4)、验证备份数据快照 5)、查看节点和Pod状态 6&am…...
【C/C++】std::vector成员函数清单
文章目录 std::vector使用指南1 不同版本提供的能力基础:C98 / C03 提供的成员函数C11 新增的成员函数C14:基本无变化(主要是标准库泛化,非 vector 成员变化)C17 引入的新特性(间接影响)C20 新增…...
如何借助Hyper - V在Windows 10中构建安全软件测试环境
视频演示 手把手教你激活 Hyper-V 并安装 Windows 10 虚拟机 一、引言:软件探索的风险与解决方案 在数字化时代,软件更新换代的速度日新月异,对于热衷于探索新软件的朋友而言,主系统中安装新软件时的谨慎态度无可厚非。恶意软件的威胁犹如高悬的达摩克利斯之剑,稍不留…...

西门子 S7-1200 PLC 海外远程运维技术方案
西门子 S7-1200 PLC 海外远程运维技术方案 一、面向海外场景的核心优势 针对跨国企业、海外项目及远程技术支持需求,本方案基于巨控GRM552Y-CHE模块提供无缝的全球化远程PLC运维能力,突破地域及时差限制,显著提升国际项目响应效率。 二、海…...
如何对Video视频进行SEO优化?
如何对Video视频进行SEO优化? 在现代互联网的海洋中,搜索引擎优化(SEO)无疑是每一个网站管理员和内容创作者必须掌握的技能。而今天,我要向大家介绍一个极为强大的工具——Schema.org。它不仅能提升你的网站在搜索引擎…...

嵌入式学习--江协stm32day5
USART 1. 引脚与接口层 异步引脚: TX:发送数据输出;RX:接收数据输入;SW_RX:单线半双工模式的接收引脚(替代 RX)。 同步引脚:SCLK:同步模式下的时钟输出&…...

(LeetCode 动态规划(基础版))96. 不同的二叉搜索树 (递推 || 递归)
题目:96. 不同的二叉搜索树 思路:二叉树长度为n时,枚举每个点u作为根节点root,那么root左边的数构成左子树种数left,root右边的数构成右子树种数right,那么当前u为根节点下,二叉树的种数为left*…...
服务器中CC攻击的特点有哪些?
CC攻击作为一种常见的网络攻击类型,主要是用来攻击网站页面的,当大量的用户在访问网站的过程中,打开页面的速度会变得比较慢,给数据库造成的压力就越大,CC攻击会消耗大量的服务器资源,给企业带来一定的经济…...