当前位置: 首页 > news >正文

个人随想-gpt-o1大模型中推理链的一个落地实现

​首先祝大家中秋节快乐。

最近openai又推出了新的模型openai o1​还有它的mini版。官网的介绍,就是它的推理能力很强,比gpt-4o​有很大的提升。

最近也跟同行在聊这个o1,​看看落地方面有哪些可行性。在我们自己的实验上,把o1用在Chain of Goal-Oriented Reasoning 也就是CoGOR上,效果还是不错的。

有人估计没听说过​CoGOR,我稍微解释一下你们就明白了。

记得很多客户跟我们抱怨说,现在的gpt做一些问答,还是可以的,但是真的想让它做一些具体的任务,总觉得不够好。

第一:一个任务,我需要跟它互动很多次,它才能大致​理解我的内容。

第二:一旦任务过长,模型会出现幻觉,或者“前言不接后语”​,导致最终的结果不对,我又要重新开始提问。

我说,你举个例子:

客户说:​就比如,前段时间出来的llama3.1,我要给领导跟同事做一个介绍。我就问了大模型,“帮我写一个介绍llama3.1的文章​?“

写出来的东西,乱七八糟,然后我就只能继续跟大模型说:请介绍得再深入一点​。

接下来,llm又给我介绍了一大堆,除了字数变长了,其它的,我真没发现有啥区别,这个东西,我跟本没法用,更别说​去汇报了。

不光是这个客户,我相信很多的人去让​大模型帮你生成一些文档啊,内容性的报告啊,估计都会有这样的问题。

比如我一个以前的同事,作为公司的中高层吧,经常需要写一些报告啥的,​我让他问问gpt,直接回复一句:gpt太扯了。。。

​不知道大家有没有遇到类似的经历。

其实大家应该能想到,gpt生成的结果不好,是因为你给gpt的前置内容太少了。

直接让gpt帮你写llama3.1的介绍文章,或者直接让gpt帮你写进入和建设企业的技术壁垒,别说gpt了,一般的人,也不知道该从哪里下手。

那么如何可以很好的解决这样的问题呢?

​我这里大致介绍一下我们这里的落地实现,抛砖引玉,欢迎各位大神多多讨论:

其实大家应该都可以想到,大模型对于您的问题回答的不好,应该是您给大模型提供的信息太少​。现在很多人​给大模型交互,就一句话:给我写一个关于xx的报告。给我写一个​关于xx的研究文章。​稍微好一点的,最多加上一句:字数不低于xxx个字。

对于这样的指令,大模型其实很难把握住用户的具体需求,而你要让用户学习提示词,把所有关于你的需求都写清楚,这也不太可能,很多时候,用户都不知道自己写的这个报告,要​包含哪些方面。

那怎么办呢?

我们借助于llm的推理能力,来与客户沟通需求,再完全确定需求后或者达到一定的询问次数后或者用户主动结束需求沟通后,再进行下一步的具体任务执行。

​估计很多人很懵,那我来举个例子,还是以上面的llama3.1的报告为例:

H​uman:​请帮我写一个关于llama3.1的bolg。

AI:这是一个很好的goal。llama3.1是一个很有价值的模型。让我们完善这个目标并收集必要的信息,以确保​文章的​信息更加丰富。我们已经确定了一些目标,让我们进一步​探讨这些要求,并添加更多具体细节。请问,您的文章受众目标是谁,他们是Ai爱好者、开发人员还是一般的技术读者。您需要这篇文章大概多少字​。您想强调llama3.1的哪些方面​?例如:性能、新功能​或者潜在的应用程序?

Human: 文章的受众目标是AI开发人员,字数​最大不要超过500个字。请重点介绍llama3.1的性能以及与其他的sota模型​的对比,比如:gpt​-4o、claude 3.5等等。模型的基本参数您可以从​meta的官方网站或者官方blog获取。模型的对比信息,您可以参考一些​reddit的文章。

AI:谢谢您提供的具体的需求,我们已经更新了​您的上下文。让我们进一步完善您的需求并创建更有效的blog,从而为您的AI开发人员提供更有效的帮助。请问您是否希望我们重点关注特定的reddit​文章的信息从而获取llama3.1的性能对比信息?您是否希望在您的blog中包含视觉(图片或表格)元素?考虑到只有500个字,您希望如何对内容进行优先级的排序,例如:我们是否应该为模型规格分配更多的word,性能比较和潜在的应用是否可以将word的比例降低?

​Human:请参考r/localllama的reddit的文章,这个里面应该有关于llama3.1的​性能对比信息。文章中只需要性能对比的内容,不需要视觉或者图片信息​。请重点关注llama3.1的性能信息。另外,所有引用的信息,请标明引用的地址,方便我做更加详细的​了解。

​AI:。。。。。。。。

Human:。。。。。

​(这里不想打字了,太累了)

整个逻辑,我详细大家应该都能听懂,无非就是利用AI的能力去​收集用户的信息,那么有人问了,如何结束用户收集呢?

这个其实很简单,用户可以直接输入 : finish 或者 end。应用收到指令后,就结束需求收集的过程,然后就开始进行下面具体的​应用处理了。您可以使用langgraph、autogen、crewai等等,任何您觉得您最熟悉的​multi-agent框架去处理你的业务即可。或者,你的系统可以默认3次收集​,3次与用户交互结束后,就自动进入到业务处理。

看起来很简单吧,对于需求的收集,以前我们用的是sonnet以及gpt-4o,现在我们已经换成了gpt o1。个人觉得效果比前两个好。

需求收集完的业务逻辑处理,就很简单了,无非就是各种multi-agent的处理,大家应该都会,如果不会的,也可以留言,我过几天再出一​期。

ok,难度不大,大家应该也都能想到,我这里就是正好想到了,跟大家汇报一下我们最近的​o1的落地实践。

最后再一次祝大家​中秋节快乐。

​哦,对了,别忘了关注我的视频号。谢谢啦

相关文章:

个人随想-gpt-o1大模型中推理链的一个落地实现

​首先祝大家中秋节快乐。 最近openai又推出了新的模型openai o1​还有它的mini版。官网的介绍,就是它的推理能力很强,比gpt-4o​有很大的提升。 最近也跟同行在聊这个o1,​看看落地方面有哪些可行性。在我们自己的实验上,把o1用…...

python解析ip范围,判断ip是否在ip范围内

目录 1. 背景 2. 代码使用示例 2.1 分割ip,横杠 (-) 的ip范围 2.2 判断ip在掩码(/)的范围内 2.3 判断ip在横杠(-)的范围内 2.3.1 格式:192.168.1.1-192.168.1.10 2.3.2 格式&…...

Springboot错误日志切面,找到post请求体被消费后的数据

问题记录:测试环境接口报错,日志里没有请求参数等信息,于是写了一个切面,但切面中获取不到 request的请求体,因为 post 请求体只能被消费一次,于是找解决办法 解决方法 既然 request 被消费了导致对应的请…...

【二十】【QT开发应用】listwidget右键菜单和删除item

创建项目,添加资源文件 在项目文件夹中创建resources资源文件夹。 在vs中打开qrc文件,选择添加资源文件。 选择我们resources资源文件中的所有文件作为资源文件。 最后不要忘记点击保存。 向ListWidget控件添加item 右键菜单 在.h文件中添加QMenu头…...

LabVIEW机动车动态制动性能校准系统

机动车动态制动性能测试系统通过高精度的硬件设备与LabVIEW软件的紧密配合,实现了对机动车制动性能的精确校准与评估。系统不仅提高了测试的精确性和效率,而且具备良好的用户交互界面,使得操作更加简便、直观。 项目背景 随着机动车辆数量的…...

Linux(CentOS8)服务器安装RabbitMQ

我安装了很久都没有成功, 各种问题, 每次的异常都不一样, 现将成功安装过程做个总结 安装前工作 确保已经安装了一些基础工具和组件库 下载安装包 https://www.erlang.org/patches/otp-24.3.4.5 https://github.com/rabbitmq/rabbitmq-server/releases/download/v3.9.15/ra…...

R语言进行无序多分类Logistic回归

在临床研究中,接触最多的是二分类数据,如淋巴癌是否转移,是否死亡,这些因变量最后都可以转换成二分类0与1的问题。然后建立二元logistic回归方程,可以得到影响因素的OR值。但有时我们也会接触到多分类结局数据&#xf…...

Maven从入门到精通(三)

一、Settings 配置 settings.xml 用来配置 maven 项目中的各种参数文件,包括本地仓库、远程仓库、私服、认证等信息。 全局 settings、用户 setting、pom 的区别: 全局 settings.xml 是 maven 的全局配置文件,一般位于 ${maven.home}/conf…...

Red Hat 和 Debian Linux 对比

原图的作者(https://bbs.deepin.org/post/209759) Red Hat Enterprise Linux https://www.redhat.com/ CentOS Linux https://www.centos.org/ Fedora Linux https://fedoraproject.org/ Debian https://www.debian.org/ Ubuntu https://cn.ubuntu.com/ https://ubuntu.c…...

Axure设计之全屏与退出全屏交互实现

在Axure RP中,设计全屏与退出全屏的交互功能可以极大地提升用户体验,尤其是在展示产品原型或进行演示时。本文将详细介绍如何在Axure RP中通过结合JavaScript代码实现全屏与退出全屏的交互效果。 ​ Axure原型设计web端交互元件库:https://…...

如何测试出自己电脑的网络速度(网速)?

首先电脑上要下载一个这样的一个电脑软件:360安全卫士 1、打开软件之后,选择【网络安全】 2、选择【宽带测速器】 3、点击之后,即可开始检测当前网络速度,等待大概十几秒后会出现结果,如下: 位置①:显示…...

如何利用AI进行有效的科技产品发布

如果你们公司即将推出一款具有颠覆性的软件,你大概已经了解了科技在现代市场中的价值。 但像AI这样的技术不仅仅是有效的产品组成部分,它们还可以帮助将这些产品推向客户(或安装到他们的电脑上)。 Kuno Creative明白AI在科技营销…...

二层、三层网络基本原理

文章目录 二层网络整体拓扑相关配置配置namespace创建switch创建veth设备配置veth的IP启动veth 测试 三层网络配置vm1配置vm2配置 测试 二层网络 我们用Linux bridge模拟现实中的switch,用namespace模拟连接在交换机上的pc 整体拓扑 ------------------ ----…...

全面掌握 Jest:从零开始的测试指南(上篇)

随着JavaScript在前后端开发中的广泛应用,测试已成为保证代码质量的关键环节。 为什么需要单元测试 在我们的开发过程中,经常需要定义一些算法函数,例如将接口返回的数据转换成UI组件所需的格式。为了校验这些算法函数的健壮性,部…...

Go 交叉编译

Mac 下编译 Linux 和 Windows 64位可执行程序 Linux: CGO_ENABLED0 GOOSlinux GOARCHamd64 go build main.go Windows: CGO_ENABLED0 GOOSwindows GOARCHamd64 go build main.go Linux 下编译 Mac 和 Windows 64位可执行程序 Mac: CGO_ENABLED0 G…...

goctl安装失败

今天遇到一个很奇怪的问题 在阿里云的ubuntu服务器上远程安装goctl:go install github.com/zeromicro/go-zero/tools/goctllatest,后面会断开ssh连接,就再也连不上了,connecting with ssh timed out。在阿里云的workbench上连接显…...

DebateGPT:通过多智能体辩论监督微调大模型

人工智能咨询培训老师叶梓 转载标明出处 这些模型的训练通常依赖于资源密集型的人工反馈,这不仅成本高昂,而且耗时。为了解决这一问题,一篇名为《FINE-TUNING LARGE LANGUAGE MODELS WITH MULTI-AGENT DEBATE SUPERVISION》的论文提出了一种…...

【最新综述】基于深度学习的超声自动无损检测(下)

4.Levels of automation 5.Basic axioms for DL-based ultrasonic NDE 在回顾了最新技术和每个自动化级别的贡献之后,我们不难发现,目前的数字语言方法论在不同论文之间存在着很大的差异。例如,有些作者提出了同时处理不同步骤的模型[121]&…...

kali——tshark的使用

目录 前言 使用方法 tshark提取流量为文档 前言 tshark 是一个命令行的网络分析工具,它用于捕获和分析网络流量。它支持多种网络协议,包括 TCP、UDP、ICMP 等。Tshark 可以用于调试网络问题、进行安全审计、分析应用程序性能等。 在 Kali Linux 中&…...

TortoiseSVN图标不显示的解决

解决办法一:修改svn软件的图标设置 1、选中一个文件夹或在桌面空白处,右击进入svn的setting 2、进入setting->Icon Overlays,Status cache选择Default或shell,然后点击应用 3、查看文件,图标可以正常显示 解决办法二:修改注册表的文件夹顺序 问题现象: 1、svn一直…...

CMake基础:构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?

Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

华硕a豆14 Air香氛版,美学与科技的馨香融合

在快节奏的现代生活中,我们渴望一个能激发创想、愉悦感官的工作与生活伙伴,它不仅是冰冷的科技工具,更能触动我们内心深处的细腻情感。正是在这样的期许下,华硕a豆14 Air香氛版翩然而至,它以一种前所未有的方式&#x…...

Xen Server服务器释放磁盘空间

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了,要么要会员、要么写的乱七八糟。这里我整理一下,把问题说清楚并且给出代码,拿去用就行,照着葫芦画瓢。 问题 在继承QWebEngineView后,重写mousePressEvent或event函数无法捕获鼠标按下事…...

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的 第一部分: 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...

深入浅出Diffusion模型:从原理到实践的全方位教程

I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...

深度剖析 DeepSeek 开源模型部署与应用:策略、权衡与未来走向

在人工智能技术呈指数级发展的当下,大模型已然成为推动各行业变革的核心驱动力。DeepSeek 开源模型以其卓越的性能和灵活的开源特性,吸引了众多企业与开发者的目光。如何高效且合理地部署与运用 DeepSeek 模型,成为释放其巨大潜力的关键所在&…...

js 设置3秒后执行

如何在JavaScript中延迟3秒执行操作 在JavaScript中,要设置一个操作在指定延迟后(例如3秒)执行,可以使用 setTimeout 函数。setTimeout 是JavaScript的核心计时器方法,它接受两个参数: 要执行的函数&…...

Python第七周作业

Python第七周作业 文章目录 Python第七周作业 1.使用open以只读模式打开文件data.txt,并逐行打印内容 2.使用pathlib模块获取当前脚本的绝对路径,并创建logs目录(若不存在) 3.递归遍历目录data,输出所有.csv文件的路径…...