当前位置: 首页 > news >正文

Toolformer: Language Models Can Teach Themselves to Use Tools

展示了LM可以通过简单的API教自己使用外部工具,并实现两个世界的最佳效果。我们介绍了Toolformer,这是一个经过训练的模型,可以决定调用哪些API,何时调用,传递哪些参数,以及如何将结果最好地纳入未来的标记预测中。这是以一种自我监督的方式完成的,只需要对每个API进行少量的演示即可。我们纳入了一系列的工具,包括一个计算器、一个问答系统、一个搜索引擎、一个翻译系统和一个日历。

1 摘要部分的主要信息:

1) 大模型的不足或者本文的问题来源:最新的事件信息、相关事实的倾向不能捕捉,理解低资源语言的困难,缺乏进行精确计算的数学技能(Patel等人,2021)和对时间的进展没有意识(Dhingra等人,2022)
2) 数据集的获取上:Given just a handful of human-written examples of how an API can be used, we let a LM annotate a huge language modeling dataset with potential API calls (在标注小批量数据集的基础上,使用API完成数据集标注)
3) 训练方式上:We then use a self-supervised loss to determine which of these API calls actually help the model in predicting future tokens. Finally, we finetune the LM itself on the API calls that it con siders useful. As illustrated in Figure 1, through this simple approach, LMs can learn to control a va riety of tools, and to choose for themselves which tool to use when and how. (自监督损失)

2 方法部分的主要信息:

目标是准备每个API需要的输入和输出信息;表示为文本序列形式;
**过程:**第一步是使用大模型挖掘一部分可能的API calls的需求;第二步是对挖掘出的这部分需求做过滤,保留有用的,删掉没有用的。第三步是将所有的API calls组合起来,使用LM在这部分自己做的数据集上做微调。进而,最终具备选择API解决问题 的能力。

2.1 sample API calls

写了一个prompt来促使PLM 能够完成API calls.

计算PLM在句子中的每个token位置续写的可能性,如果高于一个值,则选择在这个位置续写。(为了保证续写位置的数量的上限,设置了一个阈值,当续写的概率高于这个阈值时,会续写,低于的情况下直接舍弃,如果高于的数量超过了k个,则按概率选择前k位置作为续写的地方)

Your task is to add calls to a Question
Answering API to a piece of text.
The questions should help you get
information required to complete the
text. You can call the API by writing
"[QA(question)]" where "question" is the
question you want to ask. Here are some
examples of API calls:
Input: Joe Biden was born in Scranton,
Pennsylvania.
Output: Joe Biden was born in [QA("Where
was Joe Biden born?")] Scranton,
[QA("In which state is Scranton?")]
Pennsylvania.
Input: Coca-Cola, or Coke, is a
carbonated soft drink manufactured by
the Coca-Cola Company.
Output: Coca-Cola, or [QA("What other
name is Coca-Cola known by?")] Coke, is
a carbonated soft drink manufactured by
[QA("Who manufactures Coca-Cola?")] the
Coca-Cola Company.

2.2 executing API calls

这一步内部怎么执行的,取决于API内部的模型自己。

2.3 filtering API calls

调用API calls产生result的过程中,也会有cross_entropy loss,相比于两种极端情况:不适用API calls和使用API calls但不会产生response,两种极端情况下的损失值的最小值,和前者比较,如果后者-前者>=阈值,则保留API calls.

在这里插入图片描述
在这里插入图片描述

2.4 Model finetuning

将API产生的序列合并作为一份新的dataset。然后用来微调LM。

3 实验结果

相关文章:

Toolformer: Language Models Can Teach Themselves to Use Tools

展示了LM可以通过简单的API教自己使用外部工具,并实现两个世界的最佳效果。我们介绍了Toolformer,这是一个经过训练的模型,可以决定调用哪些API,何时调用,传递哪些参数,以及如何将结果最好地纳入未来的标记…...

悲观锁与乐观锁

何谓悲观锁与乐观锁 乐观锁对应于生活中乐观的人总是想着事情往好的方向发展,悲观锁对应于生活中悲观的人总是想着事情往坏的方向发展。这两种人各有优缺点,不能不以场景而定说一种人好于另外一种人。 悲观锁 总是假设最坏的情况,每次去拿数据…...

LeetCode 25. K 个一组翻转链表

原题链接 难度:hard\color{red}{hard}hard 题目描述 给你链表的头节点 headheadhead , kkk 个节点一组进行翻转,请你返回修改后的链表。 kkk 是一个正整数,它的值小于或等于链表的长度。如果节点总数不是 kkk 的整数倍&#xf…...

朗润国际期货招商:历次科技风头下巨头的博弈

历次科技风头下巨头的博弈 VR/AR、区块链、折叠屏、元宇宙、AIGC五轮科技风头下巨头们都进场了吗? VR/AR硬件 谷歌:2014年入局,推出AR眼镜 百度:未入局 京东:未入局 腾讯:传要开发 亚马逊&#xff1…...

配置中心Config

引入依赖<parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.0.6.RELEASE</version></parent><properties><spring-cloud.version>Finchley.SR…...

【原创】java+jsp+servlet学生信息管理系统(jdbc+ajax+filter+cookie+分页)

一直想写一个比较基础的JavaWeb项目&#xff0c;然后综合各种技术&#xff0c;方便Java入门者进行学习。学生信息管理系统大家一般接触的比较多&#xff0c;那么就以这个为例来写一个基础项目吧。 需求分析&#xff1a; 使用jspservletmysql开发的学生信息管理系统&#xff0…...

链表题目总结 -- 回文链表

目录一. 从中心开始找最大的回文字符串1. 思路简述2. 代码3. 总结二. 判断是否为回文字符串1. 思路简述2. 代码3.总结三. 判断是否是回文链表1. 思路简述2. 代码3. 总结4. 优化解法一. 从中心开始找最大的回文字符串 题目链接&#xff1a;没有。给定一个字符串s&#xff0c;从…...

JAVA集合之List >> Arraylist/LinkedList/Vector结构

在Java开发过程中&#xff0c;可能经常会使用到List作为集合来使用&#xff0c;List是一个接口承于Collection的接口&#xff0c;表示着有序的列表。而我们要讨论的是它下面的实现类Arraylist/LinkedList/Vector的数据结构及区别。 ArrayList ArrayList&#xff1a;底层为数组…...

Linux多进程开发

一、进程概述 1、程序和进程 程序是包含一系列信息的文件&#xff0c;这些信息描述了如何在运行时创建一个进程&#xff1a; 二进制格式标识&#xff1a;每个程序文件都包含用于描述可执行文件格式的元信息。内核利用此信息来解释文件中的其他信息。&#xff08;ELF可执行连…...

三维重建小有基础入门之特征点检测基础

前言&#xff1a;本文将从此篇开始&#xff0c;记录自己从普通CVer入门三维重建的学习过程&#xff0c;可能过程比较坎坷&#xff0c;都在摸索阶段&#xff0c;但争取每次学习都能进一步&#xff0c;提高自己的能力&#xff0c;同时&#xff0c;每篇文章都会按情况相应地推出B站…...

基于node.js+vue+mysql考研辅导学习打卡交流网站系统vscode

语言 node.js 框架&#xff1a;Express 前端:Vue.js 数据库&#xff1a;mysql 数据库工具&#xff1a;Navicat 开发软件&#xff1a;VScode 主要功能包括管理员&#xff1a;首页、个人中心、用户管理、每日打卡管理、考研学校管理、考研专业管理、直通车管理、学习教材管理、…...

【C++、数据结构】封装unordered_map和unordered_set(用哈希桶实现)

文章目录&#x1f4d6; 前言1. 复用同一个哈希桶⚡1.1 &#x1f300;修改后结点的定义1.2 &#x1f300;两个容器各自模板参数类型&#xff1a;2. 改造之后的哈希桶⛳3. 哈希桶的迭代器&#x1f525;3.1 &#x1f4a5;哈希桶的begin&#xff08;&#xff09;和 end&#xff08;…...

StratoVirt 的 vCPU 拓扑(SMP)

CPU 拓扑用来表示 CPU 在硬件层面的组合方式&#xff0c;本文主要讲解 CPU 拓扑中的 SMP&#xff08;Symmetric Multi-Processor&#xff0c;对称多处理器系统&#xff09;架构&#xff0c;CPU 拓扑还包括其他信息&#xff0c;比如&#xff1a;cache 等&#xff0c;这些部分会在…...

现在直播大部分都是RTMP RTMP VS RTC

一 RTMP 抓了下抖音直播的包&#xff0c;windows端&#xff0c;走的TCP&#xff0c;加密了&#xff0c;估计还是RTMP。 我以为直播带货&#xff0c;都是RTC了。 快手直播也是TCP&#xff0c;地址用了IPV6。 淘宝直播也是。现在大部分直播都是RTMP。 只有视频会议走的RTC。…...

【Unity实战100例】Unity循环UI界面切换卡片功能

目录 ​编辑 一:制作UI界面 二:代码逻辑 1.定义基础变量...

Monorepo or 物料市场?结合工作实际情况对公司现有前端体系的思考

前言 去年年中基于若依vue前端框架进行了改造&#xff0c;加上后端的配合&#xff0c;我写了一套脚手架和项目中后台模板。中后台模板中包含了许多基础代码&#xff0c;比如登录/注册、路由、权限等等相关功能。这个中后台模板是基于我们实际开发定制的&#xff0c;所以跟通用…...

GEE学习笔记八十八:在自己的APP中使用绘制矢量(上)

在GEE中尤其是自己的APP中调用绘制的矢量图形方法之前没有合适的方法&#xff0c;但是现在可以通过ui.Map.DrawingTools(...)以及ui.Map.GeometryLayer(...)结合来做。具体的API如下图&#xff1a; 在这一篇中我先通过一个简单的例子来展示一下使用这些API后可以实现什么效果&a…...

“笨办法”学Python 3 ——练习 39. 字典,可爱的字典

练习39 源代码 # create a mapping of state to abbreviation #创建一个州与缩写的映射 states {Oregon:OR,Florida:FL,California: CA, New York: NY,Michigan:MI} #创建一个字典&#xff0c;key为州名&#xff0c;value为州缩写#Create a basic set of states and some cit…...

模糊的照片如何修复清晰?

相信有很多人用手机拍照时&#xff0c;觉得拍出来的照片一定是很漂亮的&#xff0c;结果拍了之后&#xff0c;拿出来一看模糊一片&#xff0c;根本看不清是什么。或者是只显示一半另一半模糊一片。而这些精彩瞬间很多时候是无法重拍的。虽然谁也不想拍出的照片出现模糊&#xf…...

如何理解​session、cookie、token的区别与联系?

session、cookie、token。 相信学过接口的朋友都特别熟悉了。 但是对我一个刚接触接口测试的小白来说&#xff0c;属实有点分不清楚。 下文就是我通过查阅各种资料总结出来的一点理解&#xff0c;不准确的地方还请各位指正。 &#xff08;文末送洗浴中心流程指南&#xff09…...

KKManager:Illusion游戏模组管理终极指南,一键安装更新所有插件和卡片

KKManager&#xff1a;Illusion游戏模组管理终极指南&#xff0c;一键安装更新所有插件和卡片 【免费下载链接】KKManager Mod, plugin and card manager for games by Illusion that use BepInEx 项目地址: https://gitcode.com/gh_mirrors/kk/KKManager KKManager是一…...

OpenClaw跨平台测试:Qwen3-VL:30B在Mac/Win/Linux飞书表现

OpenClaw跨平台测试&#xff1a;Qwen3-VL:30B在Mac/Win/Linux飞书表现 1. 测试背景与动机 去年12月接手团队自动化工具选型时&#xff0c;我们遇到了一个典型困境&#xff1a;团队成员分别使用macOS、Windows和Ubuntu系统&#xff0c;但现有AI助手工具要么绑定特定平台&#…...

14 年 Java 老码农,重启 CSDN:从 2012 到 2026,我的技术成长与重启之路

图&#xff1a;我的 CSDN 主页&#xff0c;2012 年 8 月 13 日注册&#xff0c;2014 年分享的第一篇 SSH 框架相关文章。 14 年过去&#xff0c;从青涩的 Java 工具类到现在的 DevOps 科研 AI&#xff0c;账号尘封多年&#xff0c;今天正式重启。 一、2012–2026&#xff1a;…...

网易云音乐无损音乐下载器:5分钟搞定你的私人音乐库终极方案

网易云音乐无损音乐下载器&#xff1a;5分钟搞定你的私人音乐库终极方案 【免费下载链接】NeteaseCloudMusicFlac 根据网易云音乐的歌单, 下载flac无损音乐到本地.。 项目地址: https://gitcode.com/gh_mirrors/nete/NeteaseCloudMusicFlac 还在为网易云音乐的无损音乐无…...

手把手教你用XTTS v2克隆自己的声音:从录音到生成的完整避坑指南

零基础玩转XTTS v2语音克隆&#xff1a;从录音到生成的保姆级实战手册 1. 语音克隆技术的前世今生 语音合成技术&#xff08;TTS&#xff09;的发展已经走过了数十年的历程。从早期的机械式发音到如今的神经网络语音合成&#xff0c;技术的进步让语音克隆变得越来越自然。XTTS …...

DeEAR语音情感识别入门必看:为何唤醒度比‘情绪极性’更能反映真实交互状态?

DeEAR语音情感识别入门必看&#xff1a;为何唤醒度比‘情绪极性’更能反映真实交互状态&#xff1f; 如果你用过一些语音助手&#xff0c;或者跟客服机器人打过交道&#xff0c;可能会发现一个有趣的现象&#xff1a;有时候系统能识别出你“生气”了&#xff0c;但它的回应方式…...

告别代码异味!在PyCharm 2024.1中配置pylint的保姆级教程(含常见错误排查)

告别代码异味&#xff01;在PyCharm 2024.1中配置pylint的保姆级教程&#xff08;含常见错误排查&#xff09; 当你接手一个遗留项目&#xff0c;看到满屏风格混乱的Python代码时&#xff0c;是否感到无从下手&#xff1f;或者团队协作时&#xff0c;因为成员编码习惯差异导致合…...

Phi-4-Reasoning-Vision多场景落地:法律合同截图关键条款识别与逻辑校验

Phi-4-Reasoning-Vision多场景落地&#xff1a;法律合同截图关键条款识别与逻辑校验 1. 项目背景与价值 在法律服务领域&#xff0c;合同审核是耗时且容易出错的关键环节。传统人工审核方式面临两大挑战&#xff1a; 效率瓶颈&#xff1a;律师平均需要30分钟审核一份10页合同…...

pdf2htmlEX色彩管理专家指南:高级色彩校准技术

pdf2htmlEX色彩管理专家指南&#xff1a;高级色彩校准技术 【免费下载链接】pdf2htmlEX Convert PDF to HTML without losing text or format. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf2htmlEX 想要将PDF转换为HTML时保持完美的色彩还原吗&#xff1f;pdf2html…...

RWKV7-1.5B-g1a效果对比:RWKV7-1.5B vs RWKV6-3B在中文摘要任务F1提升11%

RWKV7-1.5B-g1a效果对比&#xff1a;RWKV7-1.5B vs RWKV6-3B在中文摘要任务F1提升11% 1. 模型介绍 rwkv7-1.5B-g1a 是一个基于 RWKV-7 架构的多语言文本生成模型&#xff0c;特别适合处理基础问答、文案续写、简短总结和轻量中文对话任务。相比前代RWKV6-3B模型&#xff0c;它…...