Prompt2Model: Generating Deployable Models from Natural Language Instructions
本文是LLM系列文章,针对《 Prompt2Model: Generating Deployable Models from Natural Language Instructions》的翻译。
Prompt2Model:从自然语言指令生成可部署模型
- 摘要
- 1 引言
- 2 Prompt2Model框架
- 3 参考实现
- 4 实验设置
- 5 实验结果
- 6 讨论与结论
- 不足
- 道德声明
摘要
大型语言模型(LLM)使今天的系统构建者能够通过提示创建有能力的NLP系统,他们只需要用自然语言描述任务并提供几个例子。然而,在其他方面,LLM是传统的专用NLP模型的倒退;它们需要大量的计算资源来进行部署,并且可以在API后面进行门控。在本文中,我们提出了Prompt2Model,这是一种通用方法,它采用自然语言任务描述,如提供给LLM的提示,并使用它来训练有利于部署的专用模型。这是通过检索现有数据集和预训练模型、使用LLM生成数据集以及对这些检索和生成的数据集进行监督微调的多步骤过程来完成的。在三项任务中,我们证明,在输入相同的少量提示的情况下,Prompt2Model训练的模型比强LLM gpt-3.5-turbo的结果平均好20%,同时小700倍。我们还表明,这些数据可以用于获得模型性能的可靠性能估计,使模型开发人员能够在部署前评估模型可靠性。Prompt2Model开源地址https://github.com/neulab/prompt2model
1 引言
2 Prompt2Model框架
3 参考实现
4 实验设置
5 实验结果
6 讨论与结论
我们提出了Prompt2Model,这是一个仅使用自然语言提示自动构建任务特定模型的框架。我们的概念验证实验表明,尽管Prompt2Model使用了与LLM类似的易于使用的界面,但它提供了小而准确的模型,其生成的数据集可用于评估真实世界的性能。除了我们的参考实现提供了一个现成的工具外,Prompt2Model的可扩展设计和模块化实现使其成为推进模型提取、数据集生成、综合评估、数据集检索和模型检索的平台。
我们相信我们的Prompt2Model框架可以启发各种新颖的研究问题。我们希望我们的平台能够在未来更深入地研究生成数据和模型的质量保证。有趣的问题包括我们应该为下游模型训练生成多少数据,以及它应该有多多样化?我们如何有效地混合检索到的和生成的数据集,以实现互补优势(例如,使用数据集生成来关注检索到的数据集无法覆盖的模型的预期输入)?由于用户通常很难提前阐明他们的需求,未来的扩展还应该解决人工在环纠正的挑战——要么提供潜在的策略来帮助用户迭代地完善提示,要么允许用户在任务元数据提取和生成的数据与他们的意图不一致时执行事后修复。我们希望提出明确的挑战,并邀请社区在我们的框架中为各种组件的新实现做出贡献。
不足
我们系统的主要限制之一是,我们目前的实验都是使用gpt-3.5-turbo API(用于提示解析、数据集生成和模型检索)进行的。这种LLM是付费的、封闭的来源,这使得它作为一种科学人工制品存在问题。此外,该LLM的服务提供商OpenAI禁止使用其API创建可能与OpenAI竞争的模型,从而在商业应用中使用Prompt2Model产生潜在的法律问题。我们正在探索开源LLM的集成,以避免对专有API的依赖。
我们工作的另一个限制是Prompt2Model支持需要处理英语以外语言的任务的能力有限。虽然我们已经展示了我们的系统在支持从日语自然语言查询生成代码方面的局限性,但我们的系统可能会在较低资源语言方面遇到更多困难。在我们的参考实现中,我们使用未发表的gpt-3.5-turbo模型作为数据集生成器。该模型被认为与GPT-3相似,GPT-3在93%的英语文档、1%的德语文档、1%法语文档和<5%的其他语言文档上进行了训练。我们使用这个模型可能会加剧高资源语言和低资源语言之间现有的语言技术差异。
一个潜在的限制是,我们只在3个任务上测试了我们的方法,每个任务都有一个数据集和一个评估指标。我们证明这一决定是合理的,因为我们的重点是提供一个可扩展的软件系统,而不是在许多数据集上建立最先进的结果,但我们相信我们的结果表明了更广泛的适用性。
道德声明
任何能让公众更容易获得强大技术的系统都具有伦理意义。Widder等人讨论了与深度伪造软件库相关的开源软件包的道德问题,包括使恶意行为者能够使用他们不具备利用技术技能的技术的可能性。对于诸如Prompt2Model之类的AutoML系统来说,这也是一个风险;然而,我们认为,更大的可访问性所带来的好处超过了这种风险,特别是考虑到生成有害数据的低门槛已经以提示的web界面模型的形式存在。
虽然Prompt2Model在输入有害信息的情况下可能会生成有毒、攻击性或不准确的合成数据,但与底层提示模型相比,Prompt2Mode的风险并不更大;事实上,使用从Hugging Face检索到的模型和补充数据集可能会降低下游模型复制提示模型输出的危害的可能性,尽管还需要更多的调查。与所有ML模型一样,Prompt2Model返回的模型可能会出错,我们的目标是在文档中对系统的潜在限制保持透明。
我们希望Prompt2Model将广泛有用。我们的工作动机是希望增加非NLP社区但将从社区创新中受益的人对NLP模型的可访问性;特别是那些将在下游使用NLP模型但可能不具备设计自己的系统的领域特定知识的人。Prompt2Model也可能被证明对早期NLP研究人员有用,因为它为各种任务的基线提供了直观的起点,并能够发现所描述的任务和现有工作之间的相似性。我们开源Prompt2Model,欢迎社区贡献。
相关文章:
Prompt2Model: Generating Deployable Models from Natural Language Instructions
本文是LLM系列文章,针对《 Prompt2Model: Generating Deployable Models from Natural Language Instructions》的翻译。 Prompt2Model:从自然语言指令生成可部署模型 摘要1 引言2 Prompt2Model框架3 参考实现4 实验设置5 实验结果6 讨论与结论不足道德…...
前端埋点 sendBeacon 替代方式
看英文文档真的很重要 sendBeacon 限制比较多, 容易跨域, 跨域时候还必须指定请求头, 不能使用通配符来解决跨域 文档地址 文档里面说 fetch 其实可以代替 sendBeacon 原文: Note: For use cases that need the ability to send requests with methods other than POST, or …...
面试官问我MySQL和MariaDB的联系和区别,这我能不知道?
🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师…...
1.网络空间搜素引擎
网络空间搜素引擎 https://cybermap.kaspersky.com/cn 世界所以带有ip的网络设备互联组成的空间叫做网络空间 地址 :shodan.io 简介 : 这句话还是有点东西得 。 区别: 平常得搜素引擎主要搜网页,shadan可以搜所以带有ip地址…...
《安富莱嵌入式周报》第321期:开源12导联便携心电仪,PCB AI设计,150M示波器差分探头,谷歌全栈环境IDX,微软在Excel推出Python
周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版: https://www.bilibili.com/video/BV1ju4y1D7A8/ 《安富莱嵌入式周报》第321期:开源12导…...
前端开发必备的网站
前端开发必备的网站及官网 说明: 这里记录了我本人平时开发所用到的网站,对我还是有帮助的,后续会接着补充进来,一方面是为了记录,另一方面也可以帮助到大家… 网站名称及描述网址Elememt-ui (组件库)Elememt-ui&…...
Java运行时jar时终端输出的中文日志是乱码
运行Jar时在控制台输出的中文日志全是乱码,这是因为cmd/bash默认的编码是GBK,只要把cmd的编码改成UTF-8即可 两种方式修改:临时修改和注册表永久修改 临时修改 只对当前的cmd页面有效,关闭后重新打开都会恢复成GBK, 打开cmd&am…...
Vue框架--Vue中el和data的两种写法
data与el的2种写法 1.el有2种写法 (1).new Vue时候配置el属性。 (2).先创建Vue实例,随后再通过vm.$mount(#root)指定el的值。 2.data有2种写法 (1).对象式 (2).函数式 如何选择:目前哪种写法都可以,以后学习到组件时ÿ…...
【数据结构】 二叉树面试题讲解->贰
文章目录 🌏引言🎄[二叉树遍历](https://www.nowcoder.com/practice/4b91205483694f449f94c179883c1fef?tpId60&&tqId29483&rp1&ru/activity/oj&qru/ta/tsing-kaoyan/question-ranking)🐱👤题目描述&#…...
C和SystemVerilog联合仿真
想要联合仿真一个c程序和verilog表示的硬件,可以用如下方法(DPI): 先写一个.c文件funcs.c #include <stdio.h> #include "svdpi.h"extern int sayHello();void something() {printf("something\n");s…...
15-mongodb
一、 MongoDB 简介 1 什么是 MongoDB MongoDB 是一个基于分布式文件存储的数据库。由 C语言编写。在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系…...
CSS学习笔记02
CSS笔记02 美化网页元素 为什么要美化网页 目的: 有效的传递页面信息美化网页、页面漂亮、才能吸引用户突显页面的主题提高用户的体验 span标签 span标签是短语内容的通用行内容器,它本身并没有任何特殊语义。 通常我们使用span标签来把我们想要重…...
为什么Java接口可以多继承,而类不可以?
个人主页:金鳞踏雨 个人简介:大家好,我是金鳞,一个初出茅庐的Java小白 目前状况:22届普通本科毕业生,几经波折了,现在任职于一家国内大型知名日化公司,从事Java开发工作 我的博客&am…...
自动化信息收集工具 水泽 使用教程
自动化信息收集工具 水泽 使用教程 1.水泽简介&安装2.使用教程3.测试使用1.水泽简介&安装 一条龙服务,只需要输入根域名即可全方位收集相关资产,并检测漏洞。也可以输入多个域名、C段IP等 开发语言:Python3 水泽下载地址 安装前置准备: 当前用户对该目录有写权…...
2023年全国职业院校技能大赛(高等职业教育组)“信息安全管理与评估”理论技能答案
理论技能与职业素养(100分) 2023年全国职业院校技能大赛(高等职业教育组) “信息安全管理与评估”理论技能 【注意事项】 1.理论测试前请仔细阅读测试系统使用说明文档,按提供的账号和密码登录测试系统进行测试&am…...
MATLAB 动态图GIF
MATLAB 动态图GIF 前言一、创建动态图(动态曲线、动态曲面)1. 创建动画曲线(MATLAB animatedline函数)2. 创建动画曲面 二. 保存动态图三、完整示例1. 动态曲线( y s i n ( x ) ysin(x) ysin(x))2. 动态曲…...
ChatGPT⼊门到精通(4):ChatGPT 为何⽜逼
⼀、通⽤型AI 在我们原始的幻想⾥,AI是基于对海量数据的学习,锻炼出⼀个⽆所不知⽆所不能的模 型,并借助计算机的优势(计算速度、并发可能)等碾压⼈类。 但我们⽬前的AI,不管是AlphaGo还是图像识别算法&am…...
数据分析基础-数据可视化学习笔记03-可视化的符号与表示-图形符号学
概念 图型符号学(Cartographic Symbolization)是地图学领域中的一个重要概念,涉及到如何使用不同的符号、颜色、图案和标记来在地图上表示地理信息和数据。图型符号学旨在传达地理信息,使得地图能够清晰、有效地传达各种空间数据…...
暴力递归转动态规划(四)
题目 规定1对应A、2对应B、3对应C…26对应Z,那么一个数字字符串比如"111",就可以转化为:“AAA”、“KA"或"AK”,给定一个数字字符组成的字符串str,返回有多少种转化结果。 解释一下,字…...
大数据项目实战(Sqoop安装)
一,搭建大数据集群环境 1.4 Sqoop安装 1.sqoop安装 (1)上传安装包 (2)解压安装包 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /export/servers (3)重命名 mv sqoop-1.4.6.b…...
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
边缘计算医疗风险自查APP开发方案
核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...
HTML 列表、表格、表单
1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…...
cf2117E
原题链接:https://codeforces.com/contest/2117/problem/E 题目背景: 给定两个数组a,b,可以执行多次以下操作:选择 i (1 < i < n - 1),并设置 或,也可以在执行上述操作前执行一次删除任意 和 。求…...
第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...
PHP 8.5 即将发布:管道操作符、强力调试
前不久,PHP宣布了即将在 2025 年 11 月 20 日 正式发布的 PHP 8.5!作为 PHP 语言的又一次重要迭代,PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是,借助强大的本地开发环境 ServBay&am…...
[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG
TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码:HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...
32单片机——基本定时器
STM32F103有众多的定时器,其中包括2个基本定时器(TIM6和TIM7)、4个通用定时器(TIM2~TIM5)、2个高级控制定时器(TIM1和TIM8),这些定时器彼此完全独立,不共享任何资源 1、定…...
