当前位置: 首页 > news >正文

2023年发布的25个开源大型语言模型总结

大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。

今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。

使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。

本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助

SAIL 7B

基于LLaMa的搜索增强

参数: 7B

许可类型: GPL-3.0

发布日期: 2023年5月

论文: SAIL — Search Augmented Instruction Learning

Guanaco

采用高效微调方法QLoRA发布的LLM模型

参数: 65B

许可类型: MIT

发布日期: 2023年5月

论文: QLoRA — Efficient Finetuning of Quantized LLMs

RMKV

与transformer的LLM性能相当的RNN模型

参数: 100M–14B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Scaling RNN to 1.5B and Reach Transformer LM Performance

MPT-7B

MosaicML的基础系列模型

参数: 7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

OpenLLaMa

在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。

参数:3,7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

RedPajama-INCITE

基于RedPajama数据集上训练的指令调整和聊天Pythia模型。

参数:3B, 7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: RedPajama-INCITE family of models including base, instruction-tuned & chat models

h2oGPT

H2O的微调框架和文档问答功能的聊天机器人UI

参数:12B,30B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Building the World’s Best Open-Source Large Language Model: H2O.ai’s Journey

FastChat-T5

通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人

参数:3B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: FastChat-T5 — our compact and commercial-friendly chatbot!

GPT4All

用于训练和部署强大的定制llm的完整工具系统

参数:7–13B

许可类型:MIT

发布日期: 2023年4月

论文: GPT4All: An ecosystem of open-source on-edge large language models.

MiniGPT-4

基于BLIP-2和Vicuna LLM的Visual LLM模型

参数:13B

许可类型:BSD-3-Clause

发布日期: 2023年4月

论文: MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models

StableLM

StableLM的LLM模型系列

参数:7B

许可类型:CC BY-NC-SA-4.0

发布日期: 2023年4月

论文: Stability AI Launches the First of its StableLM Suite of Language Models

BloomZ

通过多任务微调实现跨语言泛化

参数:176B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Cross-lingual Generalization through Multitask Finetuning

Dolly

Pythia 12B LLM在Databricks ML平台上训练的模型

参数:12B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

Baize Chatbot

基于LLaMa的开源聊天模型

参数:30B

许可类型:GPL-3.0 license

发布日期: 2023年4月

论文: Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

ColossalChat

由ColossalAI开源发布的一个完整的RLHF流程训练的模型

参数:N/A

许可类型:Apache 2.0

发布日期: 2023年4月

论文: ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

Lit LLaMa

来自Lightning AI的LLaMA的开源实现

参数:13B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Why We’re Building Lit-LLaMA

Cerebras-GPT

开放的,计算效率高的,大型语言模型

参数:111M-13B

许可类型:Apache 2.0

发布日期:2023年3月

论文: Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster

Open Flamingo

Deepmind的Flamingo模型的开源实现

参数:9B

许可类型:MIT License

发布日期: 2023年3月

论文: Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

Chat GLM

使用开放式双语(中英文)双向密集预训练模型

参数:6B-130B

许可类型:Apache 2.0

发布日期: 2023年3月

论文: GLM-130B: An Open Bilingual Pre-trained Model

DLite

通过微调Alpaca数据集上最小的GPT-2模型

参数:124M

许可类型:Apache 2.0

发布日期: 2023年3月

论文: Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

Alpaca 7B

描述:斯坦福大学发布的指令遵循LLaMA模型

参数:7B

许可类型:Apache 2.0

发布日期: 2023年3月

论文: Alpaca — A Strong, Replicable Instruction-Following Model

Flan UL2

在预训练的UL2检查点上训练Flan 20B模型。

参数:20B

许可类型:MIT License

发布日期: 2023年3月

论文: A New Open Source Flan 20B with UL2

Flan-T5

T5在各种数据集上的指令微调,提高预训练语言模型的可用性

参数:60M–11B

许可类型:Apache 2.0

发布日期: 2023年2月

论文: Scaling Instruction-Finetuned Language Models

总结

最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的 FreeWilly2,它是在 Llama2 70B 上微调的结果,目前在open_llm_leaderboard上排第一。

开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。

https://avoid.overfit.cn/post/5c7d723571254111815fc08eb05f79c1

作者:Manikanth

相关文章:

2023年发布的25个开源大型语言模型总结

大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。 今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味…...

Istio网关Gateway 启用TLS

Istio网关Gateway概述 Istio网关Gateway是一个负责处理南北向流量的组件,它通常会暴露服务网格内部的服务,以便外部的请求能够访问到服务网格中的服务。Istio网关Gateway支持多种协议,包括HTTP、HTTPS和GRPC等。 在Istio网关Gateway中&#…...

slam建图与定位_cartographer代码阅读(7)后端约束构建

1.cartographer里的节点:当扫描匹配结束后,有新的一帧scan加入到submap中,这个扫描匹配的结果就叫做节点 global_trajectory_builder.cc // 将匹配后的结果 当做节点 加入到位姿图中auto node_id pose_graph_->AddNode(matching_result->insertio…...

Android usb 配件模式通信示例

当使用 Android 设备作为 USB 配件时,可以使用 Android 提供的 USB Accessory API 来进行 USB 通信。以下是一个简单的 Android USB 配件模式的通信例子。在本例中,我们将接收连接到 Android 设备的 USB 主机发送的数据并向 USB 主机发送响应。 首先&am…...

【Hive实战】Hive的压缩池与锁

文章目录 Hive的压缩池池的分配策略自动分配手动分配隐式分配 池的等待超时Labeled worker pools 标记的工作线程(自定义线程池)Default pool 默认池Worker allocation 工作线程的分配 锁Turn Off ConcurrencyDebuggingConfigurationhive.support.concur…...

【VUE】使用elementUI tree组件根据所选id自动回显

需求如下&#xff1a; 1.点击父级节点 将父级节点下children中所有id放入数组 2.点击父级下的子节点 将点击的子节点放入数组 3.取消选择父节点&#xff0c;将放入数组的所有子节点id删除 4.根据选择的子节点数组&#xff0c;匹配他所属的父节点 <el-tree:data"tre…...

RocketMQ, Dashboard, 控制台安装

文章说明 本文主要说明RocketMQ的控制台&#xff08;Dashboard&#xff09;的安装过程。工作中一直用的是别人装好的&#xff0c;这次终于自己亲手装了一遍。 由于每次都要启动三个应用&#xff0c;比较烦&#xff0c;于是我写了一键启动脚本&#xff0c;分享给大家。这个脚本…...

chrome解决http自动跳转https问题

1.地址栏输入&#xff1a; chrome://net-internals/#hsts 2.找到底部Delete domain security policies一栏&#xff0c;输入想处理的域名&#xff0c;点击delete。 3.再次访问http域名不再自动跳转https了。...

FastGithub 下载

Releases dotnetcore/FastGithub GitHub 无需安装&#xff0c;双击UI程序即可运行。...

TSINGSEE青犀视频安防监控管理平台EasyNVR如何配置鉴权?

视频监控汇聚平台EasyNVR是基于RTSP/Onvif协议的视频平台&#xff0c;可支持将接入的视频流进行全平台、全终端的分发&#xff0c;分发的视频流包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式。为了满足用户的集成与二次开发需求&#xff0c;我们也提供了丰富的API接口供…...

unittest 数据驱动DDT应用

前言 一般进行接口测试时&#xff0c;每个接口的传参都不止一种情况&#xff0c;一般会考虑正向、逆向等多种组合。所以在测试一个接口时通常会编写多条case&#xff0c;而这些case除了传参不同外&#xff0c;其实并没什么区别。 这个时候就可以利用ddt来管理测试数据&#xf…...

素数个数——数论

题目描述 求 1,2,⋯,N 中素数的个数。 输入格式 一行一个整数 N。 输出格式 一行一个整数&#xff0c;表示素数的个数。 样例 #1 样例输入 #1 10样例输出 #1 4提示 对于 100% 的数据&#xff0c;1≤1081≤N≤108。 本题时间限制在2秒以内。 因为题目时间限制是2秒&#xff0c;所…...

express编写一个简单的get接口

/01编写get接口.jsconst express require(express) const app express()// 创建路由 const useRouter require(./router/user.js) // 注册路由 app.use(/api,useRouter)app.listen(8080, (req, res) > {console.log(8080监听) }) ./02编写post接口 // 注意&#xff1a;如…...

【力扣刷题C++】环形链表

来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;https://leetcode.cn/problems/linked-list-cycle 著作权归领扣网络所有。商业转载请联系官方授权&#xff0c;非商业转载请注明出处。 【题目】给你一个链表的头节点 head &#xff0c;判断链表中是否有…...

如何用Python统计CSDN质量分

文章目录 CSDN质量分查询selenium爬取博客地址单篇测试批量查询分析 CSDN质量分查询 CSDN对博客有一套分数评价标准&#xff0c;其查询入口在这里&#xff1a;质量分查询&#xff0c;效果大致如下 如果质量分太低&#xff0c;就会在博文的标题下面出现黄底黄字&#xff1a; 这…...

gin框架内容(三)--中间件

gin框架内容&#xff08;三&#xff09;--中间件 Gin框架允许开发者在处理请求的过程中&#xff0c;加入用户自己的函数。这个函数就叫中间件&#xff0c;中间件适合处理一些公共的业务逻辑&#xff0c;比如登录认证、权限校验、数据分页、记录日志、耗时统计等 即比如&#x…...

如何在工作中利用Prompt高效使用ChatGPT

导读 AI 不是来替代你的&#xff0c;是来帮助你更好工作。用better prompt使用chatgpt&#xff0c;替换搜索引擎&#xff0c;让你了解如何在工作中利用Prompt高效使用ChatGPT。 01背景 现在 GPT 已经开启了人工智能狂潮&#xff0c;不过是IT圈&#xff0c;还是金融圈。 一开…...

uniapp-小程序button分享传参,当好友通过分享点开该页面时,进行一些判断……

一、需求描述&#xff1a; 该小程序中&#xff0c;点击圈子列表页面—>进入圈子详情页面&#xff0c;在圈子详情页面点击button分享按钮后&#xff0c;发送给好友。当好友通过分享点开该页面时&#xff1a; 1.先判断是否登录&#xff0c;如果没有&#xff0c;先去登录&#…...

Ceph部署方法介绍

Ceph部署方法介绍 Installing Ceph — Ceph Documentation Ceph环境规划 admin是一个部署节点...

GoogleLeNet V2 V3 —— Batch Normalization

文章目录 Batch Normalizationinternal covariate shift激活层的作用BN执行的位置数据白化网络中的BN层训练过程 BN的实验效果MNIST与GoogleLeNet V1比较 GoogleLeNet出来之后&#xff0c;Google在这个基础上又演进了几个版本&#xff0c;一般来说是说有4个版本&#xff0c;之前…...

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

测试markdown--肇兴

day1&#xff1a; 1、去程&#xff1a;7:04 --11:32高铁 高铁右转上售票大厅2楼&#xff0c;穿过候车厅下一楼&#xff0c;上大巴车 &#xffe5;10/人 **2、到达&#xff1a;**12点多到达寨子&#xff0c;买门票&#xff0c;美团/抖音&#xff1a;&#xffe5;78人 3、中饭&a…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言&#xff1a; 在人工智能快速发展的浪潮中&#xff0c;快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型&#xff08;LLM&#xff09;。该模型代表着该领域的重大突破&#xff0c;通过独特方式融合思考与非思考…...

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成&#xff0c;核心是利用 HTTP 协议的 Range 请求头指定下载范围&#xff1a; 实现原理 Range 请求头&#xff1a;向服务器请求文件的特定字节范围&#xff08;如 Range: bytes1024-&#xff09; 本地文件记录&#xff1a;保存已…...

华硕a豆14 Air香氛版,美学与科技的馨香融合

在快节奏的现代生活中&#xff0c;我们渴望一个能激发创想、愉悦感官的工作与生活伙伴&#xff0c;它不仅是冰冷的科技工具&#xff0c;更能触动我们内心深处的细腻情感。正是在这样的期许下&#xff0c;华硕a豆14 Air香氛版翩然而至&#xff0c;它以一种前所未有的方式&#x…...

C++使用 new 来创建动态数组

问题&#xff1a; 不能使用变量定义数组大小 原因&#xff1a; 这是因为数组在内存中是连续存储的&#xff0c;编译器需要在编译阶段就确定数组的大小&#xff0c;以便正确地分配内存空间。如果允许使用变量来定义数组的大小&#xff0c;那么编译器就无法在编译时确定数组的大…...

使用LangGraph和LangSmith构建多智能体人工智能系统

现在&#xff0c;通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战&#xff0c;比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...

从零开始了解数据采集(二十八)——制造业数字孪生

近年来&#xff0c;我国的工业领域正经历一场前所未有的数字化变革&#xff0c;从“双碳目标”到工业互联网平台的推广&#xff0c;国家政策和市场需求共同推动了制造业的升级。在这场变革中&#xff0c;数字孪生技术成为备受关注的关键工具&#xff0c;它不仅让企业“看见”设…...

数据库正常,但后端收不到数据原因及解决

从代码和日志来看&#xff0c;后端SQL查询确实返回了数据&#xff0c;但最终user对象却为null。这表明查询结果没有正确映射到User对象上。 在前后端分离&#xff0c;并且ai辅助开发的时候&#xff0c;很容易出现前后端变量名不一致情况&#xff0c;还不报错&#xff0c;只是单…...

负载均衡器》》LVS、Nginx、HAproxy 区别

虚拟主机 先4&#xff0c;后7...