2023年发布的25个开源大型语言模型总结
大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。
今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。
使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。

本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助
SAIL 7B
基于LLaMa的搜索增强
参数: 7B
许可类型: GPL-3.0
发布日期: 2023年5月
论文: SAIL — Search Augmented Instruction Learning
Guanaco
采用高效微调方法QLoRA发布的LLM模型
参数: 65B
许可类型: MIT
发布日期: 2023年5月
论文: QLoRA — Efficient Finetuning of Quantized LLMs
RMKV
与transformer的LLM性能相当的RNN模型
参数: 100M–14B
许可类型:Apache 2.0
发布日期: 2023年5月
论文: Scaling RNN to 1.5B and Reach Transformer LM Performance
MPT-7B
MosaicML的基础系列模型
参数: 7B
许可类型:Apache 2.0
发布日期: 2023年5月
论文: MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs
OpenLLaMa
在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。
参数:3,7B
许可类型:Apache 2.0
发布日期: 2023年5月
论文: Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model
RedPajama-INCITE
基于RedPajama数据集上训练的指令调整和聊天Pythia模型。
参数:3B, 7B
许可类型:Apache 2.0
发布日期: 2023年5月
论文: RedPajama-INCITE family of models including base, instruction-tuned & chat models
h2oGPT
H2O的微调框架和文档问答功能的聊天机器人UI
参数:12B,30B
许可类型:Apache 2.0
发布日期: 2023年5月
论文: Building the World’s Best Open-Source Large Language Model: H2O.ai’s Journey
FastChat-T5
通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人
参数:3B
许可类型:Apache 2.0
发布日期: 2023年4月
论文: FastChat-T5 — our compact and commercial-friendly chatbot!
GPT4All
用于训练和部署强大的定制llm的完整工具系统
参数:7–13B
许可类型:MIT
发布日期: 2023年4月
论文: GPT4All: An ecosystem of open-source on-edge large language models.
MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
参数:13B
许可类型:BSD-3-Clause
发布日期: 2023年4月
论文: MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models
StableLM
StableLM的LLM模型系列
参数:7B
许可类型:CC BY-NC-SA-4.0
发布日期: 2023年4月
论文: Stability AI Launches the First of its StableLM Suite of Language Models
BloomZ
通过多任务微调实现跨语言泛化
参数:176B
许可类型:Apache 2.0
发布日期: 2023年4月
论文: Cross-lingual Generalization through Multitask Finetuning
Dolly
Pythia 12B LLM在Databricks ML平台上训练的模型
参数:12B
许可类型:Apache 2.0
发布日期: 2023年4月
论文: Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM
Baize Chatbot
基于LLaMa的开源聊天模型
参数:30B
许可类型:GPL-3.0 license
发布日期: 2023年4月
论文: Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data
ColossalChat
由ColossalAI开源发布的一个完整的RLHF流程训练的模型
参数:N/A
许可类型:Apache 2.0
发布日期: 2023年4月
论文: ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline
Lit LLaMa
来自Lightning AI的LLaMA的开源实现
参数:13B
许可类型:Apache 2.0
发布日期: 2023年4月
论文: Why We’re Building Lit-LLaMA
Cerebras-GPT
开放的,计算效率高的,大型语言模型
参数:111M-13B
许可类型:Apache 2.0
发布日期:2023年3月
论文: Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster
Open Flamingo
Deepmind的Flamingo模型的开源实现
参数:9B
许可类型:MIT License
发布日期: 2023年3月
论文: Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning
Chat GLM
使用开放式双语(中英文)双向密集预训练模型
参数:6B-130B
许可类型:Apache 2.0
发布日期: 2023年3月
论文: GLM-130B: An Open Bilingual Pre-trained Model
DLite
通过微调Alpaca数据集上最小的GPT-2模型
参数:124M
许可类型:Apache 2.0
发布日期: 2023年3月
论文: Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly
Alpaca 7B
描述:斯坦福大学发布的指令遵循LLaMA模型
参数:7B
许可类型:Apache 2.0
发布日期: 2023年3月
论文: Alpaca — A Strong, Replicable Instruction-Following Model
Flan UL2
在预训练的UL2检查点上训练Flan 20B模型。
参数:20B
许可类型:MIT License
发布日期: 2023年3月
论文: A New Open Source Flan 20B with UL2
Flan-T5
T5在各种数据集上的指令微调,提高预训练语言模型的可用性
参数:60M–11B
许可类型:Apache 2.0
发布日期: 2023年2月
论文: Scaling Instruction-Finetuned Language Models
总结
最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的 FreeWilly2,它是在 Llama2 70B 上微调的结果,目前在open_llm_leaderboard上排第一。
开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。
https://avoid.overfit.cn/post/5c7d723571254111815fc08eb05f79c1
作者:Manikanth
相关文章:
2023年发布的25个开源大型语言模型总结
大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。 今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味…...
Istio网关Gateway 启用TLS
Istio网关Gateway概述 Istio网关Gateway是一个负责处理南北向流量的组件,它通常会暴露服务网格内部的服务,以便外部的请求能够访问到服务网格中的服务。Istio网关Gateway支持多种协议,包括HTTP、HTTPS和GRPC等。 在Istio网关Gateway中&#…...
slam建图与定位_cartographer代码阅读(7)后端约束构建
1.cartographer里的节点:当扫描匹配结束后,有新的一帧scan加入到submap中,这个扫描匹配的结果就叫做节点 global_trajectory_builder.cc // 将匹配后的结果 当做节点 加入到位姿图中auto node_id pose_graph_->AddNode(matching_result->insertio…...
Android usb 配件模式通信示例
当使用 Android 设备作为 USB 配件时,可以使用 Android 提供的 USB Accessory API 来进行 USB 通信。以下是一个简单的 Android USB 配件模式的通信例子。在本例中,我们将接收连接到 Android 设备的 USB 主机发送的数据并向 USB 主机发送响应。 首先&am…...
【Hive实战】Hive的压缩池与锁
文章目录 Hive的压缩池池的分配策略自动分配手动分配隐式分配 池的等待超时Labeled worker pools 标记的工作线程(自定义线程池)Default pool 默认池Worker allocation 工作线程的分配 锁Turn Off ConcurrencyDebuggingConfigurationhive.support.concur…...
【VUE】使用elementUI tree组件根据所选id自动回显
需求如下: 1.点击父级节点 将父级节点下children中所有id放入数组 2.点击父级下的子节点 将点击的子节点放入数组 3.取消选择父节点,将放入数组的所有子节点id删除 4.根据选择的子节点数组,匹配他所属的父节点 <el-tree:data"tre…...
RocketMQ, Dashboard, 控制台安装
文章说明 本文主要说明RocketMQ的控制台(Dashboard)的安装过程。工作中一直用的是别人装好的,这次终于自己亲手装了一遍。 由于每次都要启动三个应用,比较烦,于是我写了一键启动脚本,分享给大家。这个脚本…...
chrome解决http自动跳转https问题
1.地址栏输入: chrome://net-internals/#hsts 2.找到底部Delete domain security policies一栏,输入想处理的域名,点击delete。 3.再次访问http域名不再自动跳转https了。...
FastGithub 下载
Releases dotnetcore/FastGithub GitHub 无需安装,双击UI程序即可运行。...
TSINGSEE青犀视频安防监控管理平台EasyNVR如何配置鉴权?
视频监控汇聚平台EasyNVR是基于RTSP/Onvif协议的视频平台,可支持将接入的视频流进行全平台、全终端的分发,分发的视频流包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式。为了满足用户的集成与二次开发需求,我们也提供了丰富的API接口供…...
unittest 数据驱动DDT应用
前言 一般进行接口测试时,每个接口的传参都不止一种情况,一般会考虑正向、逆向等多种组合。所以在测试一个接口时通常会编写多条case,而这些case除了传参不同外,其实并没什么区别。 这个时候就可以利用ddt来管理测试数据…...
素数个数——数论
题目描述 求 1,2,⋯,N 中素数的个数。 输入格式 一行一个整数 N。 输出格式 一行一个整数,表示素数的个数。 样例 #1 样例输入 #1 10样例输出 #1 4提示 对于 100% 的数据,1≤1081≤N≤108。 本题时间限制在2秒以内。 因为题目时间限制是2秒,所…...
express编写一个简单的get接口
/01编写get接口.jsconst express require(express) const app express()// 创建路由 const useRouter require(./router/user.js) // 注册路由 app.use(/api,useRouter)app.listen(8080, (req, res) > {console.log(8080监听) }) ./02编写post接口 // 注意:如…...
【力扣刷题C++】环形链表
来源:力扣(LeetCode) 链接:https://leetcode.cn/problems/linked-list-cycle 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 【题目】给你一个链表的头节点 head ,判断链表中是否有…...
如何用Python统计CSDN质量分
文章目录 CSDN质量分查询selenium爬取博客地址单篇测试批量查询分析 CSDN质量分查询 CSDN对博客有一套分数评价标准,其查询入口在这里:质量分查询,效果大致如下 如果质量分太低,就会在博文的标题下面出现黄底黄字: 这…...
gin框架内容(三)--中间件
gin框架内容(三)--中间件 Gin框架允许开发者在处理请求的过程中,加入用户自己的函数。这个函数就叫中间件,中间件适合处理一些公共的业务逻辑,比如登录认证、权限校验、数据分页、记录日志、耗时统计等 即比如&#x…...
如何在工作中利用Prompt高效使用ChatGPT
导读 AI 不是来替代你的,是来帮助你更好工作。用better prompt使用chatgpt,替换搜索引擎,让你了解如何在工作中利用Prompt高效使用ChatGPT。 01背景 现在 GPT 已经开启了人工智能狂潮,不过是IT圈,还是金融圈。 一开…...
uniapp-小程序button分享传参,当好友通过分享点开该页面时,进行一些判断……
一、需求描述: 该小程序中,点击圈子列表页面—>进入圈子详情页面,在圈子详情页面点击button分享按钮后,发送给好友。当好友通过分享点开该页面时: 1.先判断是否登录,如果没有,先去登录&#…...
Ceph部署方法介绍
Ceph部署方法介绍 Installing Ceph — Ceph Documentation Ceph环境规划 admin是一个部署节点...
GoogleLeNet V2 V3 —— Batch Normalization
文章目录 Batch Normalizationinternal covariate shift激活层的作用BN执行的位置数据白化网络中的BN层训练过程 BN的实验效果MNIST与GoogleLeNet V1比较 GoogleLeNet出来之后,Google在这个基础上又演进了几个版本,一般来说是说有4个版本,之前…...
QueryExcel:解放双手的Excel批量查询神器,告别Ctrl+F的繁琐时代
QueryExcel:解放双手的Excel批量查询神器,告别CtrlF的繁琐时代 【免费下载链接】QueryExcel 多Excel文件内容查询工具。 项目地址: https://gitcode.com/gh_mirrors/qu/QueryExcel 在日常工作中,你是否也曾被海量Excel文件中的数据查找…...
解锁开源工具QMK Toolbox:完全掌握机械键盘个性化定制
解锁开源工具QMK Toolbox:完全掌握机械键盘个性化定制 【免费下载链接】qmk_toolbox A Toolbox companion for QMK Firmware 项目地址: https://gitcode.com/gh_mirrors/qm/qmk_toolbox QMK Toolbox是一款开源的设备管理工具,专为QMK固件设计&…...
Qwen3-14B部署避坑指南:从环境配置到服务上线的完整流程
Qwen3-14B部署避坑指南:从环境配置到服务上线的完整流程 1. 环境准备与系统要求 在开始部署Qwen3-14B之前,确保你的硬件和软件环境满足以下要求: 1.1 硬件配置建议 组件最低配置推荐配置GPUNVIDIA T4 (16GB)NVIDIA A10G (24GB)或A100 (40…...
张量维度操控心法:从reshape到升维降维,吃透PyTorch形状操作的底层逻辑
✨ 张量维度操控心法:从reshape到升维降维,吃透PyTorch形状操作的底层逻辑🔐 张量形状操作的黄金法则:形状是视角,内容是本质🔧 reshape函数:零侵入的形状重塑神器核心原理与执行规则实操代码与…...
Calypso vs PC-DMIS:三坐标两大软件脱机编程实战对比与选型指南
Calypso vs PC-DMIS:三坐标测量软件脱机编程深度对比与实战选型策略 在精密制造领域,三坐标测量机(CMM)的脱机编程能力直接决定了检测效率与资源利用率。作为行业两大标杆,蔡司Calypso与海克斯康PC-DMIS在用户界面设计、编程逻辑、仿真验证等…...
OpenCASCADE实战:如何正确获取3D模型面的法向(附完整代码示例)
OpenCASCADE实战:3D模型面法向的高效获取与方向校正 在三维建模与几何处理领域,准确获取模型表面的法向向量是许多高级操作的基础。无论是进行碰撞检测、光照计算还是有限元分析,法向数据的准确性直接影响最终结果的可靠性。OpenCASCADE作为一…...
Ray Optics:面向未来的光学仿真平台——从零开始的光学建模实践
Ray Optics:面向未来的光学仿真平台——从零开始的光学建模实践 【免费下载链接】ray-optics A web app for creating and simulating 2D geometric optical scenes, with a gallery of (interactive) demos. 项目地址: https://gitcode.com/gh_mirrors/ra/ray-op…...
新手最值得入的一款ai音乐工具
2026年,ai音乐爆发的一年。国内国外各种AI音乐工具层出不穷。想要尝试AI音乐的新手宝宝该怎么去选择呢?市面上大大小小的ai音乐创作软件我基本都尝试过。我觉得只有一款工具是最值得推荐的,也是我使用的最多的。那就是蘑兔AI,你们…...
终极指南:用OpenCore Legacy Patcher让旧Mac焕发新生的5个简单步骤
终极指南:用OpenCore Legacy Patcher让旧Mac焕发新生的5个简单步骤 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否还在为手中的旧款Mac无法…...
告别SpeedGoat:低成本搭建Simulink Real-Time硬件在环(HIL)平台,基于PC+松下伺服实战
低成本搭建Simulink实时控制平台:基于PC与松下伺服的硬件在环方案 在工业自动化与运动控制领域,实时硬件在环(HIL)测试是验证算法有效性的关键环节。传统方案如SpeedGoat等专用设备虽性能稳定,但动辄数十万的成本让许多…...
