当前位置: 首页 > news >正文

最常见的AI大模型总结

前言:大模型可以根据其主要的应领域和功能,可以分类为“文生文”(Text-to-Text)、“文生图”(Text-to-Image)和“文生视频”(Text-to-Video),都是基于自然语言处理(NLP)和计算机视觉(CV)的大模型所实现的功能。这些大模型的发展极大地推动了人工智能技术在各个领域的应用,并且随着技术的进步,未来可能会出现更多创新性的应用和服务。


一、AI大模型分类

1.1、文生文大模型(Text-to-Text)

这类模型专注于文本生成和变换任务,如回答问题、文章写作、摘要生成、新闻撰写、故事创作、翻译等。市面上经典应用包括ChatGPT、通义千问、豆包、文心一言等。

一些典型的模型包括:

  - Llama:Meta推出迄今为止能力最强的开源大模型Llama 3系列,发布8B和70B两个版本。

  -Qianwen:阿里云开源通义千问 Qwen2 大模型,Qwen2的开源旨在推动全球范围内的落地和商  业应用,并计划将Qwen2扩展为多模态模型,融入视觉和语音理解能力。

  -ChatGLM:清华开源的GLM-4-9B模型在综合能力上比ChatGLM3-6B提升了40%,并且在中文学科能力上提升了50%

  - GPT系列(如GPT-3, GPT-4):由OpenAI开发,广泛用于生成连贯的文本。

  - Bard:由Google推出,是一个能够生成对话和文本的模型。

1.2、文生图大模型 (Text-to-Image)

这类模型能够根据给定的文字描述生成相应的图像。应用于创意设计、插图生成、游戏开发中的角色或场景生成、艺术创作等。市面上经典应用Midjoumney是一款AI制图工具,只要关键字就能通过AI算法生成相对应的图片,只需要不到一分钟。

一些典型的模型包括:

  - Stable Diffusion:一个开源的生成模型,能够根据文本生成图像。

  - Kolors:快手推出的文生图大模型,支持多种风格的图像生成。

1.3、文生视频大模型 (Text-to-Video)

这类模型可以根据文本描述生成视频内容。应用于视频制作、广告创意、教育视频生成、娱乐内容创作等。市面上经典应用Sora,​美国人工智能研究公司OpenAI发布的人工智能文生视频大模型,但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器​。

一些典型的模型包括:

Open-Sora1.0:由Colossal-AI团队开源的视频生成模型,能够从文本生成视频。


二、开源大模型总结

针对“文生图”、“文生文”和“文生视频”的分类,下面列出一些当前较为知名的开源大模型。

2.1 、开源文生文大模型

  • Llama :  Meta发布的开源模型,支持多种语言。Llama 是由 Meta AI 开发的一系列语言模型。稳定的版本称为 LLaMA2,特别是 LLaMA2 Long,它具有长达 32,000 个 token 的上下文窗口,并且在多项任务上显示出了超越 ChatGPT 和 Claude2 的性能。这意味着 LLaMA2 在处理长文本和需要更多上下文的任务方面更为出色。最近开源标杆Llama-3.1登上开源顶峰,但其最强的405B版本模型900多GB的内存需求,对资源构成了更加苛刻的挑战。

  • Qianwen:Qianwen(千问)是阿里云推出的一系列大规模预训练语言模型。这些模型可以执行多种自然语言处理任务,包括但不限于文本生成、对话管理和代码理解。它们在多个基准测试中取得了优异的成绩,并且由于是开源的,可以被广大开发者用于各种应用和服务中。

  • ChatGLM:ChatGLM 是智谱AI发布的一款对话模型,基于智谱AI自主研发的中英双语对话模型ChatGLM2。智谱清言具有千亿级别的参数,并且提供了丰富的文档和代码功能,允许用户根据自己的行业需求对模型进行训练和优化。智谱清言的主要功能包括但不限于内容创作、信息归纳总结、通用问答、多轮对话等。智谱AI还在持续更新和改进其模型,例如发布了GLM-4开源模型,该模型相比之前的版本有了显著的能力提升。GLM-4-9B模型在综合能力上比ChatGLM3-6B提升了40%,并且在中文学科能力上提升了50%。此外,智谱AI还提供了支持多达26种语言、最高支持达1百万tokens长文本等功能。

  • GPT-J: 一个基于GPT-3架构的开源模型,具有60亿参数。

  • GPT-NeoX: 一个拥有200亿参数的开源模型,基于GPT-3架构。

  • BLOOM: 一个多语言模型,支持47种语言,具有1760亿参数。

2.2、开源文生图大模型

  • Stable Diffusion: 一个非常流行的开源模型,能够根据文本生成高质量的图像。

  • Sora: Colossal-AI团队发布的开源模型,支持从文本生成图像。

  • Kolors:  快手可图是由快手公司基于Stable Diffusion框架开发的大规模文本到图像生成模型,在图像质量和综合评分方面表现出色。

  • HunyuanDiT: 腾讯开源的混元文生图模型,采用DiT架构,支持中英文输入及理解。

2.3、 开源文生视频大模型

  • Open-Sora1.0: Colossal-AI团队开源的模型,能够从文本生成视频。

  • Make-a-Video: 由Meta AI团队发布,是一个能够根据文本生成视频的模型。

2.4、 其他相关模型

RCG (Representation Conditional Generation): 由麻省理工学院和Meta合作开发的模型,能够在没有人工标注的情况下生成图像。


三、2023-2024大模型关键进展

自2022年11月30日Chat GPT发布以来, AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮 。 国内学术和产业界在过去一年也有了实质性的突破 。  大致可以分为三个阶段, 即准备期 (Chat GPT发布后国内产学研迅速形成大模型共识) 、 成长期 (国内大模型数量和质量开始逐渐增长) 、爆发期 (各行各业开 源闭源大模型层出不穷, 形成百模大战的竞争态势) 。


中文大模型基准测评2024年4月报告

GLM-4-9B:智谱AI推出了一个新的实力强大的小模型!

AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney

Meta震撼发布Llama 3,一夜重回开源大模型铁王座

 大模型千问2(Qwen2)系列新产品来了

腾讯混元文生图大模型开源:Sora 同架构,更懂中文

相关文章:

最常见的AI大模型总结

前言:大模型可以根据其主要的应领域和功能,可以分类为“文生文”(Text-to-Text)、“文生图”(Text-to-Image)和“文生视频”(Text-to-Video),都是基于自然语言处理&#…...

源码安装docker和docker-compose

前言 前提条件:内核要求 目前,CentOS 仅发行版本中的内核支持 Docker。 Docker 运行在 CentOS 7 上,要求系统为64位、系统内核版本为3.10 以上。 Docker 运行在 CentOS-6.5 或更高的版本的 CentOS 上,要求系统为64位、系统内核版…...

Java、PHP、Node 操作 MySQL 数据库常用方法

一、Java 操作 MySQL 数据库 1、Java 连接 MySQL 数据库 1. 使用 JDBC 驱动程序连接 使用这种方式,首先需要导入 MySQL 的 JDBC 驱动程序依赖,然后通过 Class.forName() 方法加载驱动程序类。其创建连接的过程相对直接,只需提供准确的数据库…...

nVisual分享社区正式上线啦!

nVisual分享社区正式上线啦! 访问地址:分享社区 nVisual是耐威迪基于数字孪生技术物联网技术开发的一款基础设施数字孪生软件工具,主要实现OSP室外与ISP室内基础设施的规划、记录、分析的可视化管理。 规划:nVisual可视化、智能化…...

4.5.门控循环单元GRU

门控循环单元GRU ​ 对于一个序列,不是每个观察值都是同等重要的,可能会遇到一下几种情况: 早期观测值对预测所有未来观测值都具有非常重要的意义。 考虑极端情况,第一个观测值包含一个校验和,目的是在序列的末尾辨别…...

10种 Python数据结构,从入门到精通

今天我们将深入探讨 Python 中常用的数据结构,帮助你从基础到精通。每种数据结构都有其独特的特点和适用场景,通过实际代码示例和生活中的比喻,让你更容易理解这些概念。 学习数据结构的三个阶段 1、掌握基本用法:使用这些数据结…...

【AI】人工智能时代,程序员如何保持核心竞争力?

目录 程序员在AI时代的应对策略1. 引言2. AI在编程领域的影响2.1 AI辅助编程工具的现状2.2 AI对编程工作的影响2.3 程序员的机遇与挑战 3. 深耕细作:专注领域的深度学习3.1 专注领域的重要性3.2 深度学习的策略3.2.1 选择合适的领域3.2.2 持续学习和研究3.2.3 实践与…...

WPF学习(3)- WrapPanel控件(瀑布流布局)+DockPanel控件(停靠布局)

WrapPanel控件(瀑布流布局) WrapPanel控件表示将其子控件从左到右的顺序排列,如果第一行显示不了,则自动换至第二行,继续显示剩余的子控件。我们来看看它的结构定义: public class WrapPanel : Panel {pub…...

【python】Python中实现定时任务常见的几种方式原理分析与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

老公请喝茶,2024年老婆必送老公的养生茶,暖暖的很贴心

在这个快节奏的时代,每个人都在为生活奔波,而家的温馨与关怀,成了我们最坚实的后盾。随着2024年的已经过半,作为妻子,你是否也在寻找一份特别的礼物,来表达对老公深深的爱意与关怀?在这个充满爱…...

3d打印相关资料

模型库 拓竹makerworld爱给...

MySQL1 DDL语言

安装与配置 官网: MySQL :: Download MySQL Installer 阿里云: MySQL8 https://www.alipan.com/s/auhN4pTqpRp 点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速…...

el-tree懒加载状态下实现搜索筛选(纯前端)

1.效果图 &#xff08;1&#xff09;初始状态 &#xff08;2&#xff09;筛选后 2.代码 <template><div><el-inputplaceholder"输入关键字进行过滤"v-model"filterText"input"searchValue"></el-input><el-tree…...

NLP——Transfromer 架构详解

Transformer总体架构图 输入部分&#xff1a;源文本嵌入层及其位置编码器、目标文本嵌入层及其位置编码器 编码器部分 由N个编码器层堆叠而成 每个编码器层由两个子层连接结构组成 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 第二个子层连接结构包…...

大模型算法面试题(二十)

本系列收纳各种大模型面试题及答案。 1、描述Encoder和Decoder中Attention机制的不同之处 Encoder和Decoder中的Attention机制在自然语言处理&#xff08;NLP&#xff09;和序列到序列&#xff08;Seq2Seq&#xff09;模型中扮演着重要角色&#xff0c;它们虽然都利用了Attent…...

2024最新最全面的Selenium 3.0 + Python自动化测试框架

文档说明 Selenium是一个用于Web应用程序自动化测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。 Selenium测试的主要功能包括&#xff1a; 测试与浏览器的兼容性&#xff1a;测试应用程序是否能很好的工作在不同的浏览器和操作系统之上。…...

海运中的甩柜是怎么回事❓怎么才能避免❓

什么是甩柜&#xff1f; 甩柜又叫甩箱&#xff0c;是指集装箱船在起运离港时&#xff0c;船公司没有将此前计划装船的集装箱装运上船&#xff0c;导致部分货物滞留港口。多出现在海运旺季。 为什么会甩柜&#xff1f; 甩箱是集装箱物流中常见的事件&#xff0c;主要因为承运…...

Win11+docker+gpu+vscode+pytorch配置anomalib(2)

在上一篇文章中,我在Win11上通过Docker配置了pytorch,并顺利调用了GPU。在这篇文章中,我将继续完成anomalib的配置。 anomalib是一个非常完善的异常检测框架,我希望通过它来学习经典异常检测算法,并且测试这些算法在我自己的数据集上的效果。 步骤如下: 1. 从docker Hub上…...

AI在招聘市场趋势分析中的应用

一、引言 在数字化、智能化的时代背景下&#xff0c;人工智能&#xff08;AI&#xff09;技术正逐步渗透到各行各业&#xff0c;其中招聘市场也不例外。AI技术的运用不仅极大地提高了招聘的效率和精准度&#xff0c;还在招聘市场趋势分析方面展现出巨大的潜力。本文旨在探讨AI在…...

AMEYA360:太阳诱电应对 165℃的叠层金属类功率电感器实现商品化!

太阳诱电株式会社实现了可以满足车载被动部件认定的可靠性试验规格“AEC-Q200”的叠层金属类功率电感器 MCOIL™“LACNF2012KKTR24MAB”(2.0x1.25x1.0mm&#xff0c;高度为最大值)等 4 个产品的商品化。通过本公司独有的金属类材料和叠层工艺的提高&#xff0c;在叠层金属类功率…...

Blender材质渲染实战:从基础设置到Eevee引擎优化

1. Blender材质渲染基础入门 第一次打开Blender时&#xff0c;那个默认的灰色立方体看起来平平无奇&#xff0c;但这就是我们探索材质世界的起点。材质就像给3D模型穿衣服&#xff0c;决定了它看起来是金属、塑料还是玻璃。在Blender中操作材质其实很简单&#xff0c;我刚开始学…...

知识管理工具选型指南:从Confluence、语雀到Notion、Sward的深度场景适配

1. 知识管理工具的核心价值与选型逻辑 第一次搭建团队知识库时&#xff0c;我犯了个典型错误——直接选了当时最火的工具。结果三个月后&#xff0c;技术团队抱怨Markdown支持太弱&#xff0c;产品团队嫌弃界面太复杂&#xff0c;最终这个价值十几万的系统成了摆设。这个教训让…...

【稀缺预警】Python 3.14 JIT编译器深度剖析:3类隐性CPU浪费模式+2套自动降本脚本(附真实AWS账单对比图)

第一章&#xff1a;Python 3.14 JIT编译器的演进逻辑与成本敏感性定位Python 3.14 并非官方发布的正式版本&#xff08;截至2024年&#xff0c;CPython最新稳定版为3.12&#xff0c;3.13处于预发布阶段&#xff09;&#xff0c;但本章以假设性技术前瞻视角&#xff0c;探讨若Py…...

终极Intel PCM部署手册:从源码编译到生产环境配置

终极Intel PCM部署手册&#xff1a;从源码编译到生产环境配置 【免费下载链接】pcm Intel Performance Counter Monitor (Intel PCM) 项目地址: https://gitcode.com/gh_mirrors/pc/pcm Intel Performance Counter Monitor&#xff08;Intel PCM&#xff09;是一个强大的…...

7个步骤打造高效文件上传系统:Plupload零基础入门指南

7个步骤打造高效文件上传系统&#xff1a;Plupload零基础入门指南 【免费下载链接】plupload Plupload is JavaScript API for building file uploaders. It supports multiple file selection, file filtering, chunked upload, client side image downsizing and when necess…...

FastAPI安全防线:OAuth2 + JWT 实现无状态认证的完整流程

更多内容请见: 《Python Web项目集锦》 - 专栏介绍和目录 在现代Web应用开发中,安全认证是构建可靠API的基石。FastAPI通过其强大的安全组件,为开发者提供了实现安全、可扩展认证系统的工具。本文将深入剖析OAuth2与JWT在FastAPI中的整合实现,揭示无状态认证的完整流程,提…...

媒体服务器功能解锁:打造专业级家庭媒体中心的完整方案

媒体服务器功能解锁&#xff1a;打造专业级家庭媒体中心的完整方案 【免费下载链接】emby-unlocked Emby with the premium Emby Premiere features unlocked. 项目地址: https://gitcode.com/gh_mirrors/em/emby-unlocked 在数字化娱乐时代&#xff0c;一个功能完善的媒…...

SenseVoiceSmall实战案例:如何用AI分析会议录音中的情绪变化

SenseVoiceSmall实战案例&#xff1a;如何用AI分析会议录音中的情绪变化 1. 会议录音分析的痛点与解决方案 在日常工作中&#xff0c;会议录音分析一直是个耗时费力的任务。传统方法需要人工反复听取录音&#xff0c;不仅效率低下&#xff0c;还容易遗漏关键信息。特别是会议…...

Bidili Generator效果展示:宠物肖像生成——毛发细节+神态捕捉实测

Bidili Generator效果展示&#xff1a;宠物肖像生成——毛发细节神态捕捉实测 1. 引言&#xff1a;当AI遇见宠物肖像 你有没有想过&#xff0c;给自家宠物拍一张专业级的肖像照&#xff1f;不是那种随手一拍的生活照&#xff0c;而是能捕捉到它们独特神态、展现每一根毛发细节…...

conda安装cudnn避坑指南:为什么你的CUDA环境总是报错?

Conda环境下的CUDA与cuDNN版本管理实战指南 每次在终端看到CUDA相关的报错信息时&#xff0c;那种感觉就像是在解一道没有标准答案的数学题。特别是当深度学习框架因为CUDA版本不兼容而拒绝运行时&#xff0c;连最简单的import tensorflow都能变成一场噩梦。本文将带你深入理解…...