当前位置: 首页 > news >正文

Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在这里插入图片描述
在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。 虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。 我们也听到一些开发人员说,他们没有这些资源,但仍然希望有机会使用 Llama 进行构建。 正如 Meta 创始人兼首席执行官马克-扎克伯格(Mark Zuckerberg)今天在 Connect 大会上所分享的,他们不必再等待了。 今天,我们发布了 Llama 3.2,其中包括适合特定边缘和移动设备的中小型视觉 LLM(11B 和 90B)和轻量级纯文字模型(1B 和 3B)。

从我们首次发布 Llama 到现在只有一年半的时间,我们在如此短的时间内取得了令人难以置信的进展。 今年,Llama 实现了 10 倍的增长,成为负责任创新的标准。 在开放性、可修改性和成本效益方面,Llama 也继续处于领先地位,与封闭模式相比,它具有很强的竞争力,甚至在某些领域处于领先地位。 我们相信,开放性能够推动创新,也是正确的发展道路,这也是我们继续与合作伙伴和开发者社区分享研究成果并开展合作的原因。

我们将在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型下载,并在我们广泛的合作伙伴平台生态系统上提供即时开发。 合作伙伴是这项工作的重要组成部分,我们已经与超过 25 家公司合作,包括 AMD、AWS、Databricks、戴尔、谷歌云、Groq、IBM、英特尔、微软 Azure、英伟达(NVIDIA)、甲骨文云(Oracle Cloud)和 Snowflake,以便在第一天就提供服务。 在Llama 3.2版本中,我们还与设备合作伙伴Arm、联发科(MediaTek)和高通(Qualcomm)合作,在发布时提供广泛的服务。 从今天开始,我们还将向社区提供 Llama Stack。 有关最新版本的更多详情,包括欧洲多模式可用性的信息,请参阅我们的可接受使用政策。

Meet Llama 3.2

Llama 3.2 系列中最大的两个型号(11B 和 90B)支持图像推理用例,如文档级理解(包括图表和图形)、图像标题和视觉基础任务(如根据自然语言描述在图像中精确定位对象的方向)。 例如,一个人可能会问去年哪个月他的小企业销售额最高,Llama 3.2 就能根据可用的图表进行推理,并迅速给出答案。 另一个例子是,该模型可以根据地图进行推理,帮助回答徒步旅行何时会变得更加陡峭或地图上标注的某条小路的距离等问题。 11B 和 90B 模型还能在视觉和语言之间架起一座桥梁,从图像中提取细节,理解场景,然后编写一两句话作为图像说明,帮助讲述故事。

轻量级的 1B 和 3B 模型具有强大的多语言文本生成和工具调用能力。 这些模型使开发人员能够在设备上构建个性化的代理应用程序,而且数据不会离开设备,具有很强的私密性。 例如,这样的应用程序可以帮助总结最近收到的 10 条信息,提取行动项目,并利用工具调用功能直接发送后续会议的日历邀请。

在本地运行这些模型有两大优势。 首先,由于处理是在本地完成的,因此提示和响应可以感觉是即时的。 其次,在本地运行模型不会将信息和日历信息等数据发送到云端,从而维护了隐私,使整个应用程序更加私密。 由于处理是在本地进行的,因此应用程序可以清楚地控制哪些查询留在设备上,哪些查询可能需要由云中更大的模型来处理。

模型评估

我们的评估结果表明,在图像识别和一系列视觉理解任务上,Llama 3.2 视觉模型与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相比具有竞争力。 在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则与 Gemma 具有竞争力。

我们评估了 150 多个基准数据集的性能,这些数据集涵盖了多种语言。 对于视觉 LLM,我们在图像理解和视觉推理的基准数据集上进行了性能评估。

在这里插入图片描述
在这里插入图片描述

视觉模型

作为首款支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

为了增加图像输入支持,我们训练了一组适配器权重,将预先训练好的图像编码器整合到预先训练好的语言模型中。 适配器由一系列交叉注意层组成,可将图像编码器表示输入语言模型。 我们对文本图像对进行适配器训练,以使图像表征与语言表征保持一致。 在适配器训练过程中,我们还更新了图像编码器的参数,但有意不更新语言模型参数。 这样,我们就保留了所有纯文本功能,为开发人员提供了 Llama 3.1 模型的即插即用替代品。

我们的训练流水线由多个阶段组成,从预训练的 Llama 3.1 文本模型开始。 首先,我们添加图像适配器和编码器,然后在大规模噪声(图像、文本)配对数据上进行预训练。 接下来,我们在中等规模的高质量域内和知识增强(图像、文本)配对数据上进行训练。

在后期训练中,我们使用与文本模型类似的方法,对监督微调、拒绝采样和直接偏好优化进行多轮对齐。 我们利用 Llama 3.1 模型生成合成数据,在域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排序,从而提供高质量的微调数据。 我们还添加了安全缓解数据,以生成一个具有高度安全性的模型,同时保留该模式的有用性。

最终,这套模型可以同时接收图像和文本提示,并深入理解和推理两者的结合。 这是 Llama 模型向更丰富的代理能力迈出的又一步。

轻量模型

正如我们在 Llama 3.1 中提到的,可以利用强大的教师模型来创建性能更强的小型模型。 我们在 1B 和 3B 模型上使用了两种方法–剪枝和蒸馏,使它们成为首批可高效安装在设备上的高功能轻量级 Llama 模型。

修剪使我们能够缩小 Llama 群中现存模型的大小,同时恢复尽可能多的知识和性能。 对于 1B 和 3B 模型,我们从 Llama 3.1 8B 中采用了结构化剪枝的方法。 这包括系统性地移除部分网络,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

知识提炼利用较大的网络向较小的网络传授知识,其理念是较小的模型利用教师可以获得比从头开始更好的性能。 对于 Llama 3.2 中的 1B 和 3B,我们将 Llama 3.1 8B 和 70B 模型的对数纳入了模型开发的预训练阶段,这些较大模型的输出(对数)被用作标记级目标。 在剪枝之后,我们使用知识提炼来恢复性能。

在这里插入图片描述
在后期训练中,我们使用与 Llama 3.1 类似的方法,通过在预训练模型的基础上进行多轮对齐来生成最终的聊天模型。 每一轮都包括监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。

在后期训练中,我们将上下文长度支持扩展到 128K 标记,同时保持与预训练模型相同的质量。 我们还参与合成数据的生成,对数据进行仔细处理和过滤,以确保高质量。 我们仔细混合数据,以优化摘要、改写、指令遵循、语言推理和工具使用等多种能力的质量。

为了让社区能够在这些模型上进行创新,我们与高通公司和联发科公司(全球前两大移动系统芯片(SoC)公司)以及为 99% 的移动设备提供基础计算平台的 Arm 公司密切合作。 今天发布的权重基于 BFloat16 数值。 我们的团队正在积极探索运行速度更快的量化变体,希望不久能分享更多相关信息。

Llama Stack distributions

今年七月,我们发布了关于 Llama Stack API 的意见征集,这是一个标准化接口,用于规范工具链组件(微调、合成数据生成),以定制 Llama 模型并构建代理应用程序。

从那时起,我们就一直在努力实现 API。 我们为推理、工具使用和 RAG 构建了 API 的参考实施。 此外,我们还与合作伙伴合作,使他们成为 API 的提供者。 最后,我们还推出了 Llama Stack Distribution(Llama 堆栈分发),作为一种打包多个 API 提供商的方法,这些 API 提供商可以很好地协同工作,为开发人员提供一个单一的端点。 现在,我们正在与社区分享一种简化且一致的体验,使他们能够在多种环境(包括内部部署、云、单节点和设备)中使用 Llama 模型。

在这里插入图片描述
全套版本包括

  1. 用于构建、配置和运行 Llama Stack 发行版的 Llama CLI(命令行界面)
  2. 多种语言的客户端代码,包括 python、node、kotlin 和 swift
  3. 用于 Llama Stack 发行版服务器和代理 API 提供商的 Docker 容器
  4. 多种发行版
    • 通过 Meta 内部实现和 Ollama 实现单节点 Llama 堆栈分发
    • 通过 AWS、Databricks、Fireworks 和 Together 进行云计算Llama Stack distributions
    • 通过 PyTorch ExecuTorch 在 iOS 上实现设备上的 Llama Stack 发行版
    • 戴尔支持内部部署的 Llama Stack Distribution

我们期待与开发人员和合作伙伴合作,简化使用 Llama 模型构建的各个方面,并欢迎反馈意见。

在这里插入图片描述

系统级安全

采取开放的方法有很多好处。 它有助于确保全世界更多的人能够获得人工智能提供的机会,防止权力集中在少数人手中,并在全社会更公平、更安全地部署技术。 在我们不断创新的同时,我们也希望确保我们能够授权开发人员构建安全、负责任的系统。

基于我们先前的发布以及不断努力支持负责任的创新,今天,我们正在为保障措施系列添加新的更新:

  • 首先,我们将发布Llama Guard 3 11B Vision,该Vision旨在支持Llama 3。2 ’的新图像理解功能,并过滤文本+图像输入提示或对这些提示的文本输出响应。
  • 其次,当我们发布1B和3B Llama模型以用于更受约束的环境(例如设备上)时,我们还对Llama Guard进行了优化,以大大降低其部署成本。Llama Guard 3 1B基于Llama 3。2 1B模型,并已进行修剪和量化,使其大小从2,858 MB降至438 MB,从而使其部署效率比以往更高。

这些新解决方案已集成到我们的参考实现,演示和应用程序中,并已准备好供开源社区在第一天使用。

Huggingface

在这里插入图片描述
除了现有的支持文本的 Llama 3.1 8B、70B 和 405B 模型外,Llama 3.2 还支持多模态用例。 您现在可以使用 Meta 的四种新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、实验和扩展您的创意想法:

Llama 3.2 90B Vision(文本+图像输入)–Meta 最先进的模型,是企业级应用的理想选择。 该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。 它还引入了图像推理功能,可用于图像理解和视觉推理任务。 该模型非常适合以下用例:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 11B Vision(文本+图像输入)–非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。 该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色,并增加了图像推理能力。 该模型的用例与 90B 版本类似:图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答。

Llama 3.2 3B(文本输入)–专为需要低延迟推理和有限计算资源的应用而设计。 它擅长文本摘要、分类和语言翻译任务。 该模型非常适合以下用例:人工智能驱动的移动写作助手和客户服务应用。

Llama 3.2 1B(文本输入)- Llama 3.2 模型系列中最轻量级的模型,非常适合边缘设备和移动应用程序的检索和摘要。 该模型非常适合以下用例:个人信息管理和多语言知识检索。

相关文章:

Llama 3.2:利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内,包括 405B - 第一个开放的前沿级人工智能模型在内,它们所产生的影响令我们兴奋不已。 虽然这些模型非常强大,但我们也认识到,使用它们进行构建需要大量的计算资源和专业知识。 我们也听到…...

解决R语言bug ‘sh‘ is not recognized as an internal or external command

安装源码包‘httr2’ trying URL ‘https://cran.rstudio.com/src/contrib/httr2_1.0.5.tar.gz’ Content type ‘application/x-gzip’ length 230632 bytes (225 KB) downloaded 225 KB installing source package ‘httr2’ … ** package ‘httr2’ successfully unpacked…...

记一次Mac 匪夷所思终端常用网络命令恢复记录

一天莫名奇妙发现ping dig 等基础命令都无法正常使用。还好能浏览器能正常访问&#xff0c;&#xff0c;&#xff0c;&#xff0c; 赶紧拿baidu试试^-^ ; <<>> DiG 9.10.6 <<>> baidu.com ;; global options: cmd ;; connection timed out; no serve…...

2024最新!!Java后端面试题(4)看这一篇就够了!!!!

七、异常 throw 和 throws 的区别&#xff1f; throw用来显式地抛出一个异常&#xff0c;而throws则用于在方法声明中指明该方法可能抛出的异常。简单来说&#xff0c;throw是抛出异常的实际动作&#xff0c;throws是告知调用者这个方法可能会抛出哪些异常的声明。 final、f…...

springboot整合sentinel和对feign熔断降级

一、准备 docker安装好sentinel-dashboard&#xff08;sentinel控制台&#xff09;&#xff0c;参考docker安装好各个组件的命令启动sentinel-dashboard&#xff0c;我的虚拟机ip为192.168.200.131&#xff0c;sentinel-dashboard的端口为8858 二、整合sentinel的主要工作 在…...

遗传算法与深度学习实战——使用进化策略实现EvoLisa

遗传算法与深度学习实战——使用进化策略实现EvoLisa 0. 前言1. 使用进化策略实现 EvoLisa2. 运行结果相关链接 0. 前言 我们已经学习了进化策略 (Evolutionary Strategies, ES) 的基本原理&#xff0c;并且尝试使用 ES 解决了函数逼近问题。函数逼近是一个很好的基准问题&…...

HttpServletRequest简介

HttpServletRequest是什么&#xff1f; HttpServletRequest是一个接口&#xff0c;其父接口是ServletRequest&#xff1b;HttpServletRequest是Tomcat将请求报文转换封装而来的对象&#xff0c;在Tomcat调用service方法时传入&#xff1b;HttpServletRequest代表客户端发来的请…...

c++开发之编译curl(安卓版本)

为了在 Android 上编译支持 OpenSSL 的 libcurl&#xff0c;你需要手动编译 libcurl 和 OpenSSL&#xff0c;并确保它们能够在 Android 的交叉编译环境中正常工作。以下是详细的步骤说明。 1. 安装必要工具 在编译之前&#xff0c;确保你已经安装了以下工具&#xff1a; And…...

QT+ESP8266+STM32项目构建三部曲三--QT从环境配置到源程序的解析

一、阿里云环境配置 大家在编写QT连接阿里云的程序之前&#xff0c;先按照下面这篇文章让消息可以在阿里云上顺利流转 QTESP8266STM32项目构建三部曲二--阿里云云端处理之云产品流转-CSDN博客文章浏览阅读485次&#xff0c;点赞7次&#xff0c;收藏4次。创建两个设备&#xff…...

Web APIs 5:Window对象(BOM)+本地存储

Web APIs 5&#xff08;BOM&#xff1a;Window对象本地存储&#xff09; 1.BOM(浏览器对象模型)&#xff08;后面几个对象都为BOM对象&#xff09; BOM对象包含&#xff1a;navigator、location、document(DOM对象)、history、screenBOM是一个全局对象&#xff0c;即JS中的顶…...

神经网络(四):UNet图像分割网络

文章目录 一、简介二、网络结构2.1编码器部分2.2解码器部分2.3完整代码 三、实战案例 论文链接&#xff1a;点击跳转 一、简介 UNet网络是一种用于图像分割的卷积神经网络&#xff0c;其特点是采用了U型网络结构&#xff0c;因此称为UNet。该网络具有编码器和解码器结构&#…...

Java 编码系列:注解处理器详解与面试题解析

引言 在上一篇文章中&#xff0c;我们详细探讨了 Java 注解的基本概念、自定义注解、元注解等技术。本文将继续深入探讨 Java 注解处理器&#xff08;Annotation Processor&#xff09;&#xff0c;介绍如何编写注解处理器&#xff0c;并结合大厂的最佳实践和面试题详细解析其…...

C语言 | Leetcode C语言题解之第441题排列硬币

题目&#xff1a; 题解&#xff1a; class Solution { public:int arrangeCoins(int n) {return (int) ((sqrt((long long) 8 * n 1) - 1) / 2);} };...

Linux noVNC远程桌面(xfce)部署

一、安装 VNC 服务器和桌面环境 Notebook实验 常用vnc服务 VNC (Virtual Network Computing) 是一种远程桌面协议&#xff0c;可以让你通过网络访问服务器的图形界面。 TurboVNC&#xff1a;专为图形密集型应用设计&#xff0c;尤其适合 3D 可视化和高分辨率图像的远程传输…...

【网络安全】身份认证

1. 身份认证 1.1 定义 身份认证&#xff08;Authentication&#xff09;是确认用户身份的过程&#xff0c;确保只有授权的用户才能访问系统或资源。它通常涉及验证用户提供的凭证&#xff0c;如密码、生物特征或其他识别标志。 1.2 重要性 身份认证是信息安全的第一道防线&…...

LeetCode - #124 二叉树中的最大路径和(Top 100)

文章目录 前言1. 描述2. 示例3. 答案关于我们前言 本题为 LeetCode 前 100 高频题 我们社区陆续会将顾毅(Netflix 增长黑客,《iOS 面试之道》作者,ACE 职业健身教练。)的 Swift 算法题题解整理为文字版以方便大家学习与阅读。 LeetCode 算法到目前我们已经更新到 123 期…...

Java:插入排序

目录 排序的概念 插入排序 直接插入排序 哈希排序 排序的概念 排序&#xff1a;所谓的排序&#xff0c;就是使一串记录&#xff0c;按照某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。 稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个…...

How FAR ARE WE FROM AGI?(ICLR AGI Workshop 2024)概览

关注B站可以观看更多实战教学视频&#xff1a;hallo128的个人空间 How FAR ARE WE FROM AGI?官网 How FAR ARE WE FROM AGI?&#xff08;ICLR AGI Workshop 2024&#xff09; 该研讨会将于2024年5月11日在奥地利维也纳以混合模式举行&#xff0c;作为 ICLR 2024年会议的一部…...

leetcode刷题day33|动态规划Part02(62.不同路径、63. 不同路径 II、 343.整数拆分、96.不同的二叉搜索树)

62.不同路径 机器人从(0 , 0) 位置出发&#xff0c;到(m - 1, n - 1)终点。 动规五部曲 1、确定dp数组&#xff08;dp table&#xff09;以及下标的含义 dp[i][j] &#xff1a;表示从&#xff08;0 &#xff0c;0&#xff09;出发&#xff0c;到(i, j) 有dp[i][j]条不同的路…...

基于Python大数据的B站热门视频的数据分析及可视化系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…...

KubeSphere 容器平台高可用:环境搭建与可视化操作指南

Linux_k8s篇 欢迎来到Linux的世界&#xff0c;看笔记好好学多敲多打&#xff0c;每个人都是大神&#xff01; 题目&#xff1a;KubeSphere 容器平台高可用&#xff1a;环境搭建与可视化操作指南 版本号: 1.0,0 作者: 老王要学习 日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性&#xff0c;不同版本的Docker对内核版本有不同要求。例如&#xff0c;Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本&#xff0c;Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子&#xff0c;用于处理异步操作&#xff08;如数据加载&#xff09;中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误&#xff1a;捕获在 loader 或 action 中发生的异步错误替…...

从WWDC看苹果产品发展的规律

WWDC 是苹果公司一年一度面向全球开发者的盛会&#xff0c;其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具&#xff0c;对过去十年 WWDC 主题演讲内容进行了系统化分析&#xff0c;形成了这份…...

Qt Widget类解析与代码注释

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码&#xff0c;写上注释 当然可以&#xff01;这段代码是 Qt …...

STM32标准库-DMA直接存储器存取

文章目录 一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA&#xff08;Direct Memory Access&#xff09;直接存储器存取 DMA可以提供外设…...

测试markdown--肇兴

day1&#xff1a; 1、去程&#xff1a;7:04 --11:32高铁 高铁右转上售票大厅2楼&#xff0c;穿过候车厅下一楼&#xff0c;上大巴车 &#xffe5;10/人 **2、到达&#xff1a;**12点多到达寨子&#xff0c;买门票&#xff0c;美团/抖音&#xff1a;&#xffe5;78人 3、中饭&a…...

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统 基于LangGraph的PPT自动生成系统&#xff0c;可以将Markdown文档自动转换为PPT演示文稿。 功能特点 Markdown解析&#xff1a;自动解析Markdown文档结构PPT模板分析&#xff1a;分析PPT模板的布局和风格智能布局决策&#xff1a;匹配内容与合适的PPT布局自动…...