Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱
如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban Meta 就突破百万销量,不仅让马克·扎克伯格直呼 Amazing,更促使了谷歌、三星、字节跳动等国内外大厂的纷纷入局!
时隔一年,Meta 再次在 Connect 开发者大会上推出了智能眼镜新产品 Orion,这是该公司推出的首款全息 AR 眼镜,扎克伯格称其为世界上最先进的眼镜,将会改变未来人与世界的交互方式。
此外,按照惯例,Meta 通常会在 Connect 大会推出 Quest 头显新产品,今年亦是如此。鉴于去年发布的 Meta Quest 3 被用户们普遍反映价格过高,今年 Meta 推出了一款性能与 Quest 3 相近但价格更亲民的新头显 Quest 3S,这款头显被认为是当前市场上最佳的混合现实设备,可以提供极佳的超现实体验。
当然,作为 Meta 旗下备受瞩目的核心技术之一,Llama 模型也在此次发布会上迎来了重大更新。多模态 Llama 3.2 能够同时理解图像和文本,手机也能跑大模型,为其开源生态再添助益。
Meta 的 AR 梦想成真,Orion 眼镜开启全新交互时代
今年 4 月,为庆祝 Reality Labs 成立 10 周年,Meta 曾发布一篇文章概述该部门的发展历史,并在文中预告了其下一个核心产品——首款 AR 眼镜。Meta 表示,Quest 3 能够让用户在物理世界中与数字内容沉浸式互动,Ray-Ban Meta 眼镜让用户享受到 Meta AI 的实用性和娱乐性,而新款 AR 眼镜则会结合这两者的优点,实现最佳的技术融合。
随着 Meta Connect 2024 的临近,市场上越来越多的声音推测,这款 AR 眼镜将会在本次大会中发布。不出所望,今天,Meta 发布了其首款 AR 眼镜 Orion。
扎克伯格表示,Orion 致力于改变人与世界的交互方式,是有史以来最先进的 AR 眼镜,历经 10 年研发而成。它拥有最先进的 AR 显示屏、定制的硅芯片、碳化硅镜片、复杂的光波导 (waveguides)、uLED 投影仪等,多种技术加持让强大的 AR 体验能够在一副眼镜上运行,而所消耗的电力和重量仅为 MR 头显的一小部分。
简单来说,这种 AR 眼镜采用一种全新的显示架构,利用微型投影仪将光线投射到波导中,再将不同深度和大小的全息图投射到用户面前的世界,并由一块装在眼镜腿里的电池供电。例如,用户如果想与远方的朋友相聚,他们将以全息图的形式出现在客厅,就像真的在身旁一样。
值得一提的是,Orion 在镜框边缘嵌入了 7 个微型摄像头和传感器,并结合语音、眼动和手势追踪,配备 EMG 腕带,用户可以轻松地进行滑动、点击和滚动操作。例如,如果晨跑时想拍照,只需轻轻一按指尖,Orion 就能定格精彩瞬间。此外,只需轻敲手指,还能召唤纸牌游戏、国际象棋或全息乒乓球等娱乐活动。
英伟达创始人兼 CEO 黄仁勋都迫不及待试用啦!
最佳混合现实设备 Quest 3S,性价超高
继去年 Meta 在 Connect 大会上发布全球首款混合现实头显 Meta Quest 3 之后,Meta 今年推出了 Quest 3 的精简版本——Quest 3S。
扎克伯格表示,「Quest 3S 不仅性价比高,而且是目前市面上能买到的最佳混合现实设备!」它具备与 Quest 3 相似的核心功能,即高分辨率全彩混合现实,用户可以在物理世界和虚拟世界中「无缝穿越」,能够进行娱乐、健身、游戏、社交体验等一系列活动。不同的是,Quest 3S 改进了镜片,并在技术栈、有效分辨率和延迟等方面做了优化,其混合现实手部追踪软件表现更为出色。
混合现实的神奇之处在于,它将写实的空间带入元宇宙,让用户有一种身临其境的感觉,并在不同的体验间自由切换。比如,用户可以选择影院模式,把屏幕放大成一个电影院,获得最佳的剧场观看体验。
在现场演示中,扎克伯格展示了从 2D 移动应用到远程桌面的 PC 的沉浸式体验,用户可以打开屏幕并将其放置在任何位置,形成一个巨大的虚拟显示器,并进行工作。他提到,Meta 一直在与微软合作升级远程桌面功能,不久之后,这种功能或许就可以连接到 Windows 11 电脑上。
值得一提的是,Meta Quest 3S 以难以置信的价格提供超现实的体验,起价仅为 299.99 美元,将在 10 月 15 日上市。今年秋天购买 Quest 3S 的用户,还将获赠《Batman: Arkham Shadow》游戏的 VR 体验。
首个支持视觉任务的 Llama 模型,多模态且开源
除了重磅的硬件发布外,小扎还带来了 Llama 的更新,推出 Llama 3.2 模型。作为第一个支持视觉任务的 Llama 模型,Llama 3.2 能够同时理解图像和文本。其中包含适用于边缘和移动设备的中小型视觉模型 (11B 和 90B) 以及轻量级纯文本模型 (1B 和 3B),这两个类别均包括预训练版和指令微调版。值得一提的是,这些不同规格的模型均可通过 Meta AI 进行试用。
模型性能评估
研究人员在超过 150 个跨语言的基准数据集评估模型性能。结果显示,Llama 3.2 1B 和 3B 模型支持 128K tokens 的上下文长度,在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则能够与 Gemma 模型一争高下。
此外,研究人员评估了模型在图像理解和视觉推理基准的性能。结果显示,Llama 3.2 11B 和 90B 视觉模型可以无缝替代相应的文本模型,同时在图像理解任务上超越了诸如 Claude 3 Haiku 之类的闭源模型。
轻量级模型训练
对于 Llama 3.2 1B 和 3B 模型,研究人员采用剪枝和蒸馏两种方法,从 8B/70B 模型中提炼出高效的 1B/3B 模型。
具体而言,研究人员将 Llama 3.1 的 8B 和 70B 模型的 Logit Date 纳入预训练阶段,使用这些较大模型的输出 (logit date) 作为 token 级别的目标,进行结构化剪枝。剪枝完成后,研究人员利用知识蒸馏来恢复模型的性能。
视觉模型训练
Llama 3.2 的训练流程分为多个阶段。首先,从预训练的 Llama 3.1 文本模型开始。接着,研究人员添加图像适配器和编码器,并在大规模的噪声(图像、文本)配对数据上进行预训练。然后,在中等规模的高质量域内和知识增强的(图像、文本)配对数据上进行训练。
在后期训练中,研究人员采用与文本模型相似的方法,通过多轮对齐来进行监督微调、拒绝采样和直接偏好优化。研究人员使用 Llama 3.1 模型生成合成数据,对域内图像的问题和答案进行过滤和增强,并使用奖励模型对所有候选答案进行排序,从而确保高质量的微调数据。
此外,研究人员还引入了安全缓解数据,以打造一个兼具高度安全性和实用性的模型。最终,能够同时理解图像和文本的 Llama 3.2 模型诞生,标志着 Llama 模型在通向更丰富代理能力的道路上又迈出了重要的一步。
本地部署模型及时且安全
研究人员指出本地运行 Llama 3.2 模型有两大优势。首先,在响应速度上,由于处理全部在本地完成,提示和响应的速度可以达到接近即时的效果。
其次,在隐私安全上,本地运行模型无需将消息和日历等数据发送到云端,保障了用户隐私,使应用程序更加私密。通过本地处理,应用程序可以明确控制哪些查询留在设备上,哪些查询需要交由云端更大的模型来处理。
坚守开源初心,模型部署更加简化和高效
Meta 始终坚守开源初心,为了大幅简化开发者在不同环境(包括单节点、内部部署、云端和设备)中使用 Llama 模型的流程,实现检索增强生成 (RAG) 和工具支持型应用的一键部署,并集成安全功能,Meta 宣布将分享首批官方 Llama Stack 发行版。
据官方介绍,Llama 3.2 模型将在 llama.com 和 Hugging Face 上提供下载,并将在包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake 等在内的合作伙伴平台上提供即时开发支持。
作为一贯的开源倡导者,扎克伯格曾在与黄仁勋的对谈中介绍道,「Meta 从开源生态中获益,已节省数十亿美元」。而 Llama 无疑是其打造开源生态的重要触手,Llama 3.2 进一步向视觉任务拓展,实现多模态,也势必将为其开源生态再添助益。
相关文章:

Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱
如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban Meta 就突破百万销量,不仅让马…...

软考高级:SOA 和微服务 AI 解读
概念讲解 SOA(面向服务架构)和微服务虽然都是服务架构的设计模式,但它们的侧重点和实现方式有很大区别。为了帮助你理解这两个概念,我们可以从生活中的例子、概念本身的讲解以及记忆方法三方面入手。 生活化例子 **SOA…...

【每天学个新注解】Day 6 Lombok注解简解(五)—@SneakyThrows
SneakyThrows 简化异常处理 并不建议日常开发中通过此注解解决异常捕获问题!!! 允许方法抛出检查型异常而无需显式声明或捕获这些异常。这对于那些不希望在方法签名中声明异常或不愿意编写复杂的 try-catch 块的场景非常有用。 使用 SneakyT…...

C语言 | Leetcode C语言题解之第437题路径总和III
题目: 题解: /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ //递归遍历树节点,判断是否为有效路径 int dfs(struct TreeNode * root, int ta…...

Linux-TCP重传
问题描述: 应用系统进行切换,包含业务流量切换(即TongWeb主备切换)和MYSQL数据库主备切换。首先进行流量切换,然后进行数据库主备切换。切换后发现备机TongWeb上有两批次慢请求,第一批慢请求响应时间在133…...

Python通过Sqlalchemy框架实现增删改查
目录 简介 什么是SQLAlchemy? SQLAlchemy可以分为两个部分:Core和ORM。 一、首先安装sqlalchemy 二、在配置文件中添加数据库连接信息,我这里是Mysql 三、 创建数据库连接类,我这里是动态读取数据库的表字段,自动…...

windows C++ - 任务计划程序(并发运行时)
如果希望微调并发运行时的现有代码的性能,则任务计划程序会很有用。 无法从通用 Windows 平台 (UWP) 应用获取任务计划程序。 在 Visual Studio 2015 及更高版本中,concurrency::task 类和 ppltasks.h 中的相关类型使用 Windows 线程池作为其计划程序。…...
多米诺骨牌(模拟)
初始化数据结构: 使用一个布尔数组 arr 来表示每个位置是否被占用。初始时所有位置均为 false(未占用)。使用一个 LinkedHashMap(命名为 queue)来记录最近的 R 操作的位置。这个结构可以保持插入顺序,方便后…...
Unity DOTS系列之Struct Change核心机制分析
最近DOTS发布了正式的版本, 我们来分享一下DOTS里面Struct Change机制,方便大家上手学习掌握Unity DOTS开发。 基于ArchType与Chunk的Entity管理机制 我们回顾以下ECS的内存管理核心机制,基于ArchTypeChunk的Entity管理模式。每个Entity不直接存放数据,…...
「数组」定长滑动窗口|不定长滑动窗口 / LeetCode 2461|2958(C++)
目录 概述 1.定长滑动窗口 思路 复杂度 Code 2.不定长滑动窗口 思路 复杂度 Code 总结 概述 在双指针合集中,我们介绍了双指针算法: 「数组」数组双指针算法合集:二路合并|逆向合并|快慢去重|对撞指针 / LeetCode 88|26|11&#…...

【华为】用策略路由解决双出口运营商问题
需求描述 不同网段访问互联网资源时,走不同的出口,即PC1走电信出口,PC2走移动出口。 客户在内网接口下应用策略路由后往往出现无法访问内网管理地址的现象,该举例给出解决办法。 拓扑图 基础配置 #sysname R1 # # interface G…...

第L2周:机器学习|线性回归模型 LinearRegression:1. 简单线性回归模型
本文为🔗365天深度学习训练营 中的学习记录博客原作者:K同学啊 任务: ●1. 通过本文学习LinearRegression简单线形回归模型。 ●2. 模仿本文代码,通过鸢尾花花瓣长度预测花瓣宽度。 一、概念 什么是回归 回归的目的是为了预测&…...

1.5 测试用例
欢迎大家订阅【软件测试】 专栏,开启你的软件测试学习之旅! 文章目录 前言1 测试用例介绍2 测试用例编写3 案例分析 前言 测试用例的设计和编制是软件活动中最重要的工作。本文详细讲解了测试用例的基本概念以及如何编写测试用例。 本篇文章参考黑马程序…...
P1101 单词方阵
1. 题目链接P1101 单词方阵 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) #include <bits/stdc.h> using namespace std; #define endl \n #define int long long int int xx[] {1,1,1,0,0,-1,-1,-1}; int yy[] {1,0,-1,1,-1,1,0,-1}; int vis[110][110]; char a[11…...

通过 OBD Demo 体验 OceanBase 4.3 社区版
本文作者:马顺华 引言 OceanBase 4.3 是一个专为实时分析 AP 业务设计的重大更新版本。它基于LSM-Tree架构,引入了列存引擎,实现了行存与列存数据存储的无缝整合。这一版本不仅显著提升了AP场景的查询性能,同时也确保了TP业务场景…...

浅拷贝和深拷贝(Java 与 JavaScript)
一、Java 浅拷贝和深拷贝 在Java中,浅拷贝和深拷贝的主要区别在于对对象的引用和内容的复制方式。 浅拷贝 Java 的类型有基本数据类型和引用类型,基本数据类型是可以由 CPU 直接操作的类型,无论是深拷贝还是浅拷贝,都是会复制出…...
力扣每日一题 2306.公司命名
做题过程中使用到的java语法: 1.从一个字符串中取出一部分字符串: String str "Hello, World!"; String part str.substring(7); // 从索引7开始到字符串末尾 System.out.println(part); // 输出: World! class Solution { public lo…...

HTML-DOM模型
1.DOM模型 window对象下的document对象就是DOM模型。 DOM描绘了一个层次化的节点树,每一个节点就是一个html标签,而且每一个节点也是一个DOM对象。 2.操作DOM 2.1.获取DOM对象常用方法 获取DOM对象的常用方法有如下几种: getElementById(…...
vue项目报错: At least one is required in a single file component.的主要原因及解决办法
本篇文章主要讲解 vue项目报错: At least one is required in a single file component.的主要原因及解决办法 作者:任聪聪 日期:2024年9月25日 报文信息: Compiled with problems: ERROR in ./src/xxxx.vue Module Error (from …...

03DSP学习-利用syscfg配置IO
上一篇博客介绍了syscfg,对syscfg有了初步的了解,但是在真正使用上它之前,还不能理解他是一个神器。 (在写博客的时候,我是在从头到尾重新完成这个步骤,希望对初学者有点帮助) 找到Board Component 打开syscfg文件&…...

C++_核心编程_多态案例二-制作饮品
#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为:煮水 - 冲泡 - 倒入杯中 - 加入辅料 利用多态技术实现本案例,提供抽象制作饮品基类,提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...
rknn优化教程(二)
文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...

遍历 Map 类型集合的方法汇总
1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

PPT|230页| 制造集团企业供应链端到端的数字化解决方案:从需求到结算的全链路业务闭环构建
制造业采购供应链管理是企业运营的核心环节,供应链协同管理在供应链上下游企业之间建立紧密的合作关系,通过信息共享、资源整合、业务协同等方式,实现供应链的全面管理和优化,提高供应链的效率和透明度,降低供应链的成…...
java 实现excel文件转pdf | 无水印 | 无限制
文章目录 目录 文章目录 前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解 二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件 总结 前言 java处理excel转pdf一直没找到什么好用的免费jar包工具,自己手写的难度,恐怕高级程序员花费一年的事件,也…...

React19源码系列之 事件插件系统
事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

Keil 中设置 STM32 Flash 和 RAM 地址详解
文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...