当前位置：首页 > news >正文

Llama 3.2 视觉能力评估

news 2025/7/8 9:30:33

Meta 发布了 Llama 3 模型的新版本；这次，有四种模型用于不同的目的：两个多模态模型，Llama 3.2 11B 和 90B，以及两个用于边缘设备的小型语言模型，1B 和 3B。

这些是 Meta AI 的首批多模态模型，基准测试表明它们是小型和中型专有替代品的强大竞争对手。我不太喜欢 LLM 基准测试；它们往往具有误导性，可能无法代表现实世界的表现。但是，你可以在官方博客文章中查看结果。

我想在我每天经常遇到的最常见的视觉任务上测试该模型，并将其性能与我的首选 GPT-4o 进行比较。

我关注的任务包括：

基本图像理解
医疗处方和报告分析
从图像中提取文本
财务图表解释

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、一般图像理解

本节包含一般图像理解、计数和识别对象等的示例。

1.1 Frieren的吃汉堡的图像

因此，我从 Frieren 吃汉堡的著名图像开始。以下是 GPT-4o（左）和 Llama3.2（右）的回应。

两个回应都同样好，但 GPT4o 可以正确显示麦当劳的标志。

1.2 统计物体的数量

接下来，让我们看看它是否能正确计算图像中的物体数量。让我们从一个简单的图像开始。

两个模型都能够正确回答。

现在，让我们让它变得有点困难。

我要求两个模型计算图像中的叉子数量。

令人惊讶的是，Llama 3.2 可以正确回答，而 GPT4o 忽略了桌子上没有立即可见的叉子。

接下来，我让他们数一数杯子的数量并解释它们的形状。

两者都给出了正确的数字。Gpt4o 的描述要好得多，眼镜的形状得到了正确的解释。另一方面，Llama 3.2 的描述部分正确。

视觉语言模型的一个广泛用例是识别任何架子工具并要求它解释其功能。

所以，我要求模型识别——这个实用工具。

两者都做得很好，但 Gpt-4o 更详细、信息量更大。

1.3 叶病诊断

让我们更进一步，让模型从照片中识别植物疾病。我有一个小种植园，经常使用 GPT-4o 来识别植物疾病。

因此，我提取了一张图片并让模型识别植物疾病。

这次 GPT4o 也正确无误。它正确地将植物的疾病识别为霜霉病，而 Llama 3.2 错误地识别为萎黄病。

我再次尝试了它们，两个模型都正确地识别出了疾病。

2、理解处方和医疗报告

我无法强调我有多少次需要帮助才能理解医疗处方。我很确定很多人可能都是这种情况。

所以，我让模型解读这个处方。

GPT 4o 在这里表现更好；它理解了病人的姓名和处方药。Llama 3.2 一点也不费力。

现在让我们在医疗报告上测试它们。这是甲状腺测试的测试报告。

这令人惊讶；即使提到了标准的 TH 水平，GPT-4o 仍然说这是甲状腺功能减退症。另一方面，Llama 3.2 vision是正确的。所以，不要盲目相信 ChatGPT 的医疗建议，

我还要求两个模型理解 X 射线报告。

两者都是正确的。不过，GPT4o 的回应很详细，而 Llama 3.2 vision则直接简洁。

图像理解总结：Llama 3.2 vision无疑是开源社区的福音，它可以完成很多视觉任务，性能接近 GPT-4o，考虑到性价比，这是一个不错的选择。

3、文本提取

从图像中提取重要文本是视觉语言模型的另一个有价值的用例。

以下是我测试图像到文本提取可以受益的模型的几个案例。

3.1 发票处理

从发票中提取实际细节通常很有用。因此，我为这两个模型提供了最近购买的冰箱的发票。

可能存在比通过提示提取文本更好的方法。你可能需要使用 Instructor 等外部工具。无论如何，我想测试这些模型的原始输出，两者似乎都时好时坏。有时，它们做得很好，有时，它们做得很糟糕。

3.2 表格提取

让我们从 JSON 格式的表格图像中提取数据。我为这两个模型提供了随机表格数据，并要求它们以 JSON 格式提取数据。

从我的测试来看，GPT-4o 的表现优于 Llama-3.2。GPT-4o 的提示遵循性比 Meta 的 Llama-3.2 好得多。

文本提取总结：Llama 3.2 是一个强大的模型；但是，如前所述，GPT-4o 更好地遵循提示。因此，使用 GPT-4o 更容易提取所需数据。

4、财务图表分析

现在让我们使用财务图表分析来测试这些模型。由于我不是财务分析师，我将判断哪种解释更好。

我给出了 Reliance Industries 的一个月走势线图。

下面是两个模型的输出：

我不会说这些响应是准确的，但 GPT4o 的解释似乎要好得多——Llama 3.2 似乎产生了很大的幻觉。

财务图表分析总结：GPT-4o 仍然更适合复杂的图表和分析。 Llama 3.2 比 GPT4o 产生更多的幻觉，并且会自行编造东西。

5、最终裁决

以下是我对新 Meta 的 Llama 3.2 视觉模型的看法。

这是第一个原生开源多模态模型，是未来的一个好兆头。多模态 405B 一定是有可能的。

何时使用 Llama 3.2 Vision？

该模型在理解和分析一般图像方面非常出色。考虑到成本和隐私优势，在不需要复杂分析或深度知识的任务中使用它很有意义。

原文链接：Llama 3.2 视觉能力评估 - BimAnt

Llama 3.2 视觉能力评估

Meta 发布了 Llama 3 模型的新版本；这次，有四种模型用于不同的目的：两个多模态模型，Llama 3.2 11B 和 90B，以及两个用于边缘设备的小型语言模型，1B 和 3B。这些是 Meta AI 的首批多模态模型，基…...

编程日记 2024/10/6 8:40:09

前端性能优化面试如何完美回答

前言性能优化是目前在面试中被问到非常多的问题，主要就是通过各种算和技术来提高页和应用的速度和用户体前端性能优化的问题并不好回答在回答的时候干万不要掉进一个误区，认为性能优化只是几个技术点而已，事实上性能优化涉及到的是多方面的…...

编程日记 2024/10/6 8:39:08

程序猿成长之路之设计模式篇——设计模式简介

无论是对于代码质量还是代码可维护性、可扩展性，使用合适的设计模式都能够起到促进提升的作用，此外在软考的软件工程师、系统架构师职称考试中，设计模式也是必考的一块内容，因此我打算开拓一个新的专栏简单介绍一下设计模式&#…...

编程日记 2024/10/6 8:37:06

基于Node2Vec的图嵌入实现过程

目录一、引言二、Node2Vec（原理）2.1 随机游走（Random Walk）2.2 嵌入学习2.3 Node2Vec 的优势三、使用 Node2Vec 进行图嵌入（实践）3.1 读取和转换 JSON 文件为 Graph 对象3.2 训练 Node2Vec 模型3.3 二维嵌…...

编程日记 2024/10/6 8:36:04

如何在 Python 3 中制作一个计算器程序

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。简介 Python 编程语言是处理数字和求解数学表达式的强大工具。这种特性可以用来制作有用的程序。本教程介绍了如何在 Python 3 中制作…...

编程日记 2024/10/6 8:33:02

搭建shopify本地开发环境

虽然shopify提供了在线编辑器的功能，但是远不及本地编辑器方便高效，这篇文章主要介绍如何在本地搭建shopify开发环境： 1、安装nodejs 18.2 2、安装git 3、安装shopify cli ,使用指令: npm install -g shopify/clilatest 4、安装ruby 5、…...

编程日记 2024/10/6 8:32:00

【在Linux世界中追寻伟大的One Piece】进程信号

目录 1 -> 信号入门 1.1 -> 生活角度的信号 1.2 -> 技术应用角度的信号 1.3 -> 注意 2 -> 信号的概念 2.1 -> 用kill -l命令可以查看系统定义的信号列表 2.2 -> 信号处理常见方式 3 -> 产生信号 3.1 -> Core Dump 3.2 -> 调用系统函数…...

编程日记 2024/10/6 8:26:55

MySQL中NULL值是否会影响索引的使用

MySQL中NULL值是否会影响索引的使用为何写这一篇文章 🐭🐭在面试的时候被问到NULL值是否会走索引的时候，感到有点不理解，于是事后就有了这篇文章问题： 为name建立索引，name可以为空select * from user …...

编程日记 2024/10/6 8:24:53

Chrome 浏览器：现代网络浏览的先锋

Chrome 浏览器：现代网络浏览的先锋 Chrome 浏览器，由谷歌公司开发的一款快速、简单且安全的网络浏览器，自2008年发布以来，已经成为全球最受欢迎的浏览器之一。本文将深入探讨 Chrome 浏览器的特点、功能、发展历程以及其对现代网…...

编程日记 2024/10/6 8:22:51

蓝牙定位的MATLAB仿真程序（基于信号强度，平面内的定位，四个蓝牙基站）

这段代码通过RSSI信号强度实现了蓝牙定位，展示了如何使用锚点位置和测量的信号强度来估计未知点的位置。它涵盖了信号衰减模型、距离计算和最小二乘法估计等基本概念。通过图形化输出，用户可以直观地看到真实位置与估计位置的关系。文章目录蓝牙定位原理蓝牙定位的原理优缺…...

编程日记 2024/10/6 8:20:49

解决docker一直出现“=＞ ERROR [internal] load metadata for docker.io/library/xxx“的问题

docker拉取镜像时报错，除标题外，还报如下信息此时想到是不是拉取超时呢，然后配置了一下docker拉取镜像源 vm /etc/docker/daemon.json { "registry-mirrors": ["https://jq794zz5.mirror.aliyuncs.com"] } # 重新加载配…...

编程日记 2024/10/6 8:17:46

Django学习笔记五：templates使用详解

Django的模板系统是一个强大的工具，用于将动态数据渲染到HTML页面中。以下是Django模板系统的详细用法： 模板的基本概念 Django模板使用一个特殊的语法来插入变量、标签和过滤器。创建模板创建模板目录：在你的Django应用中创建一个名为…...

编程日记 2024/10/6 8:16:45

PriorityQueue分析

概述 PriorityQueue，优先级队列，一种特殊的队列，作用是能保证每次取出的元素都是队列中权值最小的（Java的优先队列每次取最小元素，C的优先队列每次取最大元素）。元素大小的评判可以通过元素本身的自然顺序…...

编程日记 2024/10/6 8:14:43

Hive数仓操作（六）

一、 Hive 分区表 Hive 的分区表通过在 HDFS 中以不同的目录存储不同的分区数据，来提高查询性能并减少数据扫描量。分区表可以根据特定的列（如性别列的男/女）将数据划分为多个部分，使得查询时只需要扫描相关的分区，…...

编程日记 2024/10/6 8:12:41

centos7安装配置python3环境

1、wget https://www.python.org/ftp/python/3.11.2/Python-3.11.2.tgz 2、安装python依赖环境切换到root用户，然后执行下面命令： 3、安装gcc，用于后续安装Python时编译源码： yum install gcc -y 4、安装Python3相关依赖&#…...

编程日记 2024/10/6 8:09:38

用 LoRA 微调 Stable Diffusion：拆开炼丹炉，动手实现你的第一次 AI 绘画

总得拆开炼丹炉看看是什么样的。这篇文章将带你从代码层面一步步实现 AI 文本生成图像（Text-to-Image）中的 LoRA 微调过程，你将： 了解 Trigger Words（触发词）到底是什么，以及它们如何影响生成结…...

编程日记 2024/10/6 8:04:33

手机实时提取SIM卡打电话的信令声音-(题外、插播一条广告)

手机实时提取SIM卡打电话的信令声音-(题外、插播一条广告) 前言在去年的差不多这个时候，我们做了一遍外置配件的选型，筛选过滤了一批USB蓝牙配件和type-c转usb的模块。详情可参考《外置配件的电商价格和下载链接的选型.docx》一文：蓝牙电话…...

编程日记 2024/10/6 8:03:31

Linux基于CentOS学习【进程状态】【进程优先级】【调度与切换】【进程挂起】【进程饥饿】

目录进程状态状态决定了什么进程等待方式——队列进程状态的表现挂起状态基于阻塞的挂起——阻塞挂起 swap分区进程状态表示 Z僵尸状态进程的优先级什么是进程的优先级为什么会有进程的优先级进程饥饿 Linux的调度与切换切换调度 queue [ 140 ]&am…...

编程日记 2024/10/6 8:02:30

Golang | Leetcode Golang题解之第456题132模式

题目： 题解： func find132pattern(nums []int) bool {candidateI, candidateJ : []int{-nums[0]}, []int{-nums[0]}for _, v : range nums[1:] {idxI : sort.SearchInts(candidateI, 1-v)idxJ : sort.SearchInts(candidateJ, -v)if idxI < idxJ {ret…...

编程日记 2024/10/6 8:00:28

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2025/7/7 7:23:17

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2025/7/5 20:43:18

Xshell远程连接Kali（默认 | 私钥）Note版

前言:xshell远程连接，私钥连接和常规默认连接任务一开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务任务二修改配置文件 vi /etc/ssh/ssh_config //第一…...

编程新知 2025/7/8 0:34:21

Java 8 Stream API 入门到实践详解

一、告别 for 循环！ 传统痛点： Java 8 之前，集合操作离不开冗长的 for 循环和匿名类。例如，过滤列表中的偶数： List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

编程新知 2025/7/7 9:09:17

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/7/7 10:49:48

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2025/7/3 13:21:09

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2025/7/6 23:48:10

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客设置模块都是做好的，比GNOME简单得多！ 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

编程新知 2025/7/8 8:24:44

区块链技术概述

区块链技术是一种去中心化、分布式账本技术，通过密码学、共识机制和智能合约等核心组件，实现数据不可篡改、透明可追溯的系统。一、核心技术 1. 去中心化特点：数据存储在网络中的多个节点（计算机），而非…...

编程新知 2025/7/8 3:17:13

【WebSocket】SpringBoot项目中使用WebSocket

1. 导入坐标如果springboot父工程没有加入websocket的起步依赖，添加它的坐标的时候需要带上版本号。 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId> </dep…...

编程新知 2025/6/16 21:18:44