当前位置: 首页 > news >正文

激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

在这里插入图片描述

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身的硬实力。

在这里插入图片描述

  1. 专栏订阅:项目大全提升自身的硬实力

  2. [专栏详细介绍:项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域)

激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

  • CogVLM 是一个强大的开源视觉语言模型(VLM)。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。

  • CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面则排名第二,超越或与 PaLI-X 55B 持平。您可以通过线上 demo 体验 CogVLM 多模态对话。

1.demo案例展示

  • CogVLM 能够准确地描述图像,几乎不会出现幻觉
    LLAVA-1.5 和 MiniGPT-4 的比较。

  • CogVLM 能理解和回答各种类型的问题,并有一个视觉定位版本。

  • CogVLM 有时比 GPT-4V(ision) 提取到更多的细节信息。

2.快速使用

CogVLM 模型包括四个基本组件:视觉变换器(ViT)编码器、MLP适配器、预训练的大型语言模型(GPT)和一个视觉专家模块。更多细节请参见论文。

2.1入门指南

我们提供两种图形用户界面(GUI)进行模型推断,分别是网页演示命令行界面(CLI)。如果您想在Python代码中使用它,很容易修改CLI脚本以适应您的情况。

首先,需要安装依赖项。

pip install -r requirements.txt
python -m spacy download en_core_web_sm
  • 硬件要求
    • 模型推断:1 * A100(80G) 或 2 * RTX 3090(24G)。
    • 微调:4 * A100(80G) [推荐] 或 8 * RTX 3090(24G)。

2.2 网页演示

我们还提供基于Gradio的本地网页演示。首先,通过运行 pip install gradio 安装Gradio。然后下载并进入此仓库,运行 web_demo.py。具体使用方式如下:

python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python web_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

网页演示的 GUI 界面如下:

2.3 CLI

我们开源了不同下游任务的模型权重:

  • cogvlm-chat 用于对齐的模型,在此之后支持像 GPT-4V 一样的聊天。
  • cogvlm-base-224 文本-图像预训练后的原始权重。
  • cogvlm-base-490 从 cogvlm-base-224 微调得到的 490px 分辨率版本。
  • cogvlm-grounding-generalist 这个权重支持不同的视觉定位任务,例如 REC、Grounding Captioning 等。

通过CLI演示,执行以下命令:

python cli_demo.py --from_pretrained cogvlm-base-224 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-base-490 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python cli_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

该程序会自动下载 sat 模型并在命令行中进行交互。您可以通过输入指令并按 Enter 生成回复。
输入 clear 可清除对话历史,输入 stop 可停止程序。

  • 参考链接

https://github.com/THUDM/CogVLM/tree/main

在 CogVLM 的指令微调阶段,使用了来自 MiniGPT-4 、 LLAVA 、 LRV-Instruction、 LLaVAR 和 Shikra 项目的一些英文图像-文本数据,

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

相关文章:

激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实…...

centos 6.10 安装 perl 5.14

下载安装包 运行下面命令: wget http://www.cpan.org/src/5.0/perl-5.14.2.tar.gz也可以直接下载好安装包,再拷到虚拟机 安装 执行下面命令 tar -xvzf perl-5.14.2.tar.gz #解压安装包 cd perl-5.14.2 ./Configure -des -Dprefix/usr/local/perl ma…...

Elasticsearch:FMA 风格的向量相似度计算

作者:Chris Hegarty 在 Lucene 9.7.0 中,我们添加了利用 SIMD 指令执行向量相似性计算的数据并行化的支持。 现在,我们通过使用融合乘加 (Fused Mulitply-Add - FMA) 进一步推动这一点。 什么是 FMA 乘法和加法是一种常见的运算,…...

思维模型 等待效应

本系列文章 主要是 分享 思维模型 ,涉及各个领域,重在提升认知。越是等待,越是焦虑。 1 等待效应的应用 1.1 等待效应在管理中的应用 西南航空公司是一家美国的航空公司,它在管理中运用了等待效应。西南航空公司鼓励员工在工作中…...

Linux下使用宏定义判断系统架构和系统类型

文章目录 查看编译器当前支持的宏定义查找指定的宏不同架构不同系统 附录-编译器内部常用的一些宏定义宏定义实际应用使用宏定义判断系统架构使用宏定义判断系统类型 一般情况下在linux下做C/C方面的开发不需要太关注系统架构,当然如果涉及到不同架构下的适配问题&a…...

Python---把函数的返回值作为另外一个函数的参数

def test1():return 50def test2(num):print(num)# 1. 保存函数test1的返回值 result test1()# 2.将函数返回值所在变量作为参数传递到test2函数 test2(result) # 50...

231123 刷题日报-动态规划

今天主要看了DP,前几天频繁遇到DP打击有点大。。 1. 0-1背包问题 要点: a. 三部曲: 1. 状态和选择 状态:物品序号、背包容量 选择:放、不放 2. dp数组定义、base case dp[i][w] 对于前i个物品,当前背包…...

微信小程序前端环境搭建

搭建微信小程序前端环境 申请小程序测试账号 访问路径 使用微信扫描二维码进行申请,申请成功之后,进入界面,获取小程序ID(AppID)和秘钥(AppSecret) 安装微信web开发者工具 访问路径 选择稳定开发的版本 需要在小程序的设置中将默认关闭…...

【Qt一坑】qt编译出现“常量中有换行符”

在qt编译过程中出现“常量中有换行符”,原因有以下几点(qt版本5.14.2): 1.中文编码格式问题,将UTF-8编码格式改成 UTF-8 BOM。 或者使用QtCreator 进行如下设置(找到Qt的左边列表里的项目,下的…...

C++每日选择题—Day1

第一题 以下C代码会输出什么? #include <iostream> using namespace std; class A { public:A() {}~A() {} private:static int a; }; int main() {cout << sizeof(A) << endl;return 0; } A&#xff1a;0 B&#xff1a;1 C&#xff1a;4 D&#xff1a;8 答…...

【实用】mysql配置 及将线上数据导入本地 问题解决及记录

[ERR] 1292 - Incorrect datetime value: ‘0000-00-0000:00:00‘ for column ‘BIRTH_DATE‘ at row 1 此问题是mysql当前配置不支持日期为空&#xff0c;或者为‘0000-00-0000:00:00‘得情况 1、直接在数据库执行 # 修改全局 set global.sql_mode ONLY_FULL_GROUP_BY,STR…...

如何下载OpenJDK及其源码

如果想下载 OpenJDK&#xff0c;存在以下几种办法&#xff1a; 最简单的办法是去 OpenJDK 官网&#xff0c;这里能下载 JDK9 及其以上的版本&#xff0c;还有 JDK 源码所在的 github 地址。 第二种方法是使用 IDEA 下载&#xff0c;位置在 File->Project Structure->SD…...

[Android]使用Retrofit进行网络请求

以下是使用 Retrofit 发送 POST 请求获取分页城市列表的 Kotlin 代码示例 1.在你的 build.gradle 文件中添加 Retrofit 和 Gson 的依赖 dependencies {......implementation("com.squareup.retrofit2:retrofit:2.9.0")implementation("com.squareup.retrofit2…...

OpenGL 绘制圆形平面(Qt)

文章目录 一、简介二、代码实现三、实现效果一、简介 这里使用一种简单的思路来生成一个圆形平面: 首先,我们需要生成一个单位圆,半径为1,法向量为(0, 0, 1),这一步我们可以使用一些函数生成圆形点集。之后,指定面片的索引生成一个圆形平面。当然这里为了后续管理起来方便…...

JAVA系列---Servlet详解

目录 背景为何会出现ServletWeb开发的本质 ServletsCGIFastCGIWSGIServlet总结 wsgi与servlet出现时间社区特点对web开发的影响 servlet详解特性主要工作执行逻辑 应用Tomcat背景embedded tomcat本质 背景 为何会出现Servlet Servlet是Server Applet 的缩写&#xff0c;译为“…...

机器人制作开源方案 | 钻孔植树一体化沙漠车

作者&#xff1a;徐邦国、张博宇、刘露、李晶晶、吕洁秀单位&#xff1a;天津职业技术师范大学 机械工程学院指导老师&#xff1a;何永利 摘要&#xff1a;本项目旨在设计一种专用于沙漠植树的植树车&#xff0c;以沙漠自动化植树为研究对象&#xff0c;提出一种创新式钻…...

OmniGraffle

安装 在mac上安装OmniGraffle&#xff0c;找一个正版或者啥的都行&#xff0c;安装好后&#xff0c;可以直接在网上找一个激活码&#xff0c;然后找到软件的许可证&#xff0c;进行添加即可。 使用 新建空白页 然后图形啥的看一眼工具栏就知道了&#xff0c;颜色形状还是挺…...

【C++上层应用】4. 多线程

文章目录 【 1. 创建线程 】【 2. 终止线程 】【 3. 实例 】【 4. 向线程传递参数 】【 5. 连接和分离线程 】 多线程 是多任务处理的一种特殊形式&#xff0c;多任务处理允许让电脑同时运行两个或两个以上的程序。一般情况下&#xff0c;两种类型的多任务处理&#xff1a;基于…...

【uni-app】uniapp中弹出输入框的示例

uni.showModal({title: 请输入企业名称,content: ,editable: true, //是否显示输入框placeholderText: 请输入企业名称, //输入框提示内容confirmText: 确认,cancelText: 取消,success: (res) > {if (res.confirm) {this.checkDesc.name res.content;// console.log(输入的…...

通过bat脚本控制Oracle服务启动停止

1、将Oracle服务全部设置为手动启动 初始安装Oracle之后服务启动状态&#xff1a; 2、服务功能介绍 3、构建服务启动/停止bat脚本 注意&#xff1a;编码选择ANSI(如果编码不是ANSI运行脚本会显示乱码) echo off :main cls echo 注&#xff1a;请保证该脚本是使用管理员权限…...

告别CentOS 7默认gcc 4.8.5:保姆级源码编译升级gcc 5.2.0全记录(含依赖下载避坑指南)

告别CentOS 7默认gcc 4.8.5&#xff1a;保姆级源码编译升级gcc 5.2.0全记录&#xff08;含依赖下载避坑指南&#xff09; 在CentOS 7的生产环境中&#xff0c;默认安装的gcc 4.8.5版本已经无法满足现代C开发的需求。许多新特性如C14标准支持、更好的优化能力等&#xff0c;都需…...

【网络协议-02】一文读懂HTTPS:守护网络安全的“加密卫士”

在如今的互联网世界&#xff0c;当我们打开浏览器访问网站时&#xff0c;地址栏前的“小锁”图标早已不再陌生。这个看似不起眼的标志&#xff0c;背后藏着网络安全的核心保障——HTTPS协议。从网上银行转账、电商平台购物&#xff0c;到社交账号登录、个人信息提交&#xff0c…...

终极实战指南:iOS 15-16设备激活锁离线绕过完整解决方案

终极实战指南&#xff1a;iOS 15-16设备激活锁离线绕过完整解决方案 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 面对二手iPhone的激活锁界面&#xff0c;或是因忘记Apple ID密码而无法使用的iOS设…...

小红书无水印下载终极指南:XHS-Downloader技术解析与实战应用

小红书无水印下载终极指南&#xff1a;XHS-Downloader技术解析与实战应用 【免费下载链接】XHS-Downloader 小红书&#xff08;XiaoHongShu、RedNote&#xff09;链接提取/作品采集工具&#xff1a;提取账号发布、收藏、点赞、专辑作品链接&#xff1b;提取搜索结果作品、用户链…...

Monolito-V2:AI工作流编排框架,从模块化设计到生产实践

1. 项目概述与核心价值最近在折腾一个挺有意思的开源项目&#xff0c;叫 Monolito-V2。这名字听起来有点抽象&#xff0c;但说白了&#xff0c;它就是一个帮你把各种不同的 AI 模型、工具和数据处理流程&#xff0c;像搭积木一样组合成一个统一工作流的框架。你可以把它想象成一…...

扩散模型强化引导优化框架解析与应用

1. 扩散模型基础与强化引导优化框架扩散模型的核心思想是通过逐步加噪和去噪的过程实现数据生成。这一过程可以形式化为随机微分方程(SDE)的求解问题。正向扩散过程将数据x₀逐渐扰动为高斯噪声&#xff0c;而反向生成过程则通过学习得分函数(score function)实现从噪声到数据的…...

PPO算法原理与Docker构建优化实践

1. PPO算法核心原理剖析PPO&#xff08;Proximal Policy Optimization&#xff09;作为当前强化学习领域最主流的策略优化算法之一&#xff0c;其核心创新在于通过剪切机制实现了策略更新的稳定性。要真正理解PPO的数学本质&#xff0c;我们需要从策略梯度定理的基础开始拆解。…...

JDK17-21特性Pattern-Matching详解

Pattern Matching 详解 一、知识概述 Pattern Matching(模式匹配)是 Java 引入的一系列语言特性,用于简化类型检查和数据提取。从 Java 16 开始逐步引入,到 Java 21 已成为成熟的特性。 1.1 演进历程 版本 特性 Java 16 instanceof 模式匹配(正式版) Java 17 Switch 模…...

AIGC率突然飙升怎么救:嘎嘎降AI实测降幅60%+全程2026

AIGC率突然飙升怎么救&#xff1a;嘎嘎降AI实测降幅60%全程2026 答辩前一周&#xff0c;把上周还显示 28% 的稿子重新跑了一遍知网 AIGC&#xff0c;结果跳到了 71.3%。同款情况维普也出现&#xff0c;从 33% 涨到 68%。截止日就在眼前&#xff0c;不能慢慢摸索&#xff0c;需要…...

10年运维总监深度拆解:成本优化与资源管理,如何在“稳”与“省”之间找到最佳平衡点?

一句话核心价值&#xff1a;本文帮你建立一套可量化、可落地的“稳中有省”运维决策框架&#xff0c;让你在2026年IT预算持续承压的背景下&#xff0c;既能守住系统生命线&#xff0c;又能把每一分钱花在刀刃上。一、你在追求“省”的时候&#xff0c;到底在冒多大的“不稳”风…...