当前位置：首页 > news >正文

论文阅读：Vary-toy论文阅读笔记

news 2026/2/9 0:16:34

引言

论文：Small Language Model Meets with Reinforced Vision Vocabulary

Paper | Github | Demo

说来也巧，之前在写论文阅读：Vary论文阅读笔记文章时，正好看到了Vary-toy刚刚发布。

这次，咱也是站在了时代的前沿，这不赶紧先睹为快。让我看看相比于Vary，Vary-toy做了哪些改进？

整体结构图

从整体结构来看，仍然沿用了Vary系列结构。先利用Vary-tiny + pipeline训练一个Vision vocabulary，之后在pre-train和SFT阶段将new vocabulary与CLIP的Vocabulary相结合，来训练Qwen-1.8B模型。

不同于Vary，用了Qwen-7B，这次用了Qwen-1.8B，模型更小，对于部署使用更加友好。

这次除了原有的PDF数据外，又增加了目标检测的数据集，让Vary-toy更加具有通用性。

方法介绍

作者在设计Vary-toy时，主要侧重解决以下两个问题：

如何基于Vary-tiny + pipeline产生一个更加practical vision vocabulary ？
如何在不损坏Qwen-1.8B模型特征前提下，利用new vision vocabulary来使Vary-toy-1.8B产生新的特征？

训练vision vocabulary阶段

出发点是：

vision vocabulary network是由SAM-base作为初始化模型训练而来的。这样做，可以获得SAM对文本的感知能力。但是也存在遗忘SAM中对自然物体目标的感知能力。
作者认为，只将密集文本的视觉知识写入80M的网络是浪费。

PDF数据

该部分与Vary中工作一致，看着量级更大了。最终准备了2M英文文档数据和2M的中文文档数据。PDF来源主要是arXiv、CC-MAIN-2021-31-PDF-UNTRUNCATED和e-books。示例数据如上图。

私以为该部分仍然有很大进步空间。如在提取PDF内容时，可以考虑到版面的因素，使得内容更加有语义。当然，这只是猜测，也许作者就是这么做的呢！

目标检测数据

为了充分利用来自SAM模型对自然图像的感知能力，作者引入了目标检测数据到训练vision vocabulary过程中。所用数据主要来自Object365和OpenImage。

因为部分图像中存在太多的物体，这会超出OPT-125M的token数量限制。因此作者做了两步处理：

如果图像中物体框数目<30个，则允许Vary-tiny + pipeline过程中的prompt为Detect all objects in this image
如果图像中物体框数目>30个，则更换prompt模板为：Detect class1, class2, … in this image.

最终，整理出来的目标价检测数据大约有3M条。

训练Vary-toy阶段

Vary-toy结构

Vary-toy主体结构与Vary相同，但是有些微小区别：

当输入图像( $H\times W$ )进入new vision vocabulary分支时，图像会被直resize到1024 x 1024，而送入CLIP分支时，则中心裁剪为224x224
直接将vision vocabulary分支和CLIP分支输出拼起来，正好是Qwen-1.8B的输入channel
相比于Vary，为了让变化小一些，作者仍然在vision vocabulary网络后添加了embedding layer

数据集情况

TODO

论文阅读：Vary-toy论文阅读笔记

目录引言整体结构图方法介绍训练vision vocabulary阶段PDF数据目标检测数据训练Vary-toy阶段Vary-toy结构数据集情况引言论文：Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧，之前在写论文阅读&…...

编程日记 2024/1/29 6:32:44

【Linux】开始使用 vim 吧！！！

Linux 1 what is vim ？2 vim基本概念3 vim的基本操作 ！3.1 vim的快捷方式3.1.1 复制与粘贴3.1.2 撤销与剪切3.1.3 字符操作 3.2 vim的光标操作3.3 vim的文件操作总结Thanks♪(･ω･)ﾉ感谢阅读下一篇文章见！…...

编程日记 2024/1/29 6:31:43

多线程面试合集

前言前文介绍了JVM相关知识，本文将重点介绍多线程相关知识以及工作中的一些经验。多线程面试合集什么是多线程？为什么我们需要多线程？ 多线程是指在一个进程中同时执行多个线程，每个线程可以执行不同的任务。多线程可以提高…...

编程日记 2024/1/29 6:28:41

从微服务到云原生

很多文章介绍云原生概念，说它包含微服务，又包含了其它几个方面的东西，还扯到文化层面、组织层面和技术层面，搞技术的人一听到公司文化问题和组织部门问题，就十分地晕眩，不能让我好好地坐下来写写代码、搞搞…...

编程日记 2024/1/29 6:25:38

bxCAN 主要特性

bxCAN 主要特性 ● 支持 2.0 A 及 2.0 B Active 版本 CAN 协议 ● 比特率高达 1 Mb/s ● 支持时间触发通信方案发送 ● 三个发送邮箱 ● 可配置的发送优先级 ● SOF 发送时间戳接收 ● 两个具有三级深度的接收 FIFO ● 可调整的筛选器组： — CAN1 和…...

编程日记 2024/1/29 6:23:37

武忠祥2025高等数学，基础阶段的百度网盘+视频及PDF

考研数学武忠祥基础主要学习以下几个方面的内容： 1.微积分:主要包括极限、连续、导数、积分等概念，以及它们的基本性质和运算方法。 2.线性代数:主要包括向量、向量空间、线性方程组、矩阵、行列式、特征值和特征向量等概念，以及它们的基本…...

编程日记 2024/1/29 6:21:35

用JavaFX写了一个简易的管理系统

文章目录前言正文一、最终效果1.1 主页面1.2 动物管理页面-初始化1.3 动物管理页面-修改&新增1.4 动物管理页面-删除&批量删除二、核心代码展示2.1 启动类2.2 数据库配置-db.setting2.3 日志文本域组件2.4 自定义表格视图组件2.5 自定义分页组件2.6 动物管理页面2.7 …...

编程日记 2024/1/29 6:20:34

第二百九十回

文章目录 1. 概念介绍2. 方法与细节2.1 实现方法2.2 具体细节 3. 示例代码4. 内容总结我们在上一章回中介绍了"如何混合选择多个图片和视频文件"相关的内容，本章回中将介绍如何通过相机获取视频文件.闲话休提，让我们一起Talk Flutter吧。 1. …...

编程日记 2024/1/29 6:19:33

bert实现完形填空简单案例

使用 bert 来实现一个完形填空的案例，使用预训练模型 bert-base-chinese ，这个模型下载到跟代码同目录下即可，下载可参考：bert预训练模型下载-CSDN博客通过这个案例来了解一下怎么使用预训练模型来完成下游任务，算是对…...

编程日记 2024/1/29 6:16:28

Jmeter 分布式测试

Jmeter单机进行压测，受到单台机器的性能影响，Jmeter支持分布式测试，用一个控制节点去控制多个工作节点去模拟更多的用户。版本信息内容版本号JDK1.8Jmeter5.6.2 分布式测试原理 jmeter 官网对分布式测试有说明，jmeter分布式…...

编程日记 2024/1/29 6:14:27

在 Ubuntu 上安装 Docker Engine

系列文章目录前言要在 Ubuntu 上开始使用 Docker Engine，请确保满足先决条件，然后按照安装步骤进行操作。一、先决条件注意事项如果您使用 ufw 或 firewalld 管理防火墙设置，请注意当您使用 Docker 暴露容器端口时，这些端口…...

编程日记 2024/1/29 6:11:24

Mac安装nvm,安装多个不同版本node，指定node版本

一.安装nvm brew install nvm二。配置文件 touch ~/.zshrc echo export NVM_DIR~/.nvm >> ~/.zshrc echo source $(brew --prefix nvm)/nvm.sh >> ~/.zshrc三.查看安装版本 nvm -vnvm常用命令如下：nvm ls ：列出所有已安装的 node 版本nvm…...

编程日记 2024/1/29 6:10:23

【开源】基于JAVA+Vue+SpringBoot的智慧家政系统

目录一、摘要1.1 项目介绍1.2 项目录屏二、功能模块三、系统展示四、核心代码4.1 查询家政服务4.2 新增单条服务订单4.3 新增留言反馈4.4 小程序登录4.5 小程序数据展示五、免责说明一、摘要 1.1 项目介绍基于微信小程序JAVAVueSpringBootMySQL的智慧家政系统&#xff0…...

编程日记 2024/1/29 6:09:22

Python NLP深度学习进阶：自然语言处理

自然语言处理（Natural Language Processing，NLP）是人工智能领域中的一个重要分支，涉及到处理和理解人类语言的方法和技术。随着深度学习的快速发展，NLP的研究和应用也在不断进步。在Python中，有许多强大的…...

编程日记 2024/1/29 6:07:20

STM32单片机基本原理与应用（三）

矩阵键盘工作原理矩阵键盘由多个独立按键组成，按键的一端接地，一端接MCU的GPIO。当按键没有被按下时，电路其实是一个断路，将单片机该引脚设置成输入上拉状态，读到的电平为高电平。当按下按键时，引脚会被拉…...

编程日记 2024/1/29 6:05:18

Android studio布局详解

文章目录一、Android studio布局详解二、Android studio六大布局案例三、优缺点四、热门文章一、Android studio布局详解 Android Studio是一种用于开发Android应用程序的集成开发环境（IDE）,用于设计和编辑Android应用程序的用户界面布局。在Android …...

编程日记 2024/1/29 6:04:17

第四篇：怎么写express的路由(接口+请求)

🎬 江城开朗的豌豆：个人主页 🔥 个人专栏 :《 VUE 》《 javaScript 》 📝 个人网站 :《江城开朗的豌豆🫛 》 ⛺️ 生活的理想，就是为了理想的生活 ! 目录 📘 引言： &#x1f4…...

编程日记 2024/1/29 6:03:16

算法学习记录：有关树的基础

前言： 算法学习记录不是算法介绍，本文记录的是从零开始的学习过程（见到的例题，代码的理解……），所有内容按学习顺序更新，而且不保证正确，如有错误，请帮助指出。学习工具…...

编程日记 2024/1/29 6:02:15

2. 《大数据之路：阿里巴巴大数据实践》学习笔记，持续更新ing

笔记链接(飞书)：https://t0s016els2a.feishu.cn/docx/JrNydGljUonH1ExcGCpcoC8unTb 密码：r661391 该书籍部分目录如下： 文章目录第1篇数据技术篇第2章日志采集2.1 浏览器的页面日志采集2.1.1 页面浏览日志采集流程2.1.2 页面交互日志采集…...

编程日记 2024/1/29 6:00:13

编程笔记 html5cssjs 062 JavaScrip如何使用

编程笔记 html5&css&js 062 JavaScrip如何使用一、引入JavaScript二、DOM操作三、事件处理四、数据验证五、异步编程六、使用库和框架七、模块化开发小结开始学习使用JavaScript进行前端开发的基本步骤和常见实践。这里先列示基本的步骤和内容，后面慢慢…...

编程日记 2024/1/29 5:58:11

C++.OpenGL （10/64）基础光照（Basic Lighting）

基础光照（Basic Lighting）冯氏光照模型（Phong Lighting Model） #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

编程新知 2026/1/20 2:37:04

前端开发面试题总结-JavaScript篇(一)

文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包（Closure）？闭包有什么应用场景和潜在问题？2.解释 JavaScript 的作用域链（Scope Chain） 二、原型与继承3.原型链是什么？如何实现继承&a…...

编程新知 2026/2/1 3:12:03

ios苹果系统，js 滑动屏幕、锚定无效

现象：window.addEventListener监听touch无效，划不动屏幕，但是代码逻辑都有执行到。 scrollIntoView也无效。原因：这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作，从而会影响…...

编程新知 2026/2/4 19:47:03

日常一水C

多态言简意赅：就是一个对象面对同一事件时做出的不同反应而之前的继承中说过，当子类和父类的函数名相同时，会隐藏父类的同名函数转而调用子类的同名函数，如果要调用父类的同名函数，那么就需要对父类进行引用&#…...

编程新知 2025/9/30 22:37:58

关于easyexcel动态下拉选问题处理

前些日子突然碰到一个问题，说是客户的导入文件模版想支持部分导入内容的下拉选，于是我就找了easyexcel官网寻找解决方案，并没有找到合适的方案，没办法只能自己动手并分享出来，针对Java生成Excel下拉菜单时因选项过多导…...

编程新知 2026/2/6 11:08:25

Vue ③-生命周期 || 脚手架

生命周期思考：什么时候可以发送初始化渲染请求？（越早越好） 什么时候可以开始操作dom？（至少dom得渲染出来） Vue生命周期： 一个Vue实例从创建到销毁的整个过程。生命周期四个…...

编程新知 2026/2/5 5:24:23

Spring Security 认证流程——补充

一、认证流程概述 Spring Security 的认证流程基于过滤器链（Filter Chain），核心组件包括 UsernamePasswordAuthenticationFilter、AuthenticationManager、UserDetailsService 等。整个流程可分为以下步骤： 用户提交登录请求拦…...

编程新知 2026/2/4 17:50:55