当前位置: 首页 > news >正文

随着 ChatGPT 凭借 GPT-4V(ision) 获得关注,多模态 AI 不断发展

原创 | 文 BFT机器人

图片

在不断努力让人工智能更像人类的过程中,OpenAI的GPT模型不断突破界限GPT-4现在能够接受文本和图像的提示。

生成式人工智能中的多模态表示模型根据输入生成文本、图像或音频等各种输出的能力。这些模型经过特定数据的训练,学习底层模式以生成类似的新数据,丰富人工智能应用。

PART 01

多模式人工智能的最新进展

最近,该领域取得了显着的飞跃,将DALL-E 3集成到ChatGPT中,这是OpenAI文本到图像技术的重大升级。这种混合可以实现更流畅的交互,ChatGPT有助于为DALL-E3制作精确的提示,将用户的想法转化为生动的AI生成的艺术。因此,虽然用户可以直接与DALL-E3交互,但将ChatGPT加入其中使得创建AI艺术的过程更加用户友好。

在此处查看有关DALL-E3及其与ChatGPT集成的更多信息。此次合作不仅展示了多模态人工智能的进步,也让用户的人工智能艺术创作变得轻而易举。

图片

另一方面,谷歌健康于今年6月推出了Med-PaLMM。它是一种多模式生成模型,擅长编码和解释不同的生物医学数据。这是通过利用开源基准MultiMedBench微调语言模型PaLM-E来满足医学领域的需求而实现的。该基准包含7种生物医学数据类型的超过100万个样本以及医学问答和放射学报告生成等14项任务。

各行业正在采用创新的多模式人工智能工具来推动业务扩展、简化运营并提高客户参与度。语音、视频和文本人工智能功能的进步正在推动多模式人工智能的增长。

企业寻求能够彻底改变业务模型和流程的多模式人工智能应用程序,从数据工具到新兴人工智能应用程序,在生成式人工智能生态系统中开辟增长途径。

GPT-4 在3月份推出后,一些用户发现其响应质量随着时间的推移而下降,著名开发人员和OpenAI论坛也表达了这一担忧。最初被OpenAI驳回,后来的一项研究证实了这个问题。报告显示,3月至6月期间,GPT-4的准确率从97.6%下降至 2.4%,这表明随着后续模型更新,答案质量有所下降。

图片

ChatGPT(蓝色)和人工智能(红色)Google搜索趋势

围绕OpenAI的ChatGPT的炒作现在又回来了。它现在配备了视觉功能GPT-4V,允许用户让GPT-4分析他们给出的图像。这是向用户开放的最新功能。

一些人认为,将图像分析添加到GPT-4等大型语言模型 (LLM) 中是人工智能研究和开发的一大进步。这种多模式法学硕士开辟了新的可能性,将语言模型超越文本,提供新的界面并解决新类型的任务,为用户创造新鲜的体验。

GPT-4V的训练于2022年完成,抢先体验于2023年3月推出。GPT-4V的视觉功能由GPT-4技术提供支持。培训过程保持不变。最初,该模型被训练为使用来自包括互联网在内的各种来源的文本和图像的大量数据集来预测文本中的下一个单词。

后来,它使用更多数据进行了微调,采用了一种名为“人类反馈强化学习”(RLHF)的方法,以生成人类喜欢的输出。

PART 02

GPT-4 视觉力学

GPT-4卓越的视觉语言能力虽然令人印象深刻,但其底层方法仍然停留在表面。

为了探索这一假设,引入了一种新的视觉语言模型MiniGPT-4 ,利用名为Vicuna的高级法学硕士。该模型使用带有预先训练的视觉感知组件的视觉编码器,通过单个投影层将编码的视觉特征与Vicuna语言模型对齐。MiniGPT-4的架构简单而有效,重点是协调视觉和语言特征以提高视觉对话能力。

图片

MiniGPT-4的架构包括一个带有预训练ViT和Q-Former的视觉编码器、一个线性投影层和一个高级Vicuna大语言模型。

视觉语言任务中自回归语言模型的趋势也在增长,利用跨模态迁移在语言和多模态领域之间共享知识。

MiniGPT-4通过将预先训练的视觉编码器的视觉信息与高级LLM对齐,在视觉和语言领域之间架起桥梁。该模型利用Vicuna作为语言解码器,并遵循两阶段训练方法。最初,它在大型图像文本对数据集上进行训练,以掌握视觉语言知识,然后对较小的高质量数据集进行微调,以增强生成的可靠性和可用性。

为了提高MiniGPT-4中生成语言的自然性和可用性,研究人员开发了一个两阶段对齐过程,解决了缺乏足够的视觉语言对齐数据集的问题。他们为此目的策划了一个专门的数据集。

最初,该模型生成输入图像的详细描述,通过使用与 Vicuna 语言模型格式一致的对话提示来增强细节。此阶段旨在生成更全面的图像描述。

初始图像描述提示:

###Human: <Img><ImageFeature></Img>详细描述此图像。提供尽可能多的细节。说出你所看到的一切。###助手:

对于数据后处理,使用 ChatGPT 纠正生成的描述中的任何不一致或错误,然后进行手动验证以确保高质量。

第二阶段微调提示:

###人类:<Img><ImageFeature></Img><指令>###助理:

这一探索打开了一扇了解GPT-4等多模态生成人工智能机制的窗口,揭示了如何有效地整合视觉和语言模态以生成连贯且上下文丰富的输出。

PART 03

探索 GPT-4 愿景使用 ChatGPT 确定图像来源

GPT-4Vision增强了ChatGPT分析图像并查明其地理来源的能力。此功能将用户交互从单纯的文本转换为文本和视觉效果的混合,成为那些通过图像数据对不同地点感到好奇的人的便捷工具。

图片

复杂的数学概念

GPT-4Vision擅长通过分析图形或手写表达式来深入研究复杂的数学思想。对于寻求解决复杂数学问题的个人来说,此功能是一个有用的工具,使GPT-4Vision成为教育和学术领域的显着帮助。

图片

将手写输入转换为 LaTeX 代码

GPT-4V的卓越功能之一是能够将手写输入转换为LaTeX代码。对于经常需要将手写数学表达式或其他技术信息转换为数字格式的研究人员、学者和学生来说,此功能是一个福音。从手写到LaTeX的转变扩大了文档数字化的范围并简化了技术写作过程。

图片

GPT-4V能够将手写输入转换为LaTeX代码

提取表详细信息

GPT-4V展示了从表格中提取详细信息和解决相关查询的技能,这是数据分析中的重要资产。用户可以利用GPT-4V筛选表格、收集关键见解并解决数据驱动的问题,使其成为数据分析师和其他专业人士的强大工具。

图片

GPT-4V破译表详细信息并响应相关查询

理解视觉指向

GPT-4V理解视觉指向的独特能力为用户交互增添了新的维度。通过理解视觉线索,GPT-4V可以以更高的上下文理解来响应查询。

图片

GPT-4V展示了理解视觉指向的独特能力

使用绘图构建简单的模型网站

受此推文的启发,我尝试为unity.ai网站创建一个模型。

图片

基于ChatGPTVision的输出HTML前端

GPT-4V(ision) 的局限性和缺陷

为了分析GPT-4V,OpenAI团队进行了定性和定量评估。定性测试包括内部测试和外部专家评审,而定量测试则测量各种场景下的模型拒绝率和准确性,例如识别有害内容、人口统计识别、隐私问题、地理位置、网络安全和多模式越狱。

该模型仍然不完美。

该论文强调了GPT-4V的局限性,例如错误的推理以及图像中缺少文本或字符。它可能会产生幻觉或编造事实。特别是,它不适合识别图像中的危险物质,经常会错误识别它们。

在医学成像中,GPT-4V可能会提供不一致的响应,并且缺乏对标准实践的认识,从而导致潜在的误诊。

图片

用于医疗目的的不可靠性能(来源)

它还无法掌握某些仇恨符号的细微差别,并可能根据视觉输入生成不适当的内容。OpenAI建议不要使用GPT-4V进行批判性解释,尤其是在医疗或敏感环境中。

包起来

图片

使用FastStableDiffusionXL创

https://huggingface.co/spaces/google/sdxl

GPT-4Vision (GPT-4V) 的到来带来了一系列很酷的可能性和需要跨越的新障碍。在推出之前,我们已经付出了大量努力来确保风险得到充分研究并减少,尤其是涉及人物照片时。看到GPT-4V的进步令人印象深刻,在医学和科学等棘手领域展现出巨大的前景。

现在,有一些重大问题摆在桌面上。例如,这些模型是否应该能够从照片中识别出名人?他们应该从照片中猜测一个人的性别、种族或感受吗?而且,是否应该进行特殊调整来帮助视障人士?这些问题引发了一系列关于隐私、公平以及人工智能应该如何融入我们的生活的争论,这是每个人都应该有发言权的问题。

文章翻译 | 春花

排版 | 春花

审核 | 橙橙

若您对该文章内容有任何疑问,请与我们联系,将及时回应。

相关文章:

随着 ChatGPT 凭借 GPT-4V(ision) 获得关注,多模态 AI 不断发展

原创 | 文 BFT机器人 在不断努力让人工智能更像人类的过程中&#xff0c;OpenAI的GPT模型不断突破界限GPT-4现在能够接受文本和图像的提示。 生成式人工智能中的多模态表示模型根据输入生成文本、图像或音频等各种输出的能力。这些模型经过特定数据的训练&#xff0c;学习底层模…...

Zookeeper-JavaApI操作

JavaApI操作 JavaApI操作1) Curator 介绍2) Curator API 常用操作a) 建立连接与CRUD基本操作b) Watch事件监听c) 分布式锁c.1) 介绍c.2) Zookeeper分布式锁原理c.3) 案例&#xff1a;模拟12306售票 JavaApI操作 1) Curator 介绍 Curator 是 Apache ZooKeeper 的Java客户端库。…...

Vue2.0打包指定路由前缀

【1】修改vue.config.js 如下修改publicPath: module.exports {publicPath:/concert,lintOnSave: false }【2】修改router/index.js base指定路由前缀&#xff1a; const router new VueRouter({mode: history,base: /concert, //指定路由前缀// base: process.env.BASE_…...

[vxe-table] 合并行后滚动错位

使用vxe-table的属性:span-method合并行&#xff0c;之后下拉后会错位 原因&#xff1a;缺少配置 scroll-y"{enabled: false}"参考&#xff1a; vxe-table合并行后错位...

动态规划:05不同路径

动态规划&#xff1a;05不同路径 62. 不同路径 五部曲 确定dp数组含义&#xff1a;到达第i&#xff0c;j位置的路径条数为d[i][j] 确定递归公式&#xff1a;d[i][j]d[i-1][j]d[i][j-1] 我们发现&#xff0c;想要到d[i][j]&#xff0c;只能从d[i-1][j]或者d[i][j-1]达到 dp数…...

html与css知识点

html 元素分类 块级元素 1.独占一行&#xff0c;宽度为父元素宽度的100% 2.可以设置宽高 常见块级元素 h1~h6 div ul ol li dl dt dd table form header footer section nav article aside 行内元素 1.一行显示多个 2.不能设置宽高&#xff0c;宽高由元素内容撑开 常见行内…...

spring boot simple类型cache使用

注意&#xff1a;这里用的不是 redis 的缓存&#xff0c;simple 的缓存默认用的是 java 的 ConcurrentHashMap&#xff0c; 单纯的 simple 缓存&#xff0c;只需要引入下面的 pom 依赖即可&#xff1a;spring-boot-starter-cache <dependency><groupId>org.springf…...

springboot-aop-redis-lua 实现的分布式限流方案

1.自定义限流注解 Target({ElementType.METHOD, ElementType.TYPE}) Retention(RetentionPolicy.RUNTIME) Inherited Documented public interface Limit {/*** 名字*/String name() default "";/*** key*/String key() default "";/*** Key的前缀*/String…...

C++ realloc()用法及代码示例

C realloc()用法及代码示例 C 中的realloc() 函数重新分配先前分配但尚未释放的内存块。realloc() 函数重新分配先前使用 malloc() 、 calloc() 或 realloc() 函数分配但尚未使用 free() 函数释放的内存。如果新大小为零&#xff0c;则返回的值取决于库的实现。它可能会也可能…...

【Go】gin框架生成压缩包与下载文件

在没有加入下面这串代码之前&#xff0c;下载的压缩包一直为空。遂debug了两个小时。。。 可以在服务端本地创建压缩包。单独将服务端本地的压缩包发送给客户端也是没问题的。但是两个合起来&#xff0c;客户端接收到的压缩包内容就为空了。 期间也尝试了 zipFile.Close() zipW…...

iOS 面试题以及自我理解答案

1、简述push原理&#xff0c;push的证书和其他的有什么不一样&#xff1f; 第 一阶段&#xff1a;BeejiveIM服务器把要发送的消息、目的iPhone的标识打包&#xff0c;发给APNS。 第二阶段&#xff1a;APNS在自身的已注册Push服务 的iPhone列表中&#xff0c;查找有相应标识的iP…...

vue实现自定义滚动条

vue实现自定义滚动条 具体效果如下&#xff0c;这边我用的rem单位&#xff0c;比例是1:40&#xff0c; 先写下页面布局&#xff0c;把原生的滚动条给隐藏掉&#xff0c;给自定义的滑块增加transition: marginLeft 1s linear;可以使左边距过度的更顺滑 .top-box-2::-webkit-scr…...

基于Qt C++的工具箱项目源码,含命令行工具、桌面宠物、文献翻译、文件处理工具、医学图像浏览器、插件市场、设置扩展等工具

一、介绍 1. 基本信息 完整代码下载地址&#xff1a;基于Qt C的工具箱项目源码 TBox是一款基于Qt C的工具箱。用户可以自行选择安装所需的工具&#xff08;以插件的形式&#xff09;&#xff0c;将TBox打造成专属于自己的效率软件。TBox基本界面展示如下&#xff1a; 2. 使用…...

C# AnimeGANv2 人像动漫化

效果 项目 下载 可执行程序exe下载 源码下载 其他 C# 人像卡通化 Onnx photo2cartoon-CSDN博客...

gateway接口参数加解密

上篇介绍了多种加解密的使用java加密使用 本篇主要介绍在gateway网关中使用对参数解密和返回数据进行加密的操作 原理 下面使用的是AES加密 SHA1withRSA加签 1-用户使用拿到的AES秘钥和RSA私钥。对数据进行加密和加签 2-进行验签和时间的检验 3-将解密的数据返回到具体的调用…...

WorkPlus定制化的局域网会议软件,提供安全稳定的会议体验

在现代商业环境中&#xff0c;迅速而高效的沟通是企业成功的关键要素之一。而在传统的会议模式下&#xff0c;时间成本和地理限制往往给企业带来不小的困扰。针对这一问题&#xff0c;WorkPlus推出了一款创新的局域网会议软件——WorkPlus Meet&#xff0c;旨在为企业创造高效的…...

干货|小白也能自制电子相册赶紧码住~

你是否想拥有一个独一无二的电子相册&#xff0c;却又苦于不知道如何下手&#xff1f;今天教你一个简单的方法&#xff0c;即使你是小白&#xff0c;也能轻松自制电子相册&#xff01; 一、选择合适的工具 首先&#xff0c;你需要选择一个合适的工具来制作电子相册。有很多工具…...

docker之Harbor私有仓库

目录 一、什么是Harbor 二、Harbor的特性 三、Harbor的构成 1、六个组件 2、七个容器 四、私有镜像仓库的上传与下载 五、部署docker-compose服务 把项目中的镜像数据进行打包持久数据&#xff0c;如镜像&#xff0c;数据库等在宿主机的/data/目录下&#xff0c; 一、什么…...

服务器上部署python脚本

1.查看服务器上的python是否自带&#xff0c;一般都自带 2.将本地脚本上传到服务器 3.直接运行一下脚本看报什么错误 代码错误&#xff0c; 将f删除后报别的错误 上面是未安装依赖的错误。我们安装一下依赖 下面是编码的解决 #!/usr/bin/python # -*- coding: utf-8 -*- 先把…...

【excel技巧】如何在Excel表格中添加选项按钮?

不知道大家是否会9遇到需要勾中选项的情况&#xff0c;我们可以在电子表格中制作出可以勾选、选中的选项按钮&#xff0c;今天我们一起学习一下设置方法。 首先&#xff0c;我们需要先在excel工具栏中添加一个功能模块&#xff1a;开发工具 依次点击excel中的文件 – 选项 –…...

保姆级教程:用facenet-pytorch 0.3.0搭建人脸识别环境,CPU/GPU版本一键配置(附避坑清单)

从零构建facenet-pytorch人脸识别环境&#xff1a;CPU/GPU双版本全流程指南 第一次接触人脸识别项目时&#xff0c;最令人头疼的往往不是算法本身&#xff0c;而是环境配置这个"拦路虎"。不同硬件、不同CUDA版本、不同依赖库之间的兼容性问题&#xff0c;足以让新手…...

JD-GUI:3分钟掌握Java反编译的终极免费工具

JD-GUI&#xff1a;3分钟掌握Java反编译的终极免费工具 【免费下载链接】jd-gui A standalone Java Decompiler GUI 项目地址: https://gitcode.com/gh_mirrors/jd/jd-gui 你是否曾经面对一个没有源码的Java程序感到无从下手&#xff1f;或者需要快速理解第三方库的内部…...

Phi-3-mini-4k-instruct-gguf完整指南:GGUF轻量模型在边缘设备的适配实践

Phi-3-mini-4k-instruct-gguf完整指南&#xff1a;GGUF轻量模型在边缘设备的适配实践 1. 模型概述 Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本&#xff0c;专为边缘计算设备优化设计。这个模型特别适合在资源受限的环境中执行问答、文本改写…...

Flowise语音交互扩展:Whisper+TTS构建全模态助手

Flowise语音交互扩展&#xff1a;WhisperTTS构建全模态助手 1. 引言&#xff1a;为什么需要语音交互&#xff1f; 想象一下这样的场景&#xff1a;你正在厨房做饭&#xff0c;手上沾满了面粉&#xff0c;突然想到一个技术问题需要查询。这时候如果还要打字输入&#xff0c;简…...

最近在折腾语音端点检测的时候发现个有意思的方法——频带方差检测。这玩意儿特别适合对付环境噪声,原理简单粗暴但有效。今天咱们就手撕代码看看它怎么玩转语音段定位

基于matlab的频带方差端点检测&#xff0c;噪声频谱中&#xff0c;各频带之间变化很平缓&#xff0c;语音各频带之间变化较激烈。 据此特征&#xff0c;语音和噪声就极易区分。 计算短时频带方差&#xff0c;实质就是计算某一帧信号的各频带能量之间的方差。 这种以短时频带方差…...

智能制造企业数字化转型智慧工厂建设方案:涵盖研发、供应、生产、销售、服务五大核心环节的智慧工厂建设路径

该方案围绕研发、供应、生产、销售、服务全价值链&#xff0c;融合AI、大数据、5G等技术&#xff0c;通过智能优化、智慧供应链、智能质检、数字孪生及精准营销等模块&#xff0c;构建全链路智慧工厂&#xff0c;实现降本增效与制造企业全面数字化转型。 该方案以“研发—供应…...

从零入门大模型应用开发:收藏这份学习清单,轻松转型高薪岗位!

文章指出当前AI应用开发社招要求已提升&#xff0c;不再满足于简单的API调用或Demo实现。文章警示三类人慎入AI开发社招&#xff0c;并强调能力复合化、工程深度和业务理解的重要性。作者分享了四年AI开发经验&#xff0c;建议深入原理、重构项目经验&#xff0c;并给出了量化解…...

3步让旧款iOS设备重获新生:Legacy-iOS-Kit性能拯救全指南

3步让旧款iOS设备重获新生&#xff1a;Legacy-iOS-Kit性能拯救全指南 【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS-Kit …...

Git 批量拉取所有远程分支到本地(Git Bash + CMD 双版本)

在使用 Git 开发时&#xff0c;经常需要将远程所有分支一次性拉取到本地&#xff0c;避免手动逐个创建。下面分别给出 Git Bash 和 Windows CMD 下的一键批量拉取脚本。一、Git Bash 脚本&#xff08;适用于 Git Bash / Linux /macOS&#xff09;bash运行git fetch originfor b…...

LeetCode 最长回文子串:python 题解

一、核心问题及解决方案&#xff08;按踩坑频率排序&#xff09; 问题 1&#xff1a;误删他人持有锁——最基础也最易犯的漏洞 成因&#xff1a;释放锁时未做身份校验&#xff0c;直接执行 DEL 命令删除键。典型场景&#xff1a;服务 A 持有锁后&#xff0c;业务逻辑耗时超过锁…...