当前位置: 首页 > news >正文

探索视听新纪元: ChatGPT的最新语音和图像功能全解析


🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁

在这里插入图片描述

🐅🐾猫头虎建议程序员必备技术栈一览表📖:

🤖 人工智能 AI:
🧠 Machine Learning | 🔍 Deep Learning | ⚙️ TensorFlow | 🔥 PyTorch | 🌀 Keras | 🗣️ NLP | 👁️ Computer Vision | 🎮 Reinforcement Learning | 📊 Scikit-learn | 🤖 GPT

🦄 博客首页——🐅🐾猫头虎的博客🎐
🐳 《面试题大全专栏》 🦕 文章图文并茂🦖生动形象🐅简单易学!欢迎大家来踩踩~🌺
🌊 《IDEA开发秘籍专栏》 🐾 学会IDEA常用操作,工作效率翻倍~💐
🌊 《100天精通Golang(基础入门篇)》 🐅 学会Golang语言,畅玩云原生,走遍大小厂~💐


🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🐅🐾🍁🐥


文章目录

    • 探索视听新纪元: ChatGPT的最新语音和图像功能全解析
    • 🚀 ChatGPT 的视听新技能
      • 🎙 与ChatGPT的语音交流
        • 🎧 语音样例
        • 🎵 选择声音
      • 🖼 图像交流
      • 逐步推出图像和语音功能
        • 语音
        • 图像输入
          • 使视觉既有用又安全
          • 模型限制的透明度
      • 扩展访问权限
      • 结论
      • 参考资料
  • 原创声明

探索视听新纪元: ChatGPT的最新语音和图像功能全解析


大家好,我是猫头虎博主🐯,今天我要带领大家了解一下,OpenAI的 #ChatGPT 刚刚更新了一些令人兴奋的视听功能!🎉 这些新增功能将使我们能够通过语音和图像与ChatGPT交流,让交互变得更为直观和生动。现在,让我们一起探究一下这些新功能吧!
在这里插入图片描述

🚀 ChatGPT 的视听新技能

  • 发布日期: 2023年9月25日
  • 作者: OpenAI
  • 产品与公告: OpenAI刚刚为ChatGPT推出了全新的语音和图像功能,让我们可以通过语音交谈或展示图像与ChatGPT交流,为用户提供了一种更直观的交互方式。

这些新功能为ChatGPT的使用打开了无限可能!比如在旅行时,你可以拍摄一个地标,然后实时交谈讨论它的历史;在家里,你可以拍摄冰箱和橱柜的内容,确定晚餐吃什么(还能得到逐步的食谱指导哦);晚餐后,通过拍照,圈出数学题目,让ChatGPT为你和你的孩子提供解题提示。

在接下来的两周内,这些新功能将逐步推出给Plus和Enterprise用户。语音功能将在iOS和Android平台上推出,而图像功能将在所有平台上提供。

在这里插入图片描述

🎙 与ChatGPT的语音交流

现在,通过语音与你的数字助手进行往返交谈变得可能了!无论是在外面,还是在家里请求一个睡前故事,或解决餐桌上的争论,一切都变得轻而易举。

  • 如何启用语音: 只需转到移动应用的“设置”→“新功能”,选择加入语音交谈。然后,点击主屏幕右上角的耳机按钮,并从五种不同的声音中选择你喜欢的声音。

新的语音功能由先进的文本转语音模型支持,能够仅通过文本和几秒钟的样本语音生成逼真的人类音频。OpenAI与专业的配音演员合作创建了每种声音,并使用开源的语音识别系统Whisper将你的话语转换成文本。

🎧 语音样例

故事
在一个宁静的树林里,有一只名叫Lila的毛茸茸的妈妈猫。在一个阳光明媚的日子里,她和她顽皮的小猫Milo在一棵老橡树的树荫下依偎着。

“Milo,” Lila说道,她的声音柔和而温柔,“你很快就会有一个新的玩伴了。”

Milo的耳朵竖了起来,显得很好奇。“一个新玩伴?”

Lila轻轻地呼噜着说:“是的,一个妹妹。”

Milo的眼睛亮了起来,兴奋不已。“一个妹妹?她会像我一样追逐尾巴吗?”

Lila呵呵笑了。“哦,她会有她自己的怪癖的。你会教她的,对吧?”

Milo急切地点了点头,已经开始憧憬他们将来会共度的冒险时光。

🎵 选择声音
  • Juniper

🖼 图像交流

现在,你可以向ChatGPT显示一张或多张图片,无论是解决烧烤架无法启动的问题,探索冰箱里的食物来计划一顿饭,还是分析复杂的图表以处理工作相关的数据,一切都变得轻而易举。

  • 如何启用图像: 点击照片按钮来捕捉或选择图像。如果你使用的是iOS或Android设备,首先点击加号按钮。你还可以讨论多张图片或使用我们的绘图工具来指导你的助手。

图像理解功能由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将他们的语言推理技能应用于各种各样的图片,如照片、截图和包含文本与图像的文档。

逐步推出图像和语音功能

OpenAI 的目标是建立安全、有益的通用人工智能(AGI)。我们相信逐步推出我们的工具,这样可以使我们有时间进行改进,完善风险缓解措施,同时为未来更强大的系统做好准备。随着涉及声音和视觉的高级模型的出现,这种策略变得更为重要。

语音

新的语音技术能够仅通过几秒钟的真实语音生成逼真的合成声音,为许多创意和易用性应用打开了大门。然而,这些功能也带来了新的风险,比如可能被恶意行为者用来模仿公众人物或进行欺诈。

这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的声音演员创建的。我们也在与其他人以类似的方式合作。例如,Spotify 正在利用这项技术的强大功能,为他们的语音翻译功能的测试提供支持,该功能帮助播客者通过将播客翻译成其他语言,以播客者自己的声音扩展他们的故事讲述范围。

图像输入

基于视觉的模型也带来了新的挑战,从关于人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前,我们在极端主义和科学熟练度等领域对模型进行了红队测试,并与多样化的 alpha 测试者合作。我们的研究使我们能够在负责任使用的几个关键细节上达成一致。

探索视听新纪元 ChatGPT的最新语音和图像功能全解析

使视觉既有用又安全

与其他 ChatGPT 功能一样,视觉功能旨在帮助你处理日常生活。它在可以看到你看到的东西时表现最好。

我们直接通过与 Be My Eyes(一款为盲人和视力障碍人士提供服务的免费移动应用)的合作,了解了视觉功能的使用和限制。用户告诉我们,他们发现在背景中恰好有人出现的图片上进行通用交谈是很有价值的,比如当你试图弄清楚遥控器设置时,有人出现在电视上。

我们还采取了技术措施,大大限制了 ChatGPT 分析和直接陈述人的能力,因为 ChatGPT 并不总是准确的,而且这些系统应该尊重个人的隐私。

实际使用和反馈将帮助我们改善这些保障措施,同时保持工具的实用性。

模型限制的透明度

用户可能会依赖 ChatGPT 处理一些专业话题,比如研究领域。我们对模型的限制保持透明,并且不鼓励在没有适当验证的情况下使用它来处理高风险的用例。此外,该模型擅长转录英文文本,但对一些其他语言,特别是非罗马字母的语言,表现不佳。我们建议非英语用户不要使用 ChatGPT 进行此类操作。

你可以在图像输入系统卡中了解更多关于我们的安全方法和与 Be My Eyes 的合作。

扩展访问权限

在接下来的两周内,Plus 和 Enterprise 用户将有机会体验语音和图像功能。我们很高兴在此之后很快将这些功能推出给其他用户群体,包括开发人员。

在这次更新中,ChatGPT的视听功能无疑为我们提供了一个全新、直观和创意的交互方式。想象一下,通过简单的语音和图像交互,我们能够得到及时的帮助和信息,这真是太令人兴奋了!作为猫头虎博主,我会继续关注ChatGPT的更新,为大家带来更多的信息和使用技巧。记得保持关注哦!😉

在这里插入图片描述

结论

通过本次的探索,我们可以明显看出,ChatGPT的新的视听功能为我们提供了一个更为直观和多元化的交互方式。不仅如此,它还为我们打开了一个新世界的大门,让我们能够通过语音和图像,与数字助手进行更为丰富和实用的交流。这对于我们日常的学习、工作和生活都带来了很大的便利。随着技术的不断进步,我们有理由相信,ChatGPT将会持续为我们提供更为先进和人性化的功能,使我们的数字生活变得更为丰富多彩。作为猫头虎博主,我会继续关注ChatGPT的更新,并在第一时间为大家带来最新的资讯和使用技巧。敬请期待!

参考资料

  1. OpenAI. (2023, September 25). ChatGPT Can Now See, Hear, and Speak. Retrieved from https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

希望你们喜欢这次的更新,我们下次见!👋

在这里插入图片描述

原创声明

======= ·

  • 原创作者: 猫头虎

作者wx: [ libin9iOak ]

学习复习

本文为原创文章,版权归作者所有。未经许可,禁止转载、复制或引用。

作者保证信息真实可靠,但不对准确性和完整性承担责任

未经许可,禁止商业用途。

如有疑问或建议,请联系作者。

感谢您的支持与尊重。

点击下方名片,加入IT技术核心学习团队。一起探索科技的未来,共同成长。

相关文章:

探索视听新纪元: ChatGPT的最新语音和图像功能全解析

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🤖 人工智能 AI: 🧠 Machine …...

华为乾坤区县教育安全云服务解决方案(1)

华为乾坤区县教育安全云服务解决方案(1) 课程地址方案背景客户痛点分析区县教育网概述区县教育网业务概述区县教育网业务安全风险分析区县教育网安全运维现状分析区县教育网安全建设痛点分析 安全解决方案功能概述架构概述方案架构设备选型 课程地址 本…...

《Jetpack Compose从入门到实战》第三章 定制 UI 视图

目录 配置颜色、字体与形状Welcome PageLogin PageHome Page 主题CompositionLocal 配置颜色、字体与形状 -ui.theme.Color.kt val pink100 Color(0xFFFFF1F1) val pink900 Color(0xFF3F2C2C) val white Color(0xFFFFFFFF) val white850 Color(0xD9FFFFFF) val gray Col…...

Kubernetes组件和架构简介

目录 一.概念简介 1.含义: 2.主要功能: 3.相关概念: 二.组件和架构介绍 1.master:集群的控制平面,管理集群 2.node:集群的数据平面,为容器提供工作环境 3.kubernetes简单架构图解 一.概…...

ElementUI实现增删改功能以及表单验证

目录 前言 BookList.vue action.js 展示效果 前言 本篇还是在之前的基础上&#xff0c;继续完善功能。上一篇完成了数据表格的查询&#xff0c;这一篇完善增删改&#xff0c;以及表单验证。 BookList.vue <template><div class"books" style"pa…...

C++中有哪些运算符以及它们的优先级?

C中常用的运算符包括算术运算符、赋值运算符、关系运算符、逻辑运算符、位运算符等。这里列举一些常见的运算符以及它们的优先级&#xff08;从高到低&#xff09;&#xff1a; 圆括号&#xff08;&#xff09;一元正号、一元负号-数组下标[]成员选择符&#xff08;点号.、箭头…...

uboot启动流程-涉及_main汇编函数

一. uboot启动流程涉及函数 本文简单分析一下 save_boot_params_ret调用的函数&#xff1a;_main汇编函数。 本文继之前文章的学习&#xff0c;地址如下&#xff1a; uboot启动流程-涉及s_init汇编函数_凌肖战的博客-CSDN博客 二. uboot启动流程涉及的 _main汇编函数 经过之…...

此芯科技加入百度飞桨硬件生态共创计划,加速端侧AI生态布局

近日&#xff0c;此芯科技&#xff08;上海&#xff09;有限公司&#xff08;以下简称“此芯科技”&#xff09;与百度签署硬件生态共创计划合作协议&#xff0c;正式加入由百度发起的硬件生态共创计划。双方将共同推动端侧AI和大模型在个人计算、车载计算以及元宇宙计算等领域…...

Unity把UGUI再World模式下显示到相机最前方

Unity把UGUI再World模式下显示到相机最前方 通过脚本修改Shader 再VR里有时候要把3D的UI显示到相机最前方&#xff0c;加个UI相机会坏事&#xff0c;可以通过修改unity_GUIZTestMode来解决。 测试用例 测试用例如下&#xff1a; 场景包含一个红色的盒子&#xff0c;一个UI…...

nodejs+vue活鲜物流监控系统elementui

第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;技术背景 5 3.2.2经济可行性 6 3.2.3操作可行性&#xff1a; 6 3.3 项目设计目标与原则 6 3.4系统流程分析 7 3.4.1操作流程 7 3.4.2添加信息流程 8 3.4.3删除信息流程 9 第4章 系统设计 11 …...

数据集划分——train_test_split函数使用说明

当我们拿到数据集时&#xff0c;首先需要对数据集进行划分训练集和测试集&#xff0c;sklearn提供了相应的函数供我们使用 一、讲解 快速随机划分数据集&#xff0c;可自定义比例进行划分训练集和测试集 二、官网API 官网API sklearn.model_selection.train_test_split(*a…...

Pytorch中关于forward函数的理解与用法

目录 前言1. 问题所示2. 原理分析2.1 forward函数理解2.2 forward函数用法 前言 深入深度学习框架的代码&#xff0c;发现forward函数没有被显示调用 但代码确重写了forward函数&#xff0c;于是好奇是不是python的魔术方法作用 1. 问题所示 代码如下所示&#xff1a; cla…...

vite跨域proxy设置与开发、生产环境的接口配置,接口在生产环境下,还能使用proxy代理地址吗

文章目录 vite的proxy开发环境设置如果后端没有提供可以替换的/mis等可替换的后缀的处理办法接口如何区分.env.development开发和.env.production生产环境接口在生产环境下&#xff0c;还能使用proxy代理地址吗&#xff1f; vite的proxy开发环境设置 环境&#xff1a; vite 4…...

【嵌入式】使用MultiButton开源库驱动按键并控制多级界面切换

目录 一 背景说明 二 参考资料 三 MultiButton开源库移植 四 设计实现--驱动按键 五 设计实现--界面处理 一 背景说明 需要做一个通过不同按键控制多级界面切换以及界面动作的程序。 查阅相关资料&#xff0c;发现网上大多数的应用都比较繁琐&#xff0c;且对于多级界面的…...

【数据结构】树的概念理解和性质推导(保姆级详解,小白必看系列)

目录 一、前言 &#x1f34e; 为什么要学习非线性结构 ---- 树&#xff08;Tree&#xff09; &#x1f4a6; 线性结构的优缺点 &#x1f4a6; 优化方案 ----- 树&#xff08;Tree&#xff09; &#x1f4a6; 树的讲解流程 二、树的概念及结构 &#x1f350; 树的概念 &…...

融合之力:数字孪生、人工智能和数据分析的创新驱动

数字孪生、人工智能&#xff08;AI&#xff09;和数据分析是当今科技领域中的三个重要概念&#xff0c;它们之间存在着紧密的关联和互动&#xff0c;共同推动了许多领域的创新和发展。 一、概念 数字孪生是一种数字化的模拟技术&#xff0c;它通过复制现实世界中的物理实体、…...

Spring的注解开发-Spring配置类的开发

Bean配置类的注解开发 Component等注解替代了<bean>标签&#xff0c;但像<import>、<context:componentScan>等非<bean>标签怎样去使用注解去替代呢&#xff1f;定义一个配置类替代原有的xml配置文件&#xff0c;<bean>标签以外的标签&#xff…...

Linux系统编程系列之进程间通信-信号量组

一、什么是信号量组 信号量组是信号量的一种&#xff0c; 是system-V三种IPC对象之一&#xff0c;是进程间通信的一种方式。 二、信号量组的特性 信号量组不是用来传输数据的&#xff0c;而是作为“旗语”&#xff0c;用来协调各进程或者线程工作的。信号量组可以一次性在其内…...

centos 6使用yum安装软件

1. 执行以下命令&#xff0c;查看当前操作系统 CentOS 版本。 cat /etc/centos-release返回结果如下图所示&#xff0c;则说明当前操作系统版本为 CentOS 6.9。 2. 执行以下命令&#xff0c;编辑 CentOS-Base.repo 和CentOS-Epel.repo文件。 vim /etc/yum.repos.d/CentOS-Bas…...

maven无法下载时的解决方法——笔记

右键项目然后点击创建setting.xml&#xff08;因为现在创建了&#xff0c;所以没显示了&#xff0c;可以直接点击打开setting.xml&#xff09; 然后添加 <mirror><id>nexus-aliyun</id><mirrorOf>*,!jeecg,!jeecg-snapshots</mirrorOf><name…...

手游刚开服就被攻击怎么办?如何防御DDoS?

开服初期是手游最脆弱的阶段&#xff0c;极易成为DDoS攻击的目标。一旦遭遇攻击&#xff0c;可能导致服务器瘫痪、玩家流失&#xff0c;甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案&#xff0c;帮助快速应对并构建长期防护体系。 一、遭遇攻击的紧急应…...

练习(含atoi的模拟实现,自定义类型等练习)

一、结构体大小的计算及位段 &#xff08;结构体大小计算及位段 详解请看&#xff1a;自定义类型&#xff1a;结构体进阶-CSDN博客&#xff09; 1.在32位系统环境&#xff0c;编译选项为4字节对齐&#xff0c;那么sizeof(A)和sizeof(B)是多少&#xff1f; #pragma pack(4)st…...

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢&#xff0c;博主的学习进度也是步入了Java Mybatis 框架&#xff0c;目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学&#xff0c;希望能对大家有所帮助&#xff0c;也特别欢迎大家指点不足之处&#xff0c;小生很乐意接受正确的建议&…...

.Net Framework 4/C# 关键字(非常用,持续更新...)

一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南&#xff1a;Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问&#xff08;基础概念问题&#xff09; 1. 请解释Spring框架的核心容器是什么&#xff1f;它在Spring中起到什么作用&#xff1f; Spring框架的核心容器是IoC容器&#…...

基于SpringBoot在线拍卖系统的设计和实现

摘 要 随着社会的发展&#xff0c;社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 在线拍卖系统&#xff0c;主要的模块包括管理员&#xff1b;首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

【Linux】Linux 系统默认的目录及作用说明

博主介绍&#xff1a;✌全网粉丝23W&#xff0c;CSDN博客专家、Java领域优质创作者&#xff0c;掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围&#xff1a;SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...

三分算法与DeepSeek辅助证明是单峰函数

前置 单峰函数有唯一的最大值&#xff0c;最大值左侧的数值严格单调递增&#xff0c;最大值右侧的数值严格单调递减。 单谷函数有唯一的最小值&#xff0c;最小值左侧的数值严格单调递减&#xff0c;最小值右侧的数值严格单调递增。 三分的本质 三分和二分一样都是通过不断缩…...

深入理解Optional:处理空指针异常

1. 使用Optional处理可能为空的集合 在Java开发中&#xff0c;集合判空是一个常见但容易出错的场景。传统方式虽然可行&#xff0c;但存在一些潜在问题&#xff1a; // 传统判空方式 if (!CollectionUtils.isEmpty(userInfoList)) {for (UserInfo userInfo : userInfoList) {…...