当前位置: 首页 > news >正文

OpenAI文生视频大模型Sora概述

Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布。

Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。

行业背景

  • OpenAI在大模型领域的成功

2022年底,OpenAI正式推出ChatGPT,这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI的开发重点逐步过渡到图像的生成,Dall-E模型在生成图像方面也获得了重大突破。

  • 视觉算法的进步

        视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多 。

        尽管如此,考虑到大型语言模型(LLM)对人工智能各领域的加速作用以及已经出现的优秀开源模型,2024年该行业有望实现更大的发展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟 。但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众。

发展历程

模型发展

2021年1月5日

文生图模型Dall-E发布

Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。

2022年4月

Dall-E 2发布

Dall-E 2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。

2022年11月30日

大语言模型ChatGPT发布 

ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。

2023年3月15日

GPT-4正式面世

GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。

2023年9月21日

Dall-E 3正式发布

Dall-E 3能够更准确、更优秀地生成效果,可以更准确地呈现用户的想法,用户可以要求ChatGPT提供合适的提示词。

2024年2月16日

Sora问世 

Sora继承了Dall-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

功能特色

优点

  • 功能综述

Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频 (其他AI视频工具还在突破几秒内的连贯性 ),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

中国龙年舞龙

雨后的东京街头

行驶中的列车窗外

好莱坞大片质感的电影预告片

加州淘金热时期的历史镜头

玻璃球的特写视图

24岁女性眨眼的极端特写

  • 静态图生成视频

Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。

  • 视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善 。

  • 连接视频

可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。

  • 其他能力

Sora的其他能力

能力

描述

图像生成

Sora可以生成各种尺寸的图像,分辨率最高达2048×2048。

3D一致

Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动。

远距离连贯性

物体持久性

Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观。

互动性

Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕。

模拟数字世界

Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态 。

多机位

Sora可以生成多机位、多角度的视频 。

缺点

狼在追逐打闹过程中,可能会凭空多出或消失

Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件。

没有正确表示篮球穿过篮筐的过程

例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。

OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。

技术特点

多帧预测生成

Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。

特殊架构

Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础 。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力 。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像 。

 

重述提示词

Sora借鉴DALL-E 3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性。

数据表示

OpenAI将视频和图像表示为Patch,类似于GPT中的token,这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比,有助于模型学习到更丰富的视觉特征,提高生成视频的质量和多样性。

原生规模训练

Sora采用“原生规模训练”,过往的图像和视频生成通常会将视频调整为标准大小,但这样会失去视频的原始长宽比和细节,而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样,允许直接为不同尺寸的设备创建内容,并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比,Sora可以生成更完整、更美观的视频 。

 社会影响

价值意义

Sora对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃,也被认为是实现通用人工智能(AGI)的重要里程碑,通过不断深入研究和发展Sora等先进模型,有望在未来实现更加智能、高效和多样化的视频生成与处理技术。

产业格局

  • 估值上涨

Sora发布后,OpenAI的估值迅速上涨(有望超过800亿美元,2023年ChatGPT发布不久时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨 [38]。与此同时,受Sora发布的影响,美国图片供应商Shutterstock的股价大跌。

在中国,龙年开市第一天,Sora相关概念全线“爆发”,会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨,多家公司回应称,将根据自身业务特点,在文生视频技术落地、Sora应用等方面寻找突破入口。

  • 生产变革

浙商证券预测,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC(用户生成内容)将借助AI工具逐步替代PGC。此间,AI生成视频工具的商业化将提速 。

Sora可生成一段长达60秒的视频,远超市面同类AI产品视频生成时长,60秒的视频时长,已经超过抖音等短视频平台的平均视频时长,Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。 

职业取代

截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限,他们也已开始在社交平台不断晒出使用Sora生成的新作品,为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”,甚至有人开始“悼念”一整个素材行业。

各界评价

各界对Sora的评价/态度

类别

专家

评价

科技界

英伟达科学家

DrJimFan

Sora是一个数据驱动的物理引擎,它是对许多世界的模拟,无论是真实的还是幻想的,模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。

趣丸集团副总裁

庄明浩

Sora的面世影响的不仅是文生视频领域,下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程,以及3D素材生产这个战场 。

伊利诺伊大学厄巴纳-香槟分校

信息科学教授特德·安德伍德

没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。

普林斯顿大学计算机科学教授

Arvind Narayanan

根据OpenAI发布的视频,Sora似乎比任何其他视频生成工具都“先进得多”,这可能会导致“深度伪造”视频,人们更难识别出人工智能生成的视频 。

360集团创始人、董事长

周鸿祎

Sora将缩短AGI(通用人工智能)实现时间,从10年缩短到1年。OpenAI训练该模型应该会以视频和摄像头捕捉的画面为主,人工智能通过观看大量视频将对世界有更深入的理解,这离AGI实现不远 。

图灵奖得主、Meta首席AI科学家

杨立昆

根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界,生成视频的过程与基于世界模型的因果预测完全不同 。

影视界

电影导演兼视觉效果专家

迈克尔·格雷西

很快,像Sora这样的人工智能工具将允许电影制作者仔细控制他们的输出,从头开始创建各种视频,当技术剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,不是一件好事情 。

专业摄影师

孟凡

Sora视频帧率较高,说明计算能力比较强,且影片的宽容度更高,如调色、细节表现、高速镜头展现等。在直观感受上,Sora 模型产出的视频运镜自然,物体运动符合规律,镜头间逻辑一致性好,但是Sora视频的逻辑性会差一点 。

中国电影文学学会副秘书长

杜红军

编剧、导演不必因Sora的出现而担心,它是帮助实现影视效果的好工具,能够激发更多人的内容创造力。人类负责创意,AI负责创造,未来的电影创作将是概念片先行,可能不是在写剧本,而是“写”影像 。

社会界

中国社会科学院法学研究所

副研究员唐林垚

相较于其他视频类生成式AI,Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一样强大,且之后可以像ChatGPT一样便捷访问,那么Sora将给广告行业、影视行业和特效行业带来极大的冲击。 

前记者、现斯坦福大学研究员

巴西勒·西蒙

在生成式人工智能方面有了可怕的飞跃,可以快速生成逼真的作品,这些工具可能会在选举中被滥用,公众将可能“不再知道该相信什么” 。

主要竞品

Sora的部分竞品

公司

产品

技术路线

发布时间

英伟达

PYoCo

扩散模型

2023.05

Runway

Gen-2

扩散模型

2023.06

Pika Labs

Pika 1.0

扩散模型

2023.11

Meta

Emu Video

扩散模型

2023.11

Stability AI

Stable Video Diffusion

扩散模型

2023.11

谷歌

Video Poet

Transformer

2023.12

字节跳动

MagicVideo-V2

扩散模型

2024.01

相较于其他模型,Sora的优势主要是三方面:

  • 第一:可以生成长达60秒钟的视频,包括多个角色、特定类型动作和主题背景;

  • 第二:可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格;

  • 第三:能够理解物体在现实世界中的物理规律和存在方式 。

社会争议

虚假信息

        Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度,这不仅改变了人们“眼见为实”的传统观念,还可能带来一系列社会问题,如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例,显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛,加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制,但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增,网络上的合成内容将大量存在,这要求不仅在技术上持续改进,还需建立更全面的治理体系来有效应对虚假信息的挑战。

版权问题

        Sora可能引发侵权争议。一方面,Sora生成的视频版权是否受到保护尚不明确,这可能导致使用这些视频的主体面临侵权索赔和版权保护追溯的风险。另一方面,Sora在训练过程中使用了相关素材,即使只是用这些素材进行训练,也可能存在潜在的侵权风险 。

源自:Sora(OpenAI发布的人工智能文生视频大模型)_百度百科

相关文章:

OpenAI文生视频大模型Sora概述

Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布。 Sora可以根据用户…...

[linux]进程间通信(IPC)———共享内存(shm)(什么是共享内存,共享内存的原理图,共享内存的接口,使用演示)

一、什么是共享内存 共享内存区是最快的(进程间通信)IPC形式。一旦这样的内存映射到共享它的进程的地址空间,这些进程间数据传递不再涉及到内核,换句话说是进程不再通过执行进入内核的系统调用来传递彼此的数据。注意:…...

Go 原子操作有哪些?

Go atomic包是最轻量级的锁(也称无锁结构),可以在不形成临界区和创建互斥量的情况下完成并发安全的值替换操作,不过这个包只支持int32/int64/uint32/uint64/uintptr这几种数据类型的一些基础操作(增减、交换、载入、存…...

爬虫知识--02

免费代理池搭建 # 代理有免费和收费代理 # 代理有http代理和https代理 # 匿名度: 高匿:隐藏访问者ip 透明:服务端能拿到访问者ip 作为后端,如何拿到使用代理人的ip 请求头中:x-forwor…...

SCI一区 | Matlab实现GAF-PCNN-MSA格拉姆角场和双通道PCNN融合注意力机制的多特征分类预测

SCI一区 | Matlab实现GAF-PCNN-MSA格拉姆角场和双通道PCNN融合注意力机制的多特征分类预测 目录 SCI一区 | Matlab实现GAF-PCNN-MSA格拉姆角场和双通道PCNN融合注意力机制的多特征分类预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 1.【SCI一区级】Matlab实…...

Observability:使用 OpenTelemetry 和 Elastic 监控 OpenAI API 和 GPT 模型

作者: 来自 Elastic David Hope ChatGPT 现在非常火爆,甚至席卷了整个互联网。 作为 ChatGPT 的狂热用户和 ChatGPT 应用程序的开发人员,我对这项技术的可能性感到非常兴奋。 我看到的情况是,基于 ChatGPT 的解决方案将会呈指数级…...

靡语IT:Vue精讲(一)

Vue简介 发端于2013年的个人项目,已然成为全世界三大前端框架之一,在中国大陆更是前端首选。 它的设计思想、编码技巧也被众多的框架借鉴、模仿。 纪略 2013年,在Google工作的尤雨溪,受到Angular的启发,从中提取自…...

vue3 toRefs之后的变量修改方法

上效果 修改值需要带上解构之前的对象名obj&#xff0c; changeName:()>{ // toRefs 解决后变量修改值方法&#xff1a; 解构前变量.字段新值 obj.name FEIFEI; } } 案例源码 <!DOCTYPE html> <html> <head><me…...

【教程】详解相机模型与坐标转换

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 由于复制过来&#xff0c;如果有格式问题&#xff0c;推荐大家直接去我原网站上查看&#xff1a; 相机模型与坐标转换 - 生活大爆炸 目录 经纬度坐标系 转 地球直角坐标系大地直角坐标系 转 经纬度坐标系地理坐标…...

171基于matlab的随机共振微弱信号检测

基于matlab的随机共振微弱信号检测&#xff0c;随机共振描述了过阻尼布朗粒子受周期性信号和随机噪声的共同作用下,在非线性双稳态系统中所发生的跃迁现象. 随机共振可用于弱信号的检测。程序已调通&#xff0c;可直接运行。...

petalinux_zynq7 驱动DAC以及ADC模块之三:实现C语言API并编译出库被python调用

前文&#xff1a; petalinux_zynq7 C语言驱动DAC以及ADC模块之一&#xff1a;建立IPhttps://blog.csdn.net/qq_27158179/article/details/136234296petalinux_zynq7 C语言驱动DAC以及ADC模块之二&#xff1a;petalinuxhttps://blog.csdn.net/qq_27158179/article/details/1362…...

NXP实战笔记(五):S32K3xx基于RTD-SDK在S32DS上配置ADC的硬件触发同步采样与软件采样过程

目录 1、概述 1.1、软件触发 1.2、硬件触发 - BCTU 1.3、硬件触发 - TRGMUX 1.4、ADC的校准 1.5、ADC时钟配置 2、BTCU硬件触发ADC的SDK配置 3、软件触发ADC 3.1、选择相应Port作为ADC的输入 3.2、ADC配置 3.3、代码示例 1、概述 恩智浦 S32K3xx 系列汽车微控制器…...

pikachu靶场-CSRF

CSRF: 介绍&#xff1a; Cross-site request forgery简称为"CSRF”。 在CSF的攻击场景中攻击者会伪造一个请求&#xff08;这个请求一般是一个链接&#xff09; 然后欺骗目标用户进行点击&#xff0c;用户一旦点击了这个请求&#xff0c;整个攻击也就完成了&#xff0…...

【结合OpenAI官方文档】解决Chatgpt的API接口请求速率限制

OpenAI API接口请求速率限制 速率限制以五种方式衡量&#xff1a;RPM&#xff08;每分钟请求数&#xff09;、RPD&#xff08;每天请求数&#xff09;、TPM&#xff08;每分钟令牌数&#xff09;、TPD&#xff08;每天令牌数&#xff09;和IPM&#xff08;每分钟图像数&#x…...

C语言实现基础数据结构——栈

目录 栈 栈的实现 数组栈 数组栈的实现 栈的初始化 栈的销毁 数据入栈 判断栈是否为空 数据出栈 获取栈顶元素 获取栈内数据个数 项目实现 栈的基础练习 有效的括号 栈 栈是一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的…...

船舶制造5G智能工厂数字孪生可视化平台,推进船舶行业数字化转型

船舶制造5G智能工厂数字孪生可视化平台&#xff0c;推进船舶行业数字化转型。随着数字化时代的到来&#xff0c;船舶行业正面临着前所未有的机遇与挑战。为了适应这一变革&#xff0c;船舶制造企业需要加快数字化转型的步伐&#xff0c;提高生产效率、降低成本并增强市场竞争力…...

【网络编程】okhttp深入理解

newCall 实际上是创建了一个 RealCall 有三个参数&#xff1a;OkHttpClient&#xff08;通用配置&#xff0c;超时时间等&#xff09; Request(Http请求所用到的条件&#xff0c;url等) 布尔变量forWebSocket&#xff08;webSocket是一种应用层的交互方式&#xff0c;可双向交互…...

大功率厚膜电阻器制造 – 优化性能?

通过优化工业大功率电阻器制造工艺&#xff0c;制造商可以提高电阻器的性能和可靠性、容差、额定电压、TCR、稳定性和额定功率。 在本文中&#xff0c;我们将介绍工业功率电阻器的制造过程。我们讨论了材料选择和生产技术及其对性能的潜在影响。 完美的电阻器 在其整个使用寿…...

ElasticStack安装(windows)

官网 : Elasticsearch 平台 — 大规模查找实时答案 | Elastic Elasticsearch Elastic Stack(一套技术栈) 包含了数据的整合 >提取 >存储 >使用&#xff0c;一整套! 各组件介绍: beats 套件:从各种不同类型的文件/应用中采集数据。比如:a,b,cd,e,aa,bb,ccLogstash:…...

gitlab的使用

前一篇文章我们已经知道Git人人都是中心&#xff0c;那他们怎么交互数据呢&#xff1f; • 使用GitHub或者码云等公共代码仓库 • 使用GitLab私有仓库 目录 一、安装配置gitlab 安装 初始化 这里初始化完成以后需要记住一个初始密码 查看状态 二、使用浏览器访问&#xf…...

ES6从入门到精通:前言

ES6简介 ES6&#xff08;ECMAScript 2015&#xff09;是JavaScript语言的重大更新&#xff0c;引入了许多新特性&#xff0c;包括语法糖、新数据类型、模块化支持等&#xff0c;显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var&#xf…...

基于Docker Compose部署Java微服务项目

一. 创建根项目 根项目&#xff08;父项目&#xff09;主要用于依赖管理 一些需要注意的点&#xff1a; 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件&#xff0c;否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

九天毕昇深度学习平台 | 如何安装库?

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子&#xff1a; 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)

前言&#xff1a; 最近在做行为检测相关的模型&#xff0c;用的是时空图卷积网络&#xff08;STGCN&#xff09;&#xff0c;但原有kinetic-400数据集数据质量较低&#xff0c;需要进行细粒度的标注&#xff0c;同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

回溯算法学习

一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由&#xff1a;大部分的转换软件需要收费&#xff0c;要么功能不齐全&#xff0c;而开会员又用不了几次浪费钱&#xff0c;借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

Python+ZeroMQ实战:智能车辆状态监控与模拟模式自动切换

目录 关键点 技术实现1 技术实现2 摘要&#xff1a; 本文将介绍如何利用Python和ZeroMQ消息队列构建一个智能车辆状态监控系统。系统能够根据时间策略自动切换驾驶模式&#xff08;自动驾驶、人工驾驶、远程驾驶、主动安全&#xff09;&#xff0c;并通过实时消息推送更新车…...

Leetcode33( 搜索旋转排序数组)

题目表述 整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nu…...

java高级——高阶函数、如何定义一个函数式接口类似stream流的filter

java高级——高阶函数、stream流 前情提要文章介绍一、函数伊始1.1 合格的函数1.2 有形的函数2. 函数对象2.1 函数对象——行为参数化2.2 函数对象——延迟执行 二、 函数编程语法1. 函数对象表现形式1.1 Lambda表达式1.2 方法引用&#xff08;Math::max&#xff09; 2 函数接口…...

从零开始了解数据采集(二十八)——制造业数字孪生

近年来&#xff0c;我国的工业领域正经历一场前所未有的数字化变革&#xff0c;从“双碳目标”到工业互联网平台的推广&#xff0c;国家政策和市场需求共同推动了制造业的升级。在这场变革中&#xff0c;数字孪生技术成为备受关注的关键工具&#xff0c;它不仅让企业“看见”设…...