2月14(信息差)
🌍杭州:全球数贸港核心区建设方案拟出台 争取国家支持杭州在网络游戏管理给予更多权限
🎄Kimi深夜炸场:满血版多模态o1级推理模型!OpenAI外全球首次!Jim Fan:同天两款国产o1绝对不是巧合!
✨切尔诺贝利核电站传出爆炸声 泽连斯基发声
14日1时50分左右,切尔诺贝利核电站的“新安全封隔”设施内传出爆炸声并出现火情,该封隔设施负责保护切尔诺贝利核电站4号反应堆。据了解,一架无人机撞上了“新安全封隔”设施顶部。
1.Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源
1. 模型仅靠“视觉”即可学习知识
面向本次研究,研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。
其中,围棋可以很好地评估模型的规则学习、推理和规划能力,且围棋关键信息仅有黑白两色及棋盘,可将外观、纹理等复杂细节与高级知识的评估分离,非常适合对上述问题的探索。同时,团队还选取了机器人任务,以考察模型在理解控制规则和规划任务方面的能力。
在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。
模型架构上,团队使用朴素的自回归模型实例化视频生成器,它包含一个 VQ-VAE 编码器 - 解码器和一个自回归 Transformer 。编码器负责将视频帧(画面)转换为离散标记,Transformer 在训练期间使用这些标记预测下一标记。
在推理过程中,Transformer 生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下,学习和执行具体任务。
基于上述朴素的框架对围棋和机器人视频数据进行建模,团队观测到,模型可以掌握基本的围棋规则、走棋策略以及机器人操纵能力。
但团队同时也发现,视频序列的知识挖掘效率显著落后于文本形式,具体如下图所示。
团队将这归因于——视频中存在大量冗余信息,影响了模型的学习效率。
例如,学习棋子移动过程中,模型只需通过状态序列中少量位置标记编码,但面向视频数据,编码器则会产生过多冗余标记,不利于模型对复杂知识的快速学习。
2. 压缩视觉变化,让视频学习更加高效
根据上述观测结果,团队提出 VideoWorld 。它在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,实现了更有效的视频学习。
通常,视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息,这导致知识被稀疏地嵌入标记中。为此,VideoWorld 引入了一个潜在动态模型(Latent Dynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。
举例而言,围棋中的多步棋盘变化或机器人连续动作均表现出强时间相关性,通过将这些多步变化压缩成紧凑嵌入,不仅让策略信息更紧凑,还将前向规划指导信息进行编码。
LDM 采用了 MAGVITv2 风格的编码器 - 解码器结构,同时取消时间维度下采样,以保留每帧细节。
对于一个视频片段,LDM 采样每一帧及其后续固定数量帧,编码器先以因果方式提取每帧特征图,且进行量化,以保留详细视觉信息。
接下来,LDM 定义了一组注意力模块和对应可学习向量。每个向量通过注意力机制捕捉第一帧至后续固定帧的动态变化信息,然后通过 FSQ 量化。其中,量化器作为信息筛选器,防止 LDM 简单记忆后续帧原始内容,而非压缩关键动态信息。
最后,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧,最终实现对未来动作的预测和规划,实现对知识的认知学习。
下图为模型架构概览,左侧为整体架构,右侧为潜在动态模型。
通过使用多个向量顺序编码第一帧到后续多帧的动态变化,VideoWorld 实现了紧凑且信息丰富的视觉表示,可以捕捉视觉序列中的短期和长期依赖关系。这对于长期推理和规划任务至关重要。
通过引入 LDM ,VideoWorld 在仅有 300M 参数量下,达到专业 5 段的 9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld 也展现出了对多任务、多环境的泛化能力。 3. 纯视觉模型可“预测”未来,并能“理解”因果关系觉模型可“预测”未来,并能“理解”因果关系
3.纯视觉模型可“预测”未来,并能“理解”因果关系
针对 LDM 提高视频学习效率的原因,团队进行了更为细致地分析,得出如下 3 点结论:
- LDM 建模了训练集的数据模式。
下图为 LDM 潜在编码 UMAP 可视化呈现,面向围棋和机器人训练集,每个点代表一个潜在编码。
其中,UMAP 是一种流行的降维算法,用于将高维数据映射到低维空间,展现模型特征提取情况。
在下图左侧中,奇数步表示白方走棋,偶数步表示黑方,图例展示了新增黑棋的一些常见模式。UMAP 可视化表明:LDM 建模了训练集中常见的走棋模式,并能将短期和长期数据模式压缩至潜在空间中,提取并总结走棋规律。
同理,下图右侧为机械臂沿 X/Y/Z 轴运动方向可视化潜在编码,随着步数(Step)增多,也能看到 LDM 可以建模多步动态依赖关系。
- LDM 帮助模型在测试时进行前向规划。
团队还研究了 LDM 在模型推理中的价值。
如下图 UMAP 可视化所示,在测试阶段,模型生成的潜在编码按照时间步(Time-step)进行分组,使得模型能够从更长远视角进行围棋决策。
在机器人场景实验中,团队也观察到了类似现象。
下图展示了 VideoWorld 在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组,突显了模型逐步捕捉特定任务长程变化的能力。
- LDM 可以生成因果相关的编码。
为进一步研究潜在编码的影响,团队进行了一项干预实验:用随机标记替换不同时间步的潜在编码,并观察其对模型性能的影响。
实验结果显示,干预第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队认为:改变第一个编码,即下一时间步的最佳决策,会影响所有未来的决策,侧面说明模型可生成因果相关编码,理解因果关系。
2.苹果据称继续与百度合作 为中国iPhone用户开发AI功能 以分散风险
据媒体援引消息人士报道,尽管与阿里巴巴建立了合作关系,但苹果公司仍继续与百度合作,为中国iPhone用户开发人工智能(AI)功能。
据悉,百度正在开发一种能处理图片和文本的AI搜索功能,并对中文版Siri语音助手进行升级,这些功能属于“Apple Intelligence”(苹果智能)套件的一部分。
苹果在去年的WWDC(全球开发者大会)上首次公布了Apple Intelligence,并宣布与AI公司OpenAI合作。去年12月,Apple Intelligence在美国、英国、澳大利亚和加拿大等英语国家率先上线。
有消息称苹果自 2023 年起开始测试来自中国开发者的不同AI模型,以推出面向中国市场的Apple Intelligence,并且一度选择了百度作为主要合作伙伴。
据媒体周二报道称,苹果近几个月开始考虑其他选项,除了腾讯、阿里和字节跳动等中国互联网巨头外,该公司还测试了近来火爆的AI初创公司深度求索(DeepSeek)的AI模型。
这一消息公布后,苹果和阿里股价均大幅上涨。
在经过权衡之后,苹果最终选择了与阿里合作开发AI功能。阿里董事局主席蔡崇信周四在迪拜的一场峰会上证实了这一合作关系。
苹果同时与百度和阿里合作,显示出其在中国市场采取了多方合作的策略,以降低风险。苹果在中国市场面临着来自华为和Vivo等本土智能手机品牌的激烈竞争。
在国际市场,Apple Intelligence依靠的是苹果自研AI模型和与OpenAI的合作,后者的聊天机器人ChatGPT在处理iPhone的复杂任务上发挥了更多作用。
3.Anthropic秘密「混合模型」 Claude 4首曝细节,硬刚GPT-5!深度推理模型来了
Anthropic终于要开始搞点事情啦!
近期的「推理模型」热潮中,Anthropic除了其CEO打了几个嘴炮外,还没有掏出一个拿得出手的产品。
在这样下去,可能要退出AI一线模型玩家行列了。Anthropic自己显然不想看到这种情况发生。
就在刚刚,有消息称,Anthropic会在未来几周内发布其全新的「混合AI」模型。
Anthropic版「推理模型」,测试时计算完全掌控
在OpenAI去年秋季发布其「推理模型」后,谷歌以及国内众多AI公司纷纷推出了自己的模型。作为一个主要的竞争对手,Anthropic在这场推理竞赛中却明显缺席。
现在,我们知道了原因——Anthropic开发的是一款融合了推理能力的混合AI模型。
具体来说,这种「混合模型」可以使用更多的计算资源来计算复杂问题,但也能像传统LLM一样快速处理更简单的任务,无需额外计算。
此外,模型还可以让客户控制它在查询时使用的算力——换句话说就是,它在解决问题时「推理」的时长。
开发者可以通过一个滑动条来调整模型在尝试找出答案或完成任务时将处理或生成的token数量。
通过将滑动条设置为「0」,开发者可以将Anthropic模型作为一个普通的、非推理AI使用,类似于OpenAI的GPT-4o。
OpenAI也有类似的功能,允许开发者控制其推理模型「思考」的时间。
但开发者仅限于「低」、「中」和「高」三种设置,很难预测模型在这些级别上实际会处理多少token——因此,也很难预测单次查询的成本。
现在,OpenAI可能转而成为追随者。
2月13日,CEO Sam Altman表示,OpenAI计划将其Orion大语言模型作为GPT-4.5发布——这是一个传统的、非推理模型。之后,则会把GPT模型和o系列推理模型合并为一个单一的AI。
在外界看来,这和Anthropic尚未公开的技术路线可谓是如出一辙。(去年11月The Information曾做过相关预测)
从Anthropic和OpenAI设计模型和产品的方式,我们可以清晰地看出它们在竞争激烈的AI市场中的战略定位。
OpenAI显然更希望ChatGPT成为面向消费者或个人专业人士的突破性应用,这可能就是它在推理模型中使用低-中-高命名法的原因,因为这更容易让普通用户理解。
Anthropic则更专注于企业市场,这就是为什么它致力于开发能让开发者通过滑动条方式更好地控制成本、速度和定价的功能。
据知情人士透露,Anthropic即将推出的模型在编程方面也取得了特别显著的进展,这已经成为生成式AI在企业中最强大的应用之一。
当允许Anthropic模型使用最长时间「思考」时,在某些编程基准测试中,它的表现已经超过了客户目前能访问到的最先进的OpenAI推理模型(即o3-mini high)。
这位人士表示,虽然OpenAI的推理模型在更学术性的问题上表现更好,比如竞争性编程问题,但Anthropic的模型更擅长处理企业工程师可能遇到的实际编程任务。
例如,Anthropic的模型更善于理解由数千个文件组成的复杂代码库,并能一次性生成可用的完整代码行。
不过,仍然悬而未决的重要问题是,Anthropic的新模型将收取多少费用,以及它是否会比OpenAI最近发布的o3-mini推理模型更便宜。后者因比OpenAI最受欢迎的非推理模型GPT-4o更便宜而给开发者留下了深刻印象。
目前还不清楚像DeepSeek和谷歌最新的Gemini模型这样的超低价AI是否会推动所有模型的价格趋近于零。
就目前来看,市场上似乎在进行着两场不同的竞争:
- 在AI开发的前沿,那些在推理或编程方面能够逐步改进的模型将继续保持定价优势;
- 在另一个更大的市场中,那些「够用就好」(good-enough)的模型则可能会继续展开价格战。
对于这个全新的「混合模型」,有网友认为,Anthropic新模型的成败将取决于它的成本,毕竟性能也很强的o3-mini是一个小模型,成本很低。
2027年收入飙至345亿美元
根据The Information的报道,Anthropic在2023年烧了56亿美元现金后,计划在2025年将支出减少近半,并在2027年实现高达345亿美元的收入。
要实现这样的增长,Anthropic需要大幅缩小与市场领导者OpenAI之间的差距。目前OpenAI的收入可能是Anthropic的5倍以上——在2027年实现4,400亿美元的收入。
Anthropic和OpenAI一直是企业在生成式AI投资方面的风向标,因此科技投资者正密切关注两家公司的表现。
在最可能的基本情况下,Anthropic表示其收入将从2025年的22亿美元增长至2027年的120亿美元。
目前外界并不知道Anthropic在2024年的具体收入,不过其月收入从年初的约800万美元上升到年底的约8,000万美元,这表明其全年收入在4亿至6亿美元之间。Anthropic即将推出的新一代旗舰模型Claude有望支持其宏伟的增长目标。据知情人士透露,新模
型预计在未来几周内发布。
然而,最近像DeepSeek这样的超低成本模型的发布,引发了人们对AI公司是否需要降价以保持竞争力的质疑。
在DeepSeek发布后,Anthropic也是少数几个没有大幅降低模型价格的AI实验室之一。
从Anthropic的融资材料来看,公司认为通过API向企业提供技术服务的机会,要大于与ChatGPT等聊天机器人竞争。
OpenAI的ChatGPT在普通用户以及程序员、营销人员和律师等专业人士群体中取得了突破性成功,截至去年底,其订阅收入每月超过3.33亿美元。
相关文章:

2月14(信息差)
🌍杭州:全球数贸港核心区建设方案拟出台 争取国家支持杭州在网络游戏管理给予更多权限 🎄Kimi深夜炸场:满血版多模态o1级推理模型!OpenAI外全球首次!Jim Fan:同天两款国产o1绝对不是巧合&#x…...

ElementUI 的组件 Switch(开关)如何让文字显示在按钮上
效果图: 一、引入switch组件 给组件自定义一个类:tableScopeSwitch,设置开关的值和对应展示的文字(开为 1,并展示启用;关为 0,并展示禁用)。 <div class"tableScopeSwitch…...

Redis常用的五种数据结构详解
一、Redis 数据库介绍 Redis 是一种键值(Key-Value)数据库。相对于关系型数据库(比如 MySQL),Redis 也被叫作非关系型数据库。 像 MySQL 这样的关系型数据库,表的结构比较复杂,会包含很多字段&…...

stm32 CubeMx 实现SD卡/sd nand FATFS读写测试
文章目录 stm32 CubeMx 实现SD卡/SD nand FATFS读写测试 1. 前言 2. 环境介绍 2.1 软硬件说明 2.2 外设原理图 3. 工程搭建 3.1 CubeMx 配置 3.2 SDIO时钟配置说明 3.2 读写测试 3.2.1 添加读写测试代码 3.3 FATFS文件操作 3.3.1 修改读写测试代码 3.4 配置问题记…...

【Unity】 HTFramework框架(六十)Assistant助手(在Unity中接入DeepSeek等AI语言大模型)
更新日期:2025年2月14日。 Github源码:[点我获取源码] Gitee源码:[点我获取源码] 索引 Assistant助手安装Ollama使用Assistant(在编辑器中)打开Assistant配置Assistant使用Assistant处理Assistant回复的内容使用推理大…...
web自动化笔记(二)
文章目录 一、参数化测试1.pytest命令2.实现参数化测试3.填写地址测试4.生成Allure测试报告5.关键字驱动 二、案例1.实现后台登录1.1登录1.2.处理验证码1.3.封装识别验证码函数 2.通过cookie保持登录2.1给页面添加cookie2.2获取页面的cookie2.3自动化获取cookie 三、excel进行数…...

IIS部署netcore程序后,出现500.30错误解决方案之一
netcore程序部署到IIS后一直出现错误,访问首页后会跳转到登录页地址,然后看到如下错误 HTTP Error 500.30 - ANCM In-Process Start Failure Common solutions to this issue: The application failed to start The application started but then stopp…...

spring 学习(spring-Dl补充(注入不同类型的数据))
前言 在之前的案例,列举的最多的是注入 对象。本篇博客则是补充说我们不仅可以注入对象 还可以注入其他的数据类型包括基本数据类型,引用数据类型。 注入基本数据类型 常见的基本数据类型有:short char int long float double boolean …...

Docker Desktop之Nginx
安装Nginx 把这个复制 到docker 中执行 即可...
利用ffplay播放udp组播视频流
ffplay -fs -fflags nobuffer -flags low_delay -analyzeduration 0 -probesize 32 -framedrop -sync ext -strict experimental udp://224.1.1.1:5001 -fs : 全屏显示 -fflags nobuffer : 禁用输入缓冲(减少100-200ms缓冲延迟) -an…...

【教程】MySQL数据库学习笔记(七)——多表操作(持续更新)
写在前面: 如果文章对你有帮助,记得点赞关注加收藏一波,利于以后需要的时候复习,多谢支持! 【MySQL数据库学习】系列文章 第一章 《认识与环境搭建》 第二章 《数据类型》 第三章 《数据定义语言DDL》 第四章 《数据操…...
2025.2.14——1400
2025.2.14——1400 A 1400 B 1400 C 1400 D 1400 E 1400 F 1400 G 1400 H 1400 ------------------------------------------------ 思维排序/双指针/二分/队列匹配思维二分/位运算思维数学思维 A 一眼想到的是维护信息计数。维护两个信息同时用长的一半去找短的一半…...
DeepSeek教unity------MessagePack-04
Union 联合 MessagePack for C# 支持序列化接口类型和抽象类类型的对象。它的行为类似于 XmlInclude 或 ProtoInclude。在 MessagePack for C# 中,这些被称为Union。只有接口和抽象类可以被 Union 属性注解。需要唯一的联合键。 /******************************…...
Java异常体系深度解析:从Exception到Error
文章目录 前言一、Java异常体系概览ExceptionError 二、受检异常与非受检异常受检异常(Checked Exception)非受检异常(Unchecked Exception) 三、常见的Error类型四、异常处理机制try-catch-finally结构Throws关键字 五、自定义异…...
【linux】文件与目录命令 - ln
文章目录 1. 基本用法2. 常用参数3. 用法举例4. 注意事项 ln 命令用于在文件系统中创建硬链接或符号链接(软链接),是文件共享和路径引用的常用工具。 1. 基本用法 语法: ln [选项] 源文件 [目标文件/目标目录]功能: 创…...

Xilinx kintex-7系列 FPGA支持PCIe 3.0 吗?
Xilinx kintex-7系列资源如下图 Xilinx各系列的GT资源类型和性能 PCIe Gen1/2/3的传输速率对比 K7上面使用的高速收发器GTX最高速率为12.5GT/s, PCIe Gen2 每个通道的传输速率为 5 GT/s。 PCIe Gen3 每个通道的传输速率为 8 GT/s。 所以理论上硬件支持PCIe3.0&#…...
无人机遥感技术在农业中的具体应用:株数和株高、冠层覆盖度、作物倒伏检测、叶面积指数、病虫害监测、产量估算、空间数据综合制图
近年来,随着无人机技术的飞速发展,其在智慧农业领域的应用越来越广泛。无人机遥感作为一种高效的空间大数据获取手段,能够为农业生产提供多时相、多维度、大面积的农情信息,为实现精准农业和智慧农业提供了有力支持。今天…...
前端框架React知识回顾
首先,得确定用户的需求,可能是一个准备面试的前端开发者,想要系统复习React相关知识点。接下来要考虑React的核心概念,比如组件、生命周期、Hooks这些肯定是必须的。然后,面试中常问的问题,比如虚拟DOM、状…...
坑多多之ac8257 i2c1 rtc-pcf8563
pcf85163 ordering information Ordering information Package Description Version Marking code PCF85163T/1 SO8 ① SOT96-1 PF85163 PCF85163TS/1 TSSOP8 ② SOT505-1 85163 ①plastic small outline package; 8 leads;body width 3.9 mm ②plastic thin…...

webpack构建流程
文章目录 [TOC](文章目录) 运行流程初始化流程编译构建流程compile编译make 编译模块build module 完成模块编译 输出流程seal输出资源emit输出完成 小结 运行流程 是一个串行的过程,它的工作流程就是将各个插件串联起来 在运行过程中会广播事件,插件只…...

调用支付宝接口响应40004 SYSTEM_ERROR问题排查
在对接支付宝API的时候,遇到了一些问题,记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

23-Oracle 23 ai 区块链表(Blockchain Table)
小伙伴有没有在金融强合规的领域中遇见,必须要保持数据不可变,管理员都无法修改和留痕的要求。比如医疗的电子病历中,影像检查检验结果不可篡改行的,药品追溯过程中数据只可插入无法删除的特性需求;登录日志、修改日志…...

深入理解JavaScript设计模式之单例模式
目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...
Frozen-Flask :将 Flask 应用“冻结”为静态文件
Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是:将一个 Flask Web 应用生成成纯静态 HTML 文件,从而可以部署到静态网站托管服务上,如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...

有限自动机到正规文法转换器v1.0
1 项目简介 这是一个功能强大的有限自动机(Finite Automaton, FA)到正规文法(Regular Grammar)转换器,它配备了一个直观且完整的图形用户界面,使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...

基于SpringBoot在线拍卖系统的设计和实现
摘 要 随着社会的发展,社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 在线拍卖系统,主要的模块包括管理员;首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

C/C++ 中附加包含目录、附加库目录与附加依赖项详解
在 C/C 编程的编译和链接过程中,附加包含目录、附加库目录和附加依赖项是三个至关重要的设置,它们相互配合,确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中,这些概念容易让人混淆,但深入理解它们的作用和联…...
C++.OpenGL (20/64)混合(Blending)
混合(Blending) 透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...