一周热门|比GPT-4强100倍,OpenAI有望年底发布GPT-Next;1个GPU,1分钟,16K图像

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。
01 企业动态
Ilya 新公司 SSI 官宣融资 10 亿美元
据路透社报道,由 OpenAI 联合创始人、前首席科学家 Ilya Sutskever 在 2 个多月前共同创立的安全超级智能(SSI)公司,完成融资 10 亿美元。这笔融资将用于帮助开发远超人类能力的安全人工智能(AI)系统。SSI 拒绝透露公司最新估值,但接近此事的消息人士称 SSI 的估值已经高达 50 亿美元。Ilya 表示,他将采用与 OpenAI 不同的方式继续践行 scaling law,但尚未透露任何细节。
OpenAI 有望年底发布 GPT-Next,比 GPT-4 强 100 倍
据《科创板日报》报道,在最近举行的 KDDI 峰会上,OpenAI 日本子公司首席执行官 Tadao Nagasaki 透露,代号为“GPT-Next”的新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型性能的提升归功于其优化的架构设计和学习效率的改进,而不是单纯依赖于庞大的计算资源。
智谱完成新一轮数十亿元融资
近日,智谱以 200 亿元的投前估值,完成了新一轮融资,金额达数十亿元。本轮领投方为中关村科学城公司,其为海淀区政府设立的市场化投资平台。
Anthropic 推出 Claude Enterprise 计划
Anthropic 为其人工智能(AI)聊天机器人 Claude 推出一个新的订阅计划——Claude Enterprise,主要面向希望获得更多管理控制和更高安全性的企业客户。Claude Enterprise 允许企业客户上传公司专有文件,帮助他们分析信息、回答相关问题、创建图形和简单的网页,或者充当专用的 AI 助手,其上下文窗口为 50 万 token,可以在一次提示中处理多达 20 万行代码、几十份 100 页的文档或两小时的音频转录。
马斯克:超级 AI 训练集群 Colossus 已上线
日前,马斯克在 X 上发帖表示,其人工智能(AI)初创公司 xAI 已经上线了庞大的 AI 训练系统 Colossus。Colossus 由 10 万张英伟达 H100 GPU 驱动。“Colossus 是世界上最强大的 AI 训练系统,”马斯克表示,“这一系统的规模将在几个月内翻一番,达到 20 万张 GPU(其中 5 万张为 H200)。”
无问芯穹完成近 5 亿元 A 轮融资
日前,无问芯穹宣布完成近 5 亿元 A 轮融资,本轮融资联合领投方为社保基金中关村自主创新专项基金、启明创投和洪泰基金,跟投方包括联想创投、小米、软通高科等。据了解,无问芯穹本次融资募集的资金将用于加强技术人才吸纳与技术研发,做 AI 模型算力的“超级放大器”。
腾讯发布新一代大模型“混元 Turbo”
据财联社报道,在 2024 腾讯全球数字生态大会上,腾讯发布了新一代大模型——腾讯混元 Turbo。该模型采用 MoE 架构,比上一代产品推理效率提升 100%,推理成本降低 50%。此外,腾讯混元 Turbo 的价格也比混元 Pro 降低50%,输出价格为0.05元/千tokens,输入价格为0.015元/千tokens。
面壁智能推出全新 MiniCPM3.0 基座模型
日前,国内大模型厂商面壁智能推出端侧模型面壁小刚炮系列升级版本 MiniCPM3.0 基座模型。据介绍,MiniCPM3.0 参数大小为 4B,性能超越 GPT-3.5,且量化后仅 2GB 内存,对端侧友好,具有无限长文本的特色。
02 技术前瞻
清华、智谱团队推出 LongCite:让 LLM 在长上下文问答中生成精细引用
尽管目前的长上下文大语言模型(LLM)在回答用户基于大量文本的问题时表现出了强大的能力,但由于其回答中缺乏引用(citation),使得用户很难验证,这导致了人们对其潜在幻觉的可信度的担忧。
在这项工作中,来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答,从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite,这是一种自动基准,用于评估当前 LLM 在带引用的长上下文问答(LQAC)中的性能,显示出相当大的改进空间。
为此,他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF(Coarse to Fine),并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后,他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B,成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。
LongBench-Cite 上的评估结果表明,他们训练的模型在引用质量方面达到了 SOTA,超过了包括 GPT-4o 在内的先进专有模型。
首个混合 Mamba 和 Transformer 的多模态大语言模型
扩展多模态大语言模型(MLLM)的长上下文能力涉及一系列系统优化工作,包括模型架构、数据构建和训练策略。在这项工作中,来自香港中文大学、深圳大数据研究院的研究团队,将模型架构调整为 Mamba 和 Transformer 模块的混合体,并提出了首个混合 MLLM——LongLLaVA(Long-Context Large Language and Vision Assistant)。它不仅在各种基准测试中取得了具有竞争力的结果,还保持了高吞吐量和低内存消耗。特别是,它可以在单个 A100 80GB GPU 上处理近千张图像,为各种任务展示了广阔的应用前景。
100% 开放的混合专家语言模型
来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者,推出了一个完全开放的 SOTA 语言模型 OLMoE,它利用了稀疏混合专家(MoE)机制。OLMoE-1B-7B 拥有 70 亿参数,每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练,并进一步创建了 OLMoE-1B-7B-Instruct。他们的模型在性能上超越了所有具有相似激活参数的现有模型,甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 等大模型。
LinFusion:1 个 GPU,1 分钟,16K 图像
新加坡国立大学团队提出了一种广义线性注意力范式,来作为广泛流行的线性 token 混合器的一种低秩近似。为了节省训练成本并更好地利用预训练模型,他们从预训练的 StableDiffusion。初始化该模型并提炼知识。
结果发现,经过相对较少的训练提炼出的模型,即 LinFusion,在性能上与原始 SD 持平甚至更优,同时显著降低了时间和内存复杂度。广泛实验表明,LinFusion 提供了满意的零样本跨分辨率生成性能,能够生成 16K 高分辨率图像。此外,它与预训练的 SD 组件高度兼容,如 ControlNet 和 IP-Adapter,无需进行适配。
MIT 团队提出上下文归因方法 ContextCite
语言模型在生成回答时是如何使用提供的上下文信息的?我们能否推断出一个特定生成的陈述实际上是基于上下文,还是一个误解,或者完全是编造的?为了帮助回答这些问题,麻省理工学院(MIT)团队提出了上下文归因问题:确定是上下文的哪些部分(如果有的话)导致模型生成了一个特定的陈述。然后,他们提出了一种简单且可扩展的上下文归因方法 ContextCite,其可以应用于任何现有的语言模型之上。
SciLitLLM:如何让 LLM 理解科学文献?
为了开发专门用于科学文献理解的大语言模型(LLM),来自深势科技、中国科学技术大学的研究团队提出了一种混合策略,将持续预训练(CPT)和监督微调(SFT)结合起来,从而同时注入科学领域知识并增强特定领域任务的指令遵循能力。应用这一策略,他们推出了 SciLitLLM,专门用于科学文献理解。
Mini-Omni:首个用于实时语音交互的完全端到端开源模型
在这项工作中,研究团队推出了一种基于音频的端到端对话模型 Mini-Omni,其能够进行实时语音交互。为了实现这一功能,他们提出了一种基于文本指令的语音生成方法,并在推理过程中采用 batch 并行策略,从而进一步提高性能。这一方法还有助于保留原始模型的语言能力,并将退化程度降到最低,从而使其他工作能够建立实时交互能力。
03 政策法规
浙江:鼓励开发适配人形机器人的通用多模态大模型
据财联社报道,浙江将鼓励大模型企业开发适配人形机器人的通用多模态大模型,加速“大脑”训练,强化语音交互、逻辑推理、任务规划等能力,鼓励人形机器人企业开发运动控制、平衡协调等专用模型,熟化“小脑”能力,聚焦视觉、听觉、触觉搭建多模态感知系统,提升多传感融合处理水平。
欧盟签署《人工智能框架公约》
日前,欧盟轮值主席国匈牙利在社交媒体上发文说,当天匈牙利代表欧盟在立陶宛首都维尔纽斯签署了《人工智能框架公约》。《人工智能框架公约》是由欧洲委员会牵头推进制定,经过多年筹备,由 50 多个国家历时两年起草,并于今年 5 月获得通过。
04 专家观点
杨立昆:大语言模型不会达到人类智能水平
日前,图灵奖得主杨立昆发文称,用于人工智能(AI)训练的可靠数据来源正在逐渐枯竭,相比之下,人工“后期训练”的成本正在快速增长。他表示,如今 AI 模型的表现已趋于饱和,所以目前的大语言模型(LLM)不会达到人类智能水平,“但这不意味着它们没有用”。
沈向洋:须重视 AI 的治理,打造负责任的 AI
日前,香港科技大学校董会主席、美国国家工程院外籍院士沈向洋表示,从人机共存的新范式到大模型的行业落地,折射的是技术与商业形成闭环、让技术创新真正改变世界的本质。在人工智能(AI)的颠覆性力量逐步显化的过程中,须重视 AI 的治理,打造负责任的 AI。
联合国秘书长:让 AI 造福全人类
日前,联合国秘书长安东尼奥·古特雷斯在人工智能和能力建设研讨会上发表讲话指出:我们正处在一个关键时刻。人工智能(AI)正在飞速发展,以我们刚刚开始理解的方式改变着我们的世界。然而,我们面临着一个严峻的现实:AI 机遇的分享并不均衡。他警告说:“我们必须抓住这一历史机遇,为 AI 的包容性治理奠定基础——造福全人类。”
观点:SearchGPT 在处理一些购物和本地查询时依然很吃力
OpenAI 的搜索工具 SearchGPT 通过汇总从不同网页中提取的信息,提供标明明确来源的流畅答案。根据对接触过这一工具的人的采访、网上分享的视频和一家搜索营销公司的分析,该工具目前远未达到取代谷歌的水平,其在处理一些购物和本地查询时依然很吃力,有时还会出现不真实或“幻觉”信息。
05 其他
MIT 团队推出数据集审查工具 DPExplorer
来自麻省理工学院(MIT)的研究团队及其合作者开发了一种名为 “Data Provenance Explorer” 的结构化审查工具,其通过自动生成详细的数据来源卡片,帮助人工智能(AI)从业者选择更适合其大模型的训练数据。通过使用这一工具,他们将无法验证的信息从 72% 降至 30%,明显降低了数据的偏差,有效提高了数据的可追溯性和透明度。
英国首个由 AI 教授课的“无教师”课堂
伦敦一所学校将推出英国首个“无教师”的普通中等教育证书课程,使用人工智能(AI)取代人类教师。20 名学生将通过电脑上的 AI 平台和 VR 头戴式设备进行教学。这些平台了解学生擅长什么,以及他们需要更多帮助,然后制定个性化的教学计划。三名“学习教练”将监督学生的行为并提供支持,以及教授 AI 难以掌握的科目,如艺术。
相关文章:
一周热门|比GPT-4强100倍,OpenAI有望年底发布GPT-Next;1个GPU,1分钟,16K图像
大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。 01 企业动态 Ilya 新公司 SSI 官宣融资 10 亿美元 据路透社报道,由 OpenAI 联合创始人、前首席科学家 Ilya Sutskever 在 2 个多月前共同创…...
软考流水线计算
某计算机系统输入/输出采用双缓冲工作方式,其工作过程如下图所示,假设磁盘块与缓冲区大小相同,每个盘块读入缓冲区的时间T为10μs,由缓冲区送至用户区的时间M为6μs,系统对每个磁盘块数据的处理时间C为2μs。若用户需要…...
1份可以派上用场丢失数据恢复的应用程序列表
无论如何,丢失您的宝贵数据是可怕的。您的 Android 或 iOS 设备可能由于事故、硬件损坏、存储卡问题等而丢失了数据。这就是为什么我们编制了一份可以派上用场以恢复丢失数据的应用程序列表。 如果您四处走动,您大多会随身携带手机或其他移动设备。这些…...
MySQL Workbench 超详细安装教程(一步一图解,保姆级安装)
前言: MySQL Workbench 是一款强大的数据库设计和管理工具,它提供了图形化界面,使得数据库的设计、管理、查询等操作变得更加直观和便捷。本文将详细介绍如何在 Windows 系统上安装 MySQL Workbench。相信读者看这篇文章前一定安装了MySQL数…...
深度学习常见面试题及答案(16~20)
算法学习、4对1辅导、论文辅导或核心期刊以及其他学习资源可以通过公众号滴滴我 文章目录 16. 简述深度学习中的批量归一化(Batch Normalization)的目的和工作原理。一、批量归一化的目的1. 加速训练收敛:2. 提高模型泛化能力:3. …...
Packet Tracer - IPv4 ACL 的实施挑战(完美解析)
目标 在路由器上配置命名的标准ACL。 在路由器上配置命名的扩展ACL。 在路由器上配置扩展ACL来满足特定的 通信需求。 配置ACL来控制对网络设备终端线路的 访问。 在适当的路由器接口上,在适当的方向上 配置ACL。…...
Langchain-chatchat源码部署及测试实验
一年多前接触到Langchain-chatchat的0.2版本,对0.2版本进行了本地部署和大量更新,但0.2版本对最新的大模型支持不够好,部署框架支持也不好且不太稳定,特别是多模态大模型,因此本次主要介绍0.3版本的源码部署,希望对大家有所帮助。Langchain-chatchat从0.3版本开始,支持更…...
【Linux】线程(第十六篇)
目录 线程 1.线程基本概述: 2.线程类型: 3.线程间的共享资源与非共享资源 4.线程原语 1.线程创建函数 2.获取当前线程id的函数 3.回收线程资源 4.将线程设置为分离态 5.结束线程 6.退出线程 线程 1.线程基本概述: 是操作系统能够…...
2024华为杯研赛E题保姆级教程思路分析
E题题目:高速公路应急车道紧急启用模型 今年的E题设计到图像/视频处理,实际上,E题的难度相对来说较低,大家不用畏惧视频的处理,被这个吓到。实际上,这个不难,解决了视频的处理问题,…...
国内可以使用的ChatGPT服务【9月持续更新】
首先基础知识还是要介绍得~ 一、模型知识: GPT-4o:最新的版本模型,支持视觉等多模态,OpenAI 文档中已经更新了 GPT-4o 的介绍:128k 上下文,训练截止 2023 年 10 月(作为对比,GPT-4…...
Linux环境Docker安装Mongodb
Linux环境Docker安装Mongodb 环境要求拉取指定版本镜像创建映射目录(相当于数据存放于容器外,容器被删除不会影响数据)启动容器 进入mongo命令行为指定db创建新用户查看mongodb的容器id进入命令行查看所有db切换db为指定db创建新用户使用新账…...
PyTorch 池化层详解
在深度学习中,池化层(Pooling Layer)是卷积神经网络(CNN)中的关键组成部分。池化层的主要功能是对特征图进行降维和减少计算量,同时增强模型的鲁棒性。本文将详细介绍池化层的作用、种类、实现方法…...
Intel架构的基本知识
1.字节序 CPU的字节序分为LittleEndian和BigEndian。 所谓Endian,就是多字节数据在内存中的排列方式。 例如,假设有一个整数0x11223344: LittleEndian的排列方式是,从内存的低地址开始,依次存放 0x44 0x33 0x22 0x11; BigEndian的排列方式是,从内存的低地址开始,依…...
Element Plus 中Input输入框
通过鼠标或键盘输入字符 input为受控组件,他总会显示Vue绑定值,正常情况下,input的输入事件会正常被响应,他的处理程序应该更新组件的绑定值(或使用v-model)。否则,输入框的值将不会改变 不支…...
大模型中常见 loss 函数
loss 函数 首先,Loss 是允许不降到 0 的,模型计算的 loss 最终结果可以接近 0。 可以成为 loss 函数的条件## 常用 loss 以下函数调用基于 Pytorch,头文件导入: import torch.nn as nn 均方差(MSE) nn.…...
(十六)Ubuntu 20.04 下搭建PX4+MATLAB 仿真环境(HITL)
在文章(十五)Ubuntu 20.04 下搭建PX4MATLAB 仿真环境我们学习了如何配置仿真环境,在本节,主要进行HITL的仿真环境搭建。 根据(十五)Ubuntu 20.04 下搭建PX4MATLAB 仿真环境完成配置到如下界面:…...
Matlab simulink建模与仿真 第十七章(补充离散库和补充数学库)
参考视频:simulink1.1simulink简介_哔哩哔哩_bilibili 一、补充离散库和补充数学库中的模块概览 1、补充离散库 注:每个版本的补充离散库不一定相同,也不是每个版本的库都有如上所有模块。 2、补充数学库 二、离散直接传递函数Ⅱ模块 1、…...
Android Glide:让图片加载从未如此简单
在 Android 开发中,图片加载一直是一个关键环节。无论是从网络还是本地加载图片,都需要考虑到性能、内存管理和用户体验等多个方面。而在这方面,Glide 成为了众多开发者的首选库之一。本文将带你深入了解 Glide 的强大之处,并介绍如何在项目中快速集成和使用 Glide。 为什…...
YOLOv9改进策略【注意力机制篇】| 2024 SCSA-CBAM 空间和通道的协同注意模块
一、本文介绍 本文记录的是基于SCSA-CBAM注意力模块的YOLOv9目标检测改进方法研究。现有注意力方法在空间-通道协同方面未充分挖掘其潜力,缺乏对多语义信息的充分利用来引导特征和缓解语义差异。SCSA-CBAM注意力模块构建一个空间-通道协同机制,使空间注意力引导通道注意力增…...
Obsidian 全部笔记共享配置文件,obsidian仓库-文件夹配置统一化
obsidian仓库-文件夹配置统一化 在每次新建obsidian仓库(vaults)时,仓库的主题和快捷键等都需要重新设置,这是因为每次创建新的仓库时 新仓库的配置文件都是默认配置但是如果通过复制粘贴旧配置文件来达到新仓库的配置和旧仓库一致的话,无法…...
大数据学习栈记——Neo4j的安装与使用
本文介绍图数据库Neofj的安装与使用,操作系统:Ubuntu24.04,Neofj版本:2025.04.0。 Apt安装 Neofj可以进行官网安装:Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...
React 第五十五节 Router 中 useAsyncError的使用详解
前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...
stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...
应用升级/灾备测试时使用guarantee 闪回点迅速回退
1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...
Prompt Tuning、P-Tuning、Prefix Tuning的区别
一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...
rknn优化教程(二)
文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...
UDP(Echoserver)
网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
MySQL账号权限管理指南:安全创建账户与精细授权技巧
在MySQL数据库管理中,合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。 一、为何需要创建独立账号? 最小权限原则…...
