AI大模型内卷加剧,商汤凭什么卷进来
2023年,国内大模型何其多。
目前,已宣布推出或即将推出大模型的国内企业多达20余家,基本上能想到的相关企业都已入局。其中,既有资金雄厚的BAT、华为、字节等大厂,也有王慧文、王小川、周伯文等互联网大佬领衔的初创企业,还有垂直领域的AI企业,比如商汤科技、科大讯飞等。
4月10日,商汤推出“日日新SenseNova”大模型体系,包括一系列生成式AI模型:大语言模型“商量”、文生图AI平台“秒画”、AI数字人视频生成平台“如影”、3D内容生产平台“琼宇”、“格物”,以及大模型数据标注平台“明眸”。
在大模型的舆论场上,商汤并不高调,而是直接搬出全套大模型产品,并迅速开放面向企业的试用通道。从发布会现场实时演示的效果看,商汤大模型的实力不容小觑。“一个专注CV的公司能在LLM上做出如此高成熟度产品,其开发团队令人起敬。”一名知乎网友的观点代表了一部分外界声音。
同时,一些质疑的声音也出现了,比如有观点认为专注机器视觉赛道(CV)的独角兽AI企业到底有没有必要凑热闹搞大模型。毕竟大模型需要长期巨量烧钱,目前商业化模式有限,这会让尚未盈利的AI企业面临更大的亏损压力。
那么,如何看待商汤进军多模态大模型领域的布局?在日益拥挤的“中国版ChatGPT”竞争中,商汤又将走出怎样与众不同的生态位呢?

从大装置到大模型,始终指向同一目标
当ChatGPT推动AI行业走过“iPhone时刻”,大模型的通用性已经得到了成功验证。
更重要的是,今年3月微软发布的一篇论文指出,“GPT-4已经可以被视为通用人工智能的一个早期的版本。”这一观点也得到了相当多专业人士的认可。深度学习之父Geoffrey Hinton为代表的一些顶级科学家认为,通用人工智能(AGI)不再遥不可及,而有可能在数十年内逐步实现。
接下来,在大模型这一确定性的方向上,中外AI企业如何摸索出适合自己的道路,成为关键命题。
商汤对这个问题的答案是:坚定地走“大装置+大模型”的道路。
了解商汤战略的朋友会知道,商汤此时推出大模型并不是跟风,而是自身在持续解决AI规模化落地道路上的又一个关键节点。
此前,AI落地难的核心原因是一个场景一个模型的开发模式,导致落地成本高,模型复用率低,难以规模化标准化。彼时,2020年问世的千亿参数的GPT3已经为大模型的通用性带来一定突破。商汤的解法同理,向下层基础设施扎根,希望用庞大的参数量×数据量跑出通用性。
2021年,商汤推出AI大装置SenseCore,并在2022年完成重要扩建。AI大装置可以理解为大算力基础设施+大模型即服务(Model as a Service)。
目前AI大装置构建了27000块GPU构成的并行计算系统,实现了5.0exaFLOPS的算力输出,是亚洲目前最大的智能计算平台之一。商汤AI大装置上的算力可以同步支持20个千亿规模参数量的超大模型,并且以千卡规模来同时训练。
同时,AI大装置还对外提供大模型即服务,包括自动化数据标注、大模型并行训练、推理部署等等。目前AI大装置最大的集群由4000块芯片并联组成,可以训练参数量超5000亿的稠密模型,今年的目标是能够训练超过万亿参数的大模型。

投入这么大,AI大装置的应用情况如何呢?
2022年,商汤将AI大装置的能力向行业客户开放,通过提供高性能计算资源、丰富的预训练模型库、易用的开发工具和专业技术支持,帮助客户高效训练大模型。目前已经有超过10个大模型研发任务得以实现,涵盖了视觉、语言、多模态等领域的用户自定义大模型开发。
面向企业开放后,AI大装置已经有了规模化的营收。根据商汤2022年年报,2022年AI大装置对外服务产生的收入占比智慧商业(商汤四大业务板块之一)整体收入超20%。按照2022年智慧商业收入14.64亿元计算,AI大装置已经为商汤带来近3亿元营收。
看到这里你也许有些明白了,商汤并不是从零开始构建大模型的。之所以能在短期内迅速推出多种类型的大模型,离不开AI大装置这个根基。而且实际上,商汤在大模型领域的布局要早于AI大装置。

在最擅长的CV领域,2019年商汤就发布了10亿参数的视觉大模型。2022年,商汤的视觉大模型已经进化到了320亿参数,也是世界上迄今为止最大的视觉模型。
自2021年起,商汤科技开始自研NLP大模型和多模态模型。在NLP领域,商汤的大语言模型达到了千亿参数级别。
在多模态领域, 2022年3月,商汤科技联合上海人工智能实验室、清华大学、香港中文大学、上海交通大学发布了多模态多任务通用大模型“书生(INTERN)”,拥有30亿参数。书生大模型已经在通用视觉开源平台OpenGVLab开源,是目前开源模型社区性能最强的多模态大模型。
在AIGC领域,商汤推出10亿参数的AIGC模型,能够支持文生图和图生图的各种功能。曾在星际争霸的比赛中超越DeepMind的AlphaStar的商汤决策智能模型,未来也将融入到多模态大模型中。
“未来商汤的通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四大方面。”商汤科技联合创始人、首席科学家王晓刚表示。
目前,商汤的大模型已在在智慧城市、智慧商业、智能汽车和智慧生活四大板块20多个场景实现了落地交付。比如,在自动驾驶领域,商汤在视觉大模型领域研发的BEVFormer++感知算法以绝对优势赢得了2022年Waymo挑战赛主赛道冠军。
综上,商汤做大模型的目标不是去抢夺面向个人用户的“中国版ChatGPT”的噱头,而是用“大装置+大模型”加速AI商业化落地。
“日日新”的双重驱动力
“AGI催生了新的研究范式,即基于一个强大的多模态基模型,通过强化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。AGI将实现从‘数据飞轮’到‘智慧飞轮’的演进,最终迈向人机共智。”商汤科技联合创始人、首席科学家王晓刚表示。
具体到商汤“日日新”大模型,「智能进化论」认为,其对于商汤而言至少有两大方面的驱动力:
第一重驱动,通过丰富的AIGC大模型向外赋能,包括通过开放API的形式,降低各行各业应用大模型的门槛;
目前商汤“日日新”系列大模型仅面向企业用户开放试用。不过,从发布会实时演示来看,“日日新”大模型给人的初步印象是:整体能力全面,相当于没有“挂科”,而且在数字人视频生成、3D内容生成等方面令人惊艳,超出预期。

商汤版ChatGPT大语言模型“商量”,其多轮对话表现流畅,并有两个细分领域的优势:问诊与编程。编程助手可帮助开发者更高效地编写和调试代码;在健康咨询方面,“商量”相当于一个AI版的全科医院分诊台,类似什么症状应该看什么科室,可以为用户提供个性化的医疗建议。此外,“商量”可以直接读取PDF文件提取关键信息的功能也非常实用。
“秒画SenseMirage”文生图创作平台,可支持6K高清图的生成,还支持用户自定义训练生成模型。
“如影SenseAvatar”AI数字人视频生成平台,仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身,这将极大降低电商直播、在线教育等高频应用场景的人力成本。

“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台,可以高效低成本生成大规模三维场景和精细化的物件,能够为元宇宙等虚实结合场景提供高品质低成本的构建技术。
第二重驱动,强化商汤已有的在CV、视觉感知领域的优势,加速AI技术落地。
在智能驾驶领域,基于视觉大模型,商汤开发了用于自动驾驶的BEV(Bird Eye View)感知算法,在Waymo挑战赛上以绝对优势取得了冠军。基于此算法,商汤开发了业界首个感知决策一体化的端到端自动驾驶解决方案UniAD,可以为自动驾驶多模态模型带来更强的环境、行为、动机解码能力。
据悉,“日日新SenseNova”为政企客户提供了多种灵活的API接口和服务,包括图片生成,自然语言生成,视觉感知通用任务与标注服务。通过调用API接口,企业用户可以根据基模型进行微调,低门槛、低成本、高效率地实现各类AI应用。

从单点到平台,转型加速时
值得注意的是,在坚定投身“大装置+大模型”路线之时,商汤自身也处在业务结构转型的关键时期。
目前,商汤的业务边界早已不局限于CV领域,而是正在成为一家通用AI基础平台公司。而且在此过程中,“大装置+大模型”没有削弱CV领域原本的优势,反而是增强了。
从商汤对AI大装置的定位“AGI时代基础设施的领导者”,可以看出,昔日CV四小龙之首的商汤已今非昔比。对于行业边界的突破,此前商汤科技董事长兼CEO 徐立曾经这样对媒体表示,“当我们实现了从物理世界与数字世界的融合,AI就变成了基础设施,人人都可以用,也就不用区分行业了。”
不过,业务结构的变化是转型更有力的证明。透过2022年年报,商汤的四大核心业务呈现“两升两降”的明显改变。其中,智慧城市、智慧商业两大板块业务收入下滑,智慧生活、智慧汽车两大新兴业务大幅增长,显示出业务结构更加多元健康发展的态势。
比如,2022年智慧生活业务收入同比增长129.9%,创历史新高,占总收入比重从2021年的8.8%提升至25.1%。智慧生活业务涵盖了AI内容生成(AIGC)、AI传感器、AI ISP芯片、智慧医疗等多个产品线,均实现了商业化突破。2022年智能汽车业务收入同比增长58.9%,占总收入比重从2021年的3.9%上升至7.7%。
“日日新来自《礼记·大学》,汤之盘铭曰‘苟日新、日日新、又日新’。也就是每天都要新,而且新的要更新。这代表人工智能大模型,在以周为单位的数据输入上,可以日日更新,能力日日增强。”徐立在发布会上这样解释日日新的来历。
2023年是国内AI大模型的爆发元年,站在当下的时间节点,我们可能很难预测未来AI大模型领域的市场格局是寡头垄断还是百花齐放。
因为,这是一场长期的、全方位的比拼,考验着每一位入局者的资金储备、战略意志、技术能力等核心实力。
也许,每一位玩家无需也不可能做到大而全,集中资源聚焦最有差异化优势的大模型,才是突围之道。
文中图片来自摄图网
END
本文为「智能进化论」原创作品。
相关文章:
AI大模型内卷加剧,商汤凭什么卷进来
2023年,国内大模型何其多。 目前,已宣布推出或即将推出大模型的国内企业多达20余家,基本上能想到的相关企业都已入局。其中,既有资金雄厚的BAT、华为、字节等大厂,也有王慧文、王小川、周伯文等互联网大佬领衔的初创企…...
企业网络安全漏洞分析及其解决_kaic
摘要 为了防范网络安全事故的发生,互联网的每个计算机用户、特别是企业网络用户,必须采取足够的安全防护措施,甚至可以说在利益均衡的情况下不惜一切代价。事实上,许多互联网用户、网管及企业老总都知道网络安全的要性,却不知道网…...
Docker网络模式与cgroups资源控制
目录 1.docker网络模式原理 2.端口映射 3.Docker网络模式(41种) 1.查看docker网络列表 2.网络模式详解 4.Docker cgroups资源控制 1.CPU资源控制 2.对内存使用的限制 3.对磁盘IO的配置控制(blkio)的限制 4.清除docker占用…...
Linux/C++:基于TCP协议实现网络版本计算器(自定义应用层协议)
目录 Sock.hpp TcpServer.hpp Protocol.hpp CalServer.cc CalClient.cc 分析 因为,TCP面向字节流,所以TCP有粘包问题,故我们需要应用层协议来区分每一个数据包。防止读取到半个,一个半数据包的情况。 Sock.hpp #pragma on…...
并发之阻塞队列
阻塞队列 使用背景作用从阻塞队列中获取元素常用的三个方法往阻塞队列中存放元素的三种方式 使用背景 想要在多个线程之间传递数据,用一般的对象是不行的,比如我们常用的ArrayList和HashMap都不适合由多个线程同时操作,可能会造成数据丢失或…...
nodejs+vue 智能餐厅菜品厨位分配管理系统
系统功能主要介绍以下几点: 本智能餐厅管理系统主要包括三大功能模块,即用户功能模块和管理员功能模块、厨房功能模块。 (1)管理员模块:系统中的核心用户是管理员,管理员登录后,通过管理员功能来…...
MySQL NULL 值
NULL 值是遗漏的未知数据,默认地,表的列可以存放 NULL 值。 本章讲解 IS NULL 和 IS NOT NULL 操作符。 如果表中的某个列是可选的,那么我们可以在不向该列添加值的情况下插入新记录或更新已有的记录。这意味着该字段将以 NULL 值保存。 N…...
Python 机器人学习手册:1~5
原文:ILearning Robotics using Python 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 计算机视觉 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 当别人说你没有底线的时候,你最好…...
OpenCV(14)-OpenCV4.0中文文档学习2(补充)
相机校准和3D重建 相机校准 标定 findChessboardCorners() 它返回角点和阈值,如果成功找到所有角点,则返回 True。这些角落将按顺序放置(从左到右,从上到下)cornerSubPix()用以寻找图案,找到角点后也可以…...
八、express框架解析
文章目录 前言一、express 路由简介1、定义2、基础使用 二、express 获取参数1、获取请求报文参数2、获取路由参数 三、express 响应设置1、一般响应设置2、其他响应设置 四、express 防盗链五、express 路由模块化1、模块中代码如下:2、主文件中代码如下࿱…...
SpringBoot整合接口管理工具Swagger
Swagger Swagger简介 Springboot整合swagger Swagger 常用注解 一、Swagger简介 Swagger 是一系列 RESTful API 的工具,通过 Swagger 可以获得项目的⼀种交互式文档,客户端 SDK 的自动生成等功能。 Swagger 的目标是为 REST APIs 定义一个标…...
50+常用工具函数之xijs更新指南(v1.2.3)
xijs 是一款开箱即用的 js 业务工具库, 聚集于解决业务中遇到的常用的js函数问题, 帮助开发者更高效的进行业务开发. 目前已聚合了50常用工具函数, 接下来就和大家一起分享一下v1.2.3 版本的更新内容. 1. 添加将树结构转换成扁平数组方法 该模块主要由 EasyRo 贡献, 添加内容如…...
【DAY42】vue学习
const routes [ { path: ‘/foo’, component: Foo }, { path: ‘/bar’, component: Bar } ]定义路由的作用是什么 const routes 定义路由的作用是将每一个 URL 请求映射到一个组件,其中 path 表示请求的 URL,component 表示对应的组件。 通过 const…...
JavaScript小记——事件
HTML 事件是发生在 HTML 元素上的事情。 当在 HTML 页面中使用 JavaScript 时, JavaScript 可以触发这些事件。 Html事件 HTML 事件可以是浏览器行为,也可以是用户行为。 以下是 HTML 事件的实例: HTML 页面完成加载HTML input 字段改变…...
Windows逆向安全(一)之基础知识(八)
if else嵌套 这次来研究if else嵌套在汇编中的表现形式,本次以获取三个数中最大的数这个函数为例子,分析if else的汇编形式 求三个数中的最大值 首先贴上代码: #include "stdafx.h"int result0; int getMax(int i,int j,int k)…...
PyCharm+PyQt5+pyinstaller打包labelImg.exe
0 开头 labelImg是一款标注软件,作为一个开源项目,它的源码可以在github上找到。官方仓库地址为: https://github.com/heartexlabs/labelImg 小白安装时的最新版本编译出来的界面长这样: 之前在小白的博客里,也教过…...
JavaScript里实现继承的几种方式
JavaScript 中的继承可以通过以下几种方式来实现: 1、原型链继承:通过将子类的原型对象指向父类的实例来实现继承。这种方式的优点是实现简单,缺点是父类的私有属性和方法子类是不能访问的。 function Parent() {this.name parent;this.ag…...
前端:运用HTML+CSS+JavaScript实现迷宫游戏
最近感到挺无聊的,于是想到了大学期间关于栈的应用知识,于是就写了这篇博客! 运用HTML+CSS+JavaScript实现迷宫游戏 1. 运行结果2. 实现思路3. 参考代码1. 运行结果 前端:做个迷宫玩玩,不会迷路吧! 2. 实现思路 如果有一个迷宫,有入口,也有出口,那么怎样找到从入口到出…...
NoSQL数据库简介
NoSQL代表“不仅是SQL”,指的是一种数据库管理系统,旨在处理大量非结构化和半结构化数据。与使用具有预定义架构的表格格式的传统SQL数据库不同,NoSQL数据库是无模式的,并且允许灵活和动态的数据结构。 NoSQL数据库是必需的&…...
面试马铭泽
为什么报考这个岗位 首先,我对军人从小有崇敬之情,梦想着穿着庄严的军装,更对祖国有强烈的热爱之心。我的大舅是一名现役军人,老舅也曾服过兵役,从他们的谈吐以及教育中,让我对部队一直充满向往之情&#…...
2.Vue编写一个app
1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...
什么是EULA和DPA
文章目录 EULA(End User License Agreement)DPA(Data Protection Agreement)一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA(End User License Agreement) 定义: EULA即…...
BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践
6月5日,2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席,并作《智能体在安全领域的应用实践》主题演讲,分享了在智能体在安全领域的突破性实践。他指出,百度通过将安全能力…...
图表类系列各种样式PPT模版分享
图标图表系列PPT模版,柱状图PPT模版,线状图PPT模版,折线图PPT模版,饼状图PPT模版,雷达图PPT模版,树状图PPT模版 图表类系列各种样式PPT模版分享:图表系列PPT模板https://pan.quark.cn/s/20d40aa…...
深度学习水论文:mamba+图像增强
🧀当前视觉领域对高效长序列建模需求激增,对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模,以及动态计算优势,在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内,就有不…...
vulnyx Blogger writeup
信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...
LOOI机器人的技术实现解析:从手势识别到边缘检测
LOOI机器人作为一款创新的AI硬件产品,通过将智能手机转变为具有情感交互能力的桌面机器人,展示了前沿AI技术与传统硬件设计的完美结合。作为AI与玩具领域的专家,我将全面解析LOOI的技术实现架构,特别是其手势识别、物体识别和环境…...
前端中slice和splic的区别
1. slice slice 用于从数组中提取一部分元素,返回一个新的数组。 特点: 不修改原数组:slice 不会改变原数组,而是返回一个新的数组。提取数组的部分:slice 会根据指定的开始索引和结束索引提取数组的一部分。不包含…...
数据结构:递归的种类(Types of Recursion)
目录 尾递归(Tail Recursion) 什么是 Loop(循环)? 复杂度分析 头递归(Head Recursion) 树形递归(Tree Recursion) 线性递归(Linear Recursion)…...
【Linux】Linux安装并配置RabbitMQ
目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的,需要先安…...

