当前位置: 首页 > article >正文

李飞飞弟子苏昊回国了!任职复旦大学

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐据《南华早报》消息加州大学圣地亚哥分校教授、ImageNet作者苏昊出现在复旦大学电子信息博士生导师名单中专攻人工智能。而且在今天第五届中国三维视觉大会(China3DV 2026)上公开了苏昊嘉宾这里注明的title是复旦大学浩清特聘教授。苏昊是谁苏昊此前任加州大学圣地亚哥分校计算机科学学院副教授具身智能实验室主任专注于计算机视觉、图形学、具身智能与机器人领域具身智能公司Hillbot联合创始人。2002年苏昊进入北航攻读计算机科学本科并成为北京航空航天大学高等工程学院现北航高等理工学院的第一届学员。本科期间他师从原北航校长、中国科学院院士李未教授研究方向涉及数理逻辑与定理自动证明等领域。2005年正值机器学习在中国学界初露锋芒经李未教授推荐苏昊前往微软亚洲研究院MSRA实习师从孙剑、沈向洋、周明。这一时期苏昊主要关注语言与常识之间的关系即自然语言处理。然而随着研究的深入他逐渐意识到相较于抽象化的语言直接来自物理世界的信号如视觉才是理解智能更为根本的途径。由此他的研究重心逐步从自然语言处理转向计算机视觉并在之后的博士阶段深入探索2D与3D视觉方向的研究。不过彼时正值计算机视觉乃至人工智能爆发的前夜人们普遍认为计算机视觉的实现需要200年然而事后看来这一突破仅用了十余年其中关键推动力正是李飞飞创建的ImageNet数据集。无巧不成书苏昊在沈向洋的推荐下于2008至2009年先后在普林斯顿和斯坦福参与了ImageNet的相关研究工作。注苏昊于2009年跟着李飞飞由普林斯顿转入斯坦福在ImageNet之后苏昊与李佳合作了Object Bank进一步提升了图像在高层视觉任务中的语义表示能力使得简单分类器也能在物体识别和场景分类等任务上取得优异性能这篇研究发表于2010年的NIPS上。当2D视觉的方法论日趋完善后苏昊将目光转向了3D视觉。2014年在获得北航的数学博士学位后苏昊在Leonidas Guibas指导下在斯坦福攻读计算机博士学位主攻3D视觉。2015年苏昊发布ShapeNet这是一个大规模、注释丰富的3D物体模型库包括超过300万个3D CAD模型覆盖3135个类别。这是全球第一个大规模3D数据集被外界认为是3D领域的ImageNet。在ShapeNet发布后3D视觉的研究进入黄金发展期。2017年PointNet与PointNet的发布更是让3D视觉论文占比从小于10%升至70%。其中PointNet是首个直接处理原始点云数据的深度学习模型而PointNet则是对PointNet的扩展旨在捕捉点云数据中的局部结构信息。在2018年获得斯坦福计算机科学博士学位后苏昊又发布了3D物体数据集PartNet。可以说苏昊对人工智能的思考历程从语言到2D视觉再到3D是一个不断从抽象走向具体、逐步具象化的过程。但正如苏昊在一次访谈中提到的可不可以有一个反向的过程将具体的算法整合到一个更大的系统中基于这一思考苏昊的学术重心又从计算机视觉迁移到机器人研究中。2020年苏昊在PartNet基础上发布了全球第一个以可泛化操作为核心的模拟器——SAPIEN旨在推动机器人视觉与交互任务的研究。注一个fun fact——SAPIEN的命名源于《人类简史》中的智人。2021年 苏昊又基于SAPIEN发布了ManiSkill机器人操作仿真平台用于测试和训练机器人操作技能。同年ICCV苏昊发起workshop聚焦基于物理的建模与仿真、基于学习的仿真、人体仿真到具身视觉和机器人学习等广泛主题。近年来苏昊及其团队一直聚焦于仿真建模、3D生成、机器人通用操控等方向的研究。对于为何要专注于模拟器和3D生成苏昊表示在机器人领域模拟器的价值远高于自动驾驶。因为在自动驾驶中特斯拉等公司可以通过辅助驾驶持续收集大量数据而机器人领域尚缺乏低成本的数据采集方式因此高保真模拟器显得尤为关键。更进一步为了实现更好的泛化能力模拟器内容的丰富性至关重要。随着3D资产生成成本的降低基于模拟与三维生成的方法有望取得更为显著的进展这一思考也体现在了苏昊创办的具身智能公司Hillbot上。2024年苏昊加入了具身智能的创业浪潮创办了Hillbot并担任首席技术官。注Hillbot的另一位联合创始人兼CEO是知名创业者韩铮Hillbot旗下拥有Sapien仿真器以及ManiSkill机器人仿真训练平台主打模拟和3D生成。在产品方面Hillbot推出了轮式机器人Hillbot Alpha基于仿真训练主要用于复杂环境下的移动操纵任务如零售店、咖啡馆和制造车间等。在技术合作方面Hillbot与英伟达携手借助Nvidia Cosmos平台快速生成高仿真、多样化的视频训练数据。来源南华早报、量子位、CSIG三维视觉专委会本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

相关文章:

李飞飞弟子苏昊回国了!任职复旦大学

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上…...

为什么你的RAG服务在集群A正常,在集群B超时?生成式AI多集群配置一致性漏洞(附自动校验脚本)

第一章:生成式AI应用多集群管理 2026奇点智能技术大会(https://ml-summit.org) 生成式AI应用在生产环境中常需跨多个Kubernetes集群部署——例如,模型训练在高性能GPU集群执行,推理服务运行于边缘低延迟集群,而数据预处理与评估则…...

技术拆分的边界划分与接口设计

技术拆分的边界划分与接口设计:构建高效系统的关键 在现代软件开发中,技术拆分的边界划分与接口设计是确保系统可维护性、可扩展性和高效协作的核心。随着业务复杂度的提升,单一系统往往难以应对快速变化的需求,而合理的模块拆分…...

技术债务危机:团队如何从重构中重生?

在当今追求敏捷与快速交付的软件开发浪潮中,“先上线,后优化”的策略已成为许多团队默认的生存法则。然而,这种短期妥协所累积的代价——技术债务,正像一座无形的冰山,悄然侵蚀着软件系统的健康、团队的效率乃至产品的…...

DownKyi实战手册:解锁B站视频下载的完整工作流

DownKyi实战手册:解锁B站视频下载的完整工作流 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。…...

EPLAN拖放操作避坑指南:从符号宏到DWG导入,这些细节错了白忙活

EPLAN拖放操作避坑指南:从符号宏到DWG导入,这些细节错了白忙活 刚接触EPLAN的工程师们,往往会被它强大的拖放功能吸引——毕竟谁不喜欢这种直观高效的操作方式呢?但当你兴冲冲地尝试把DWG文件拖进项目时,却发现系统毫无…...

Qt for Android:基于libusb实现CH340x串口通信的高效开发方案

1. 为什么需要libusb实现CH340x串口通信 在Android开发中,串口通信一直是个让人头疼的问题。特别是当你的设备使用了CH340x这类常见的USB转串口芯片时,问题会更加明显。我去年接手一个工业手持终端项目时就踩过这个坑——Qt自带的QSerialPort在Android高…...

别再乱用`define`了!SystemVerilog枚举类型(enum)的五大进阶用法与避坑指南

别再乱用define了!SystemVerilog枚举类型(enum)的五大进阶用法与避坑指南 在硬件设计领域,我们常常需要定义一组相关的常量。许多工程师的第一反应是使用define宏或者parameter,这就像用螺丝刀当锤子——虽然也能凑合&…...

CAN收发器选型避坑指南:TJA1051T与TJA1051T/3的硬件兼容性问题实录

CAN收发器选型避坑指南:TJA1051T与TJA1051T/3的硬件兼容性问题实录 在嵌入式硬件开发中,CAN总线设计往往被视为"成熟技术"而掉以轻心,直到某天深夜的实验室里,示波器上那串诡异的正弦波打破你的认知——原来最基础的收发…...

CVPR 2024 视频理解技术全景解析:从监控到多模态交互

1. 视频理解技术为何成为CVPR 2024焦点? 去年我在调试一个智能监控系统时,发现传统算法总是把飘动的窗帘误判为异常行为。这种尴尬正是视频理解技术需要突破的痛点——如今的AI不仅要"看得见",更要"看得懂"。CVPR 2024最…...

踩坑教程如何Youtu-Parsing 多格式兼容:TIFF/BMP/WebP 等冷门格式解析避坑指南

一、为什么“多格式兼容”是解析系统的生死线Youtu-Parsing 本质上是“视觉理解 文档结构抽取”的中间引擎。它对输入图像质量、尺寸、色彩、方向都很敏感。你以为只是“读一张图”,实际上至少经历了:文件格式识别解码为像素矩阵色彩空间转换&#xff0…...

计算机毕业设计:Python水产资源监测与产能分析平台 Flask框架 数据分析 可视化 数据大屏 大数据 机器学习 深度学习(建议收藏)✅

博主介绍:✌全网粉丝50W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战8年之久,选择我们就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与…...

新技能分享OpenAI SDK 智能体(Agentic AI)Tools 工具使用详解:从原理到 WebSearch Agent 实战

在大模型应用从“对话问答”走向“可执行系统”的过程中,Agentic AI(智能体)成为最核心的工程方向之一。所谓智能体,不再只是“回答问题”,而是能够理解目标、拆解任务、调用工具、执行动作、观察结果并迭代的系统。 而…...

踩坑实战分享如何在 IntelliJ IDEA 中创建一个包含 JSP 和 Servlet6.0 的 Maven Web 项目,并配置 Tomcat 进行调试

在现代 Java Web 开发体系中,虽然 Spring Boot 早已成为主流,但 JSP Servlet 依然是理解 Web 容器原理、请求响应机制、MVC 分层思想的重要基础。对于初学者来说,能够在 IntelliJ IDEA 中从零创建一个包含 JSP 和 Servlet 6.0 的 Maven Web …...

6DD1602-0AE0处理器模块

Siemens 6DD1602-0AE0 处理器模块是SIMADYN D(PS16)系列中的核心控制单元,用于工业驱动与过程自动化系统中,负责系统运算处理、逻辑控制及模块协调。产品特点16位处理器结构采用16位CPU架构,具备稳定的逻辑运算与数据处…...

2026届毕业生推荐的五大降AI率网站横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek DeepSeek系列论文系统地阐述了混合专家模型也就是MoE与多头潜在注意力即MLA机制的核心创新之…...

深度解析UUV Simulator:从水下动力学到多传感器融合的完整机器人仿真架构

深度解析UUV Simulator:从水下动力学到多传感器融合的完整机器人仿真架构 【免费下载链接】uuv_simulator Gazebo/ROS packages for underwater robotics simulation 项目地址: https://gitcode.com/gh_mirrors/uu/uuv_simulator UUV Simulator作为基于Gazeb…...

2026年鸿蒙应用开发面试题深度解析:从原理到实战,一篇文章搞定HarmonyOS NEXT核心技术栈

📢 鸿蒙技术专家 | 鸿蒙技术交流 微信:添加最下方微信(备注"鸿蒙") ✅ 免费答疑 | ✅ 学习资料 | ✅ 项目指导 | ✅ 内推机会📋 前言:2026年鸿蒙生态爆发式增长,掌握这些面试题让你薪…...

零基础教程:Windows系统快速搭建Minecraft私服并实现公网远程联机

1. 准备工作:搭建Minecraft私服的基础环境 想要和朋友远程联机玩Minecraft,首先得有个自己的服务器。在Windows上搭建其实特别简单,我用这套方法帮十几个朋友搞定了私服。先说说需要准备的东西: 一台配置还行的Windows电脑&#x…...

html标签怎么表示用户输入_kbd标签键盘快捷键标注【介绍】

应使用 <kbd> 标签标记键盘快捷键&#xff0c;如 <kbd>Ctrl</kbd><kbd>C</kbd>&#xff0c;不可合并为 <kbd>CtrlC</kbd>&#xff1b;它语义明确、支持无障碍访问&#xff0c;优于 <code> 或 <span>。HTML 里怎么标键盘…...

别再只玩Studio了!手把手教你给Windows Server装UiPath Orchestrator(含SQL Server配置避坑)

从零搭建UiPath Orchestrator&#xff1a;Windows Server全流程部署指南 每次看到团队还在用Excel表格管理机器人任务队列时&#xff0c;我都忍不住想——是时候把Orchestrator用起来了。作为UiPath生态的中枢神经系统&#xff0c;它不仅能实现任务调度、日志收集、权限管控等基…...

京东自动化登录避坑指南:DrissionPage处理短信验证码的5个关键步骤

京东自动化登录实战&#xff1a;DrissionPage结合SmsForwarder破解验证码全流程 在电商数据采集和自动化测试领域&#xff0c;京东登录环节的滑块验证和短信验证码一直是开发者面临的棘手问题。传统方案往往依赖第三方打码平台或人工干预&#xff0c;不仅成本高昂&#xff0c;还…...

Go语言怎么优化goroutine_Go语言goroutine优化教程【基础】

trpc-cpp服务启动失败的主因是main()中未调用trpc::Run()&#xff0c;导致框架初始化后立即退出&#xff1b;需在main末尾显式调用该函数以启动运行时、加载配置并阻塞等待信号。trpc-cpp 服务启动失败&#xff1a;main() 里漏了 trpc::Run()绝大多数新手卡在第一步——服务进程…...

从Auth0迁移到开源Logto:我的真实踩坑与配置心得(多租户场景实践)

从Auth0迁移到开源Logto&#xff1a;多租户场景下的实战指南 当我们的SaaS产品用户突破10万时&#xff0c;Auth0的账单突然变成了财务会议上最刺眼的数字。作为技术负责人&#xff0c;我花了三个月评估各种开源身份认证方案&#xff0c;最终选择Logto完成迁移。这篇文章将分享从…...

别再死磕Altera了!用AG10KSDE176国产FPGA做个LED灯牌控制器,成本直降一半

低成本LED灯牌控制器实战&#xff1a;国产FPGA AG10KSDE176替代方案详解 在创客圈子里&#xff0c;LED灯牌和灯屏项目一直是个热门话题。从简单的文字滚动到复杂的动画效果&#xff0c;FPGA因其并行处理能力和灵活的可编程特性&#xff0c;成为这类项目的理想选择。然而&#x…...

从I2C到SMBus:搞懂新版Spec 3.3,别再傻傻分不清了(附对比表格)

从I2C到SMBus&#xff1a;搞懂新版Spec 3.3&#xff0c;别再傻傻分不清了&#xff08;附对比表格&#xff09; 在嵌入式系统和硬件设计领域&#xff0c;I2C和SMBus这两种看似相似却又各具特色的总线协议常常让工程师们陷入选择困境。特别是在电源管理、温度监控等关键系统中&am…...

Vibe Coding:跟电脑「聊天」就能写代码

Vibe Coding&#xff1a;跟电脑「聊天」就能写代码&#x1f4cc; 导读&#xff1a;想象你跟电脑说「帮我写一个记账 App」&#xff0c;然后代码就出来了——这不是科幻&#xff0c;这是 Vibe Coding。2025 年这个词火遍全球&#xff0c;连 OpenAI 联合创始人都说「我已经彻底停…...

自动驾驶感知入门:用Python手把手实现CTRV模型与EKF/UKF滤波(附代码避坑)

自动驾驶感知实战&#xff1a;CTRV运动模型与EKF/UKF的Python实现指南 在自动驾驶系统的感知模块中&#xff0c;目标跟踪的准确性直接影响着路径规划与决策的质量。当我们面对城市道路中频繁变道、加减速的车辆时&#xff0c;传统的匀速(CV)模型往往力不从心。本文将带您从零实…...

3个简单步骤:完美实现Windows任务栏透明美化终极方案

3个简单步骤&#xff1a;完美实现Windows任务栏透明美化终极方案 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 想要让Windows桌面焕然一…...

【AI配音生产力革命】:2026奇点大会验证的4类可商用模型对比——时延<200ms、情感准确率≥91.7%、版权链上存证

第一章&#xff1a;2026奇点智能技术大会&#xff1a;AI配音应用 2026奇点智能技术大会(https://ml-summit.org) 实时语音克隆与情感注入技术突破 本届大会首次公开演示了基于多模态对齐的零样本语音克隆框架VoiceSynth-X&#xff0c;该框架仅需3秒参考音频即可生成高保真、带…...