当前位置: 首页 > article >正文

CVPR 2026!地平线11篇论文入选(端到端/场景重建/世界模型/具身智能等)

点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | 地平线HorizonRobotics编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球近日计算机视觉与模式识别领域国际顶会CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 正式公布论文收录结果。地平线凭借深厚的技术积淀与前瞻的科研布局共有11篇论文成功入选覆盖端到端自动驾驶、3D重建、世界模型、具身智能等多个核心领域充分彰显地平线在前沿技术领域的顶尖研发水平。CVPR如同连接学术与产业的 “黄金桥梁”一端锚定前沿理论的创新高地另一端衔接产业落地的实践沃土让实验室里的技术构想通过这座桥梁转化为赋能千行百业的实际价值。作为全球计算机视觉领域的顶级会议CVPR每年吸引全球超万份高质量论文投稿仅有少数兼具创新性与实用性的研究成果能够脱颖而出。本文将分享地平线此次入选的11篇研发工作。基于归一化残差轨迹建模的 端到端自动驾驶新范式论文题目ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving论文链接https://arxiv.org/abs/2510.08562项目主页https://duckyee728.github.io/ResAD端到端自动驾驶 (E2EAD) 系统因轨迹数据固有的时空不平衡性面临模型易学习虚假关联、优化过程过度关注远距离不确定预测而牺牲即时安全的核心难题。针对上述问题地平线提出ResAD为E2EAD打造了全新的轨迹预测范式核心创新点与技术突破体现在重构学习任务、优化目标加权、实现高效多模态规划三大维度大幅简化了模型学习难度并提升规划性能。ResAD摒弃直接预测未来轨迹的传统思路先基于自车当前状态通过恒速模型生成惯性参考轨迹这一稳健的物理先验将学习任务重构为预测实际轨迹相对该参考的残差偏差迫使模型聚焦于学习由交通规则、障碍物等场景上下文驱动的必要修正而非从头学习复杂的时空动力学从根源上避免虚假关联的学习。针对长时程预测的不确定性导致的优化失衡问题提出逐点残差归一化 (PRNorm) 技术对预测残差进行分量级归一化并重新加权优化目标有效解决了远距离航点的大幅误差主导学习信号的问题保障了近场安全关键微调的精准捕捉。同时设计惯性参考扰动 (IRP) 策略通过对自车初始速度添加随机扰动生成多样化的惯性参考无需依赖静态预定义轨迹词汇表即可生成符合场景上下文的多模态轨迹假设结合自研的轨迹排序器实现最优轨迹筛选突破了传统多模态规划效率低、轨迹可行性差的局限。ResAD通过从任务本质重构E2EAD的轨迹预测逻辑成功解决了原始轨迹数据的时空不平衡难题为端到端自动驾驶构建了更鲁棒、稳定且可扩展的技术基础相关代码将开源以推动后续研究。用测试时训练补上全局上下文 迈向公里级三维重建论文题目Scal3R: Scalable Test-Time Training for Feed-forward Large-Scale 3D Reconstruction大规模长序列三维重建在自动驾驶、机器人建图、数字孪生等场景中具有重要应用价值但现有方法在“规模”与“精度”之间始终存在明显矛盾以VGGT为代表的feed-forward几何模型虽然具备很强的局部重建能力却受限于注意力的二次复杂度难以直接扩展到超长序列和公里级场景FastVGGT通过token压缩换取更高效率却不可避免地损失细粒度几何信息和长程依赖VGGT-Long则依赖chunk切分与后期对齐来处理长序列但由于缺乏真正的全局上下文共享模型对局部预测误差高度敏感容易在跨chunk重建中积累不一致影响整体结构稳定性。针对这一核心瓶颈本文提出Scal3R将Test-Time Training引入大规模三维重建过程在仅使用RGB输入的条件下实现对长序列全局上下文的高 效建模为公里级场景重建提供了一种兼顾精度、一致性与扩展性的全新方案。Scal3R的核心创新集中在全局上下文表示与跨chunk上下文同步两大层面。在全局上下文表示方面作者提出Global Context Memory (GCM) 机制将一组轻量神经子网络作为可快速适配的“神经记忆单元”挂接在VGGT的全局注意力层后并通过自监督目标在测试阶段在线更新从而把长程场景信息压缩进可持续演化的上下文表示中。与传统固定长度 记忆或简单缓存不同这种设计显著提升了模型对长程依赖的承载能力让局部重建能够获得更充分的全局先验。在跨chunk聚合方面进一步提出Global Context Synchronization (GCS) 机制将不同chunk、不同设备上的上下文更新进行高效同步使每个局部块在推理时都能共享来自全序列的全局信息缓解传统chunk-by-chunk方案中常见的跨段 不一致、局部误差放大以及全局结构松散等问题。借助这一设计Scal3R不只是把长序列“切开来算”而是真正让全局上下文参与到局部几何推理之中从根本上增强了大场景重建的稳定性与一致性。实验结果表明Scal3R在KITTI Odometry、Oxford Spires、Virtual KITTI、ETH3D等多个大规模基准上取得了领先的位姿估计和三维重建表现尤其在长序列、复杂视角变化和大尺度场景下相比现有feed-forward、streaming memory-based方法以及chunk对齐方案展现出更强的全局一致性与几何鲁棒性。同时该方法在效率上也保持了较好的实用性既避免了长上下文Transformer常见的显存膨胀问题也显著快于依赖重型全局优化的传统SfM流程。总体来看Scal3R将test-time adaptation、长程上下文建模与大规模三维几何推理有机结合为“仅凭RGB实现高质量公里级场景重建”提供了一条很有代表性的技术路线也为今后长序列三维感知系统的可扩展设计带来了新的启发。突破纯视觉流式三维重建瓶颈 LongStream赋能公里级流式重建论文题目LongStream: Long-Sequence Streaming Autoregressive Visual Geometry论文链接https://arxiv.org/abs/2602.13172项目主页https://3dagentworld.github.io/longstream长序列流式三维重建在自动驾驶、机器人与AR/VR等场景中具有重要价值但现有流式自回归模型在长序列中普遍快速失稳。其根源在于主流方法采用首帧锚定的绝对位姿建模训练时只见短序列推理时却要处理远超训练范围的长视频流因而产生明显的train-short test-long域偏差推理时被迫进行越来越困难的长程外推最终导致误差累积、轨迹漂移与几何崩溃。同时这类模型还表现出与大语言模型类似的attention sink现象注意力异常沉积于首帧token而非对重建更关键的时空邻近帧从而违背了局部几何约束长期累积的KV cache也会带来表征污染、记忆饱和与几何漂移。多种因素叠加使现有方法往往在数十米范围内便迅速失效。针对这一核心瓶颈LongStream从流式几何学习的建模范式出发进行了系统重构。该方法采用Gauge-Decoupled设计摆脱首帧锚定的绝对位姿回归方式转而预测当前帧相对于最近关键帧的位姿将随序列长度不断恶化的长程外推问题转化为难度基本恒定的局部估计问题从根本上削弱了对固定全局坐标系和首帧锚点的依赖。在此基础上LongStream进一步识别出attention sink和长期KV-cache污染是长时退化的主要来源并提出 缓存一致性训练通过在训练阶段显式传递和裁剪缓存使训练时的可见上下文与真实流式推理保持一致引导模型在滑动窗口条件下学习稳定的局部时序依赖而非继续依赖首帧“沉积”注意力。同时该方法结合周期性缓存刷新定期边缘化陈旧上下文清理退化记忆抑制长期饱和与几何漂移。由于整个系统建立在关键帧相对坐标系之上缓存可在关键帧处刷新而不破坏重建一致性从而使模型获得更接近“无限流”处理的能力。基于这一系列设计LongStream实现了公里级、实时、稳定的流式三维重建为长序列视觉几何建模提供了更鲁棒、更可扩展的技术方案。其对长序列失效原因的识别和分析为相关领域研究提供了重要借鉴有望推动流式重建模型在自动驾驶、AR/VR等实际应用场景的技术落地。推动事件相机迈向驾驶智能 构建全栈事件语言基准论文题目EventDrive: Event Cameras for Vision–Language Driving Intelligence事件相机具备微秒级时间分辨率、高动态范围和抗运动模糊等优势在高速运动、强光炫光和低照度等场景中相比传统帧相机更能稳定捕捉动态变化。但现有研究大多集中在检测、分割、跟踪等低层感知任务尚未系统回答一个关键问题事件信号能否进一步服务于自动驾驶中的高层语义理解、行为预测与决策规划。EventDrive围绕这一问题展开首次将事件流、RGB图像与语言监督统一到自动驾驶全流程框架中推动事件视觉从“感知增强”走向“智能驱动”。为填补这一空白EventDrive构建了首个面向自动驾驶全栈智能的事件-语言基准将任务统一划分为Perception、Understanding、Prediction和Planning四个层级共覆盖17个子任务形成约47.6万条 事件-帧-语言样本为评测事件相机在驾驶智能中的实际价值提供了系统平台。相较以往主要关注caption或简单问答的数据集EventDrive首次把事件模态推进到自动驾驶“感知—理解—预测—规划”的完整闭环中。在模型层面论文进一步提出EventDrive-VLM。该方法通过 多时间尺度事件体素化 与 动态时间域事件编码 建模不同频率和运动模式下的事件特征并引入Event Q-Former提取与语言任务相关的运动表征实现事件模态、图像模态与语言推理空间之间的有效对齐。大量实验表明EventDrive-VLM在多类驾驶推理任务上取得了显著提升尤其在动态变化、运动状态和时序推理相关任务中事件信号展现出对传统帧模态的重要补充价值。EventDrive的提出为事件相机融入自动驾驶高层智能系统提供了新的研究范式也为未来构建更鲁棒、更高时效的多模态驾驶系统奠定了基础。贯通“视觉-几何-功能-人类感知” 驾驶世界模型闭环评估新范式论文题目WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World论文链接https://arxiv.org/abs/2512.10958项目主页https://worldbench.github.io/worldlens当前驾驶场景生成式世界模型虽能合成高视觉真实感的4D环境但普遍存在物理逻辑违规、几何一致性缺失、功能可用性不足等问题且行业缺乏统一的综合评估标准现有指标仅侧重帧级视觉质量难以衡量物理合理性、多视图一致性及实际应用价值。针对这一核心痛点本文提出WorldLens—— 首个覆盖 “生成质量、重建一致性、动作跟随性、下游任务适配、人类偏好” 五大维度的全光谱评估基准配套构建WorldLens-26K大规模人类偏好数据集与WorldLens-Agent自动评估模型形成 “基准-数据集-评估代理” 三位一体的完整评估生态实现对驾驶世界模型 “视觉真实感、几何一致性、物理plausibility、功能可靠性” 的全方位量化与解读。其核心创新性体现在三大维度一是评估维度的全景化突破首次将4D重建一致性、闭环动作跟随性、下游感知任务适配性与人类主观偏好纳入统一框架拆解为24个细粒度子维度覆盖从低阶视觉特征到高阶行为逻辑的全链路评估二是评估体系的人机协同创新通过26808条含文本理由的人类标注数据建立客观指标与人类感知的映射关系进而训练出WorldLens-Agent自动评估模型该模型基于Qwen3-VL-8B微调可实现零样本场景下与人类判断高度对齐的量化评分及可解释性推理解决人工评估效率低、主观性强的痛点三是评估指标的功能导向创新引入闭环仿真如Route Completion、ADS分数、下游感知任务3D检测、占用预测等功能性指标突破传统视觉评估的局限实现对模型 “能用、好用” 的核心诉求的量化。实验验证显示现有主流模型均无全能表现DiST-4D在几何重建与下游任务适配中表现最优OpenDWM在视觉真实感上领先而所有模型在闭环动作跟随性上仍存在显著短板路线完成率普遍低于 15%。WorldLens通过标准化评估流程与工具链不仅揭示了当前模型在 “视觉真实” 与 “物理/功能真实” 间的核心矛盾更提供了精准的缺陷诊断能力为驾驶世界模型从 “看起来真实” 向 “行为真实、可用可靠” 的进化提供了关键技术支撑。突破大规模3D重建效率瓶颈 实现千图序列10×加速论文题目LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging论文链接https://arxiv.org/abs/2512.04939项目主页https://garlicba.github.io/LiteVGGTVGGT作为3D视觉基础模型在多视图3D重建任务中表现卓越但因其Transformer架构的全局注意力机制存在二次计算与内存复杂度处理长序列图像时易出现内存溢出 (OOM) 、推理耗时过长等问题难以适配大规模场景应用。针对这一核心痛点本文提出LiteVGGT通过创新的几何感知缓存token merging策略在保持VGGT核心重建精度的前提下实现了10倍推理加速与显著内存节省并支持千图级图像序列的高效单次推理3D重建。LiteVGGT的核心贡献体现在三个方面首先提出几何感知token优先级划分机制通过识别对三维几何结构最关键的视觉token在减少计算量的同时保留重建所需的关键几何信息其次设计跨层缓存融合索引策略复用相邻global attention层的token融合索引在仅带来轻微精度下降的情况下显著降低推理时延此外结合多源数据精细化微调与FP8量化推理进一步提升模型运行效率并降低显存占用构建完整的高效推理优化方案。实验结果表明LiteVGGT在ScanNet-50、Tanks Temples等多种室内外大规模场景数据集上表现出色在处理1000张图像序列时相比原始VGGT实现10倍 推理加速显存占用显著降低同时点云重建精度和相机姿态估计性能均接近原模型。该方案无需修改VGGT核心架构具有良好的兼容性与工程落地能力可为自动驾驶、AR/VR等应用场景提供高效的大规模三维重建能力。深度赋能区域自适应 破解视觉3D占用预测两大核心痛点论文题目Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving论文链接https://arxiv.org/abs/2603.010073D语义占用预测是自动驾驶感知的核心任务但其视觉-based方法长期面临两大关键瓶颈一是2D到3D视图转换中因低分辨率、高噪声深度估计导致的几何错位二是语义类别空间分布各向异性引发的严重类别不平衡。针对上述痛点本文提出Dr.Occ—— 深度与区域双引导的3D占用预测框架通过创新的几何增强与语义建模模块实现协同优化在Occ3D-nuScenes基准上较强基线BEVDet4D提升7.43% mIoU与3.09% IoU且可无缝集成至SOTA方法COTR并额外提升1.0% mIoU展现出极强的通用性与工程价值。本项目核心创新在于两大技术突破其一提出深度引导双投影视图Transformer (D²-VFormer) 。针对实验发现的“直接融合深度图易导致性能退化”这一挑战该模块利用MoGe-2生成的高质量深度线索构建体素级掩码 (Voxel-level Masks) 引导模型精准聚焦非空区域。通过“前向投影下采样-反向投影致密化-深度引导非空精炼”三阶段流程有效攻克了2D-to-3D转换中的几何错位难题实现了深度基准模型向3D占用任务的高效迁移。其二提出区域引导专家Transformer (R-EFormer) 及其递归变体R²-EFormer。该方法基于3D空间语义分布的强位置偏好将传统混合专家 (MoE) 的通道激活机制升华为空间维度的选择性专家建模。通过为不同空间区域自适应分配专属专家该架构有效捕捉了复杂的空间异构语义并显著提升了稀有类别的识别召回率为3D占用任务提供了全新的空间特征融合范式。机器人首次实现语义进展推理 零标签在指令结构中定位任务进展论文题目Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation论文链接https://arxiv.org/abs/2511.17097项目主页https://horizonrobotics.github.io/robot_lab/progress-think在视觉语言导航 (VLN) 中机器人长期缺乏一种关键能力它能持续前进却无法判断自己的任务推进到了哪一步。导航在空间中不断展开画面节节推进但模型并不知道自己在自然语言指令里处于什么阶段因此容易漂移、兜圈或做出难以解释的决策。我们认为引入语义进展推理是破解长程导航不稳定性的关键路径。为了在没有进展标注的情况下习得进展定位能力我们设计了一个三阶段的学习框架。第一阶段通过前缀对齐的自监督训练模型在视觉轨迹中自动推断出与指令前缀的对应关系使“当前观察对应哪一语义段落”成为一种内生表征而非依赖外部标注。第二阶段我们将进展表示作为上下文注入导航VLA策略使决策在结合指令和观测的同时也能参考自身的任务进展从而形成明确的语义方向感。第三阶段通过进展推理与导航VLA策略的联合优化使模型在推理时保持一致、稳健的进展定位能力并形成从语义对齐到动作生成的完整闭环。在三阶段学习下进展不再是一个回归值或附加标签而演化为贯穿视觉理解、语义推理与行动决策的结构性信号。机器人由此首次具备真正的“进展定位”能力能够在执行中持续推理“我完成到哪了”并据此更清晰地决策“下一步该做什么”。Progress-Think让机器人第一次具备语义层面的“进展坐标系”。我们首次揭示了视觉观测序列与指令语义之间的结构性关联并将其提炼为可学习的进展信号使模型无需额外标注即可学会思考“我刚完成了什么”。通过自监督的进展对齐、进展引导决策以及进展–策略联合微调仅凭单目相机输入模型就能显著减少偏航并提升稳定性。Progress-Think在R2R-CE等标准数据集上取得领先表现并进一步推动具身推理朝更明确的任务导向发展。从解耦到统一 以通用高斯范式突破3D重建与语义理解边界论文题目Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images论文链接https://arxiv.org/abs/2508.03643项目主页https://horizonrobotics.github.io/robot_lab/uni3R现有3D场景重建方案普遍面临任务表征解耦与多视图扩展受限两大局限。一方面几何重建与语义理解通常被独立建模且高度依赖耗时的逐场景优化直接限制了系统的泛化能力另一方面现有框架多局限于双视图输入扩展至多视图时需进行高计算成本的逐对特征匹配常导致跨视图几何不一致。为解决上述计算冗余与表征割裂问题本文提出了一种基于通用3D Gaussian Splatting的前馈式3D感知底座Uni3R。Uni3R系统仅需无姿态的多视图纯视觉输入即可直接生成融合几何结构、外观表征与开放词汇语义的3D隐式表示。架构设计上模型采用跨视图Transformer融合机制通过交替执行帧内自注意力与帧间交叉注意力在无相机姿态先验的条件下实现了对任意数量视图信息的高效整合。针对纯渲染监督易引发的几何坍塌问题框架引入无标注几何先验以约束高斯基元的空间分布从而在零额外几何标注的前提下显著提升了训练稳定性与深度预测精度。依托该统一表征空间Uni3R仅需单次前向传播即可并发执行高保真新视角合成、开放词汇3D语义分割与深度预测三项核心任务。此外实验表明多任务统一表征机制不仅大幅削减了底层计算冗余更在几何重建、视角渲染与语义理解之间确立了显著的协同增益。定量实验表明Uni3R彻底摒弃了逐场景优化与外部姿态估计依赖单场景整体重建耗时仅约0.16秒。在ScanNet数据集上其开放词汇语义分割精度达到55.84 mIoU新视图合成质量达到25.53 PSNR在RE10K数据集上新视图合成质量达25.07 PSNR。整体量化指标均优于PixelSplat与LSM等主流框架为自动驾驶与机器人数字孪生提供了高效、可扩展的实时3D场景感知方案。几何一致视觉世界模型 突破机器人操作泛化边界论文题目RoboTransfer: Controllable Geometry-Consistent Video Diffusion for Manipulation Policy Transfer论文链接https://arxiv.org/abs/2505.23171项目主页https://horizonrobotics.github.io/robot_lab/robotransfer在机器人操作领域模仿学习是推动具身智能发展的关键路径但高度依赖大规模、高质量的真实演示数据面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案但显著的“模拟到现实” (Sim2Real) 鸿沟制约了仿真数据训练策略的泛化能力与落地应用。我们提出RoboTransfer——基于扩散模型的视频生成框架旨在合成高保真且符合物理规律的机器人操作演示数据。该框架创新性地融合深度-表面法向的几何约束与多视角特征建模确保生成视频具备高度几何一致性与真实感。通过拆分控制条件设计实现对操作场景元素如背景替换、物体外观的精细控制。结合物理仿真器重构空问布局与交互状态实现多样化、可拓展的高保真数据合成。RoboTransfer通过数据驱动的生成式AI技术,建立机器人操作数据合成新范式提供高质量、可扩展的演示数据,助力具身智能突破通用性与泛化性边界。实验结果表明RoboTransfer能够生成具有高几何一致性和视觉质量的多视角视频序列。此外使用RoboTransfer合成数据训练的机器人视觉策略模型在标准测试任务中表现出显著提升的性能在更换前景物体的场景下取得了33.3%的成功率相对提升在更具挑战性的场景下同时更换前景背景更是达到了251%的显著提升。打破3D重建与生成边界 原位补全构建单图3D场景生成新范式论文题目3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image项目主页https://zx-yin.github.io/3dfixer代码链接https://github.com/HorizonRobotics/3D-Fixer基于单张图像生成3D场景是构建机器人与具身智能数字孪生环境的关键技术 。现有方案在处理复杂场景时常面临几何重建不完整与姿态对齐易出错的局限 此外高质量场景级训练数据的稀缺也直接限制了现有模型的泛化能力 。为此研究团队提出了3D-Fixer技术框架引入了“原位补全 (In-place Completion) ”范式 。该范式摒弃了传统的显式姿态对齐流程。其核心机制是利用3D基础模型提取场景中观测到的残缺几何信息作为空间锚点直接在原位进行3D生成与几何补全。这一设计在维持全局布局一致性的同时兼顾了空间定位的准确度与生成物体的完整度从而有效规避了传统迭代对齐与位姿优化过程中固有的误差累积与结构错位问题。模型结构上3D-Fixer通过引入 由粗到精 (Coarse-to-Fine) 的生成策略与遮挡鲁棒特征对齐 (Occlusion-Robust Feature Alignment) 机制将预训练的物体生成先验与真实场景中的几何观测信息进行深度融合使模型能够在存在遮挡的情况下仍然稳定推断场景结构并有效缓解遮挡区域边界模糊的问题。与此同时为解决高质量场景级训练数据长期稀缺的瓶颈团队构建并开源了目前规模最大的组合式场景数据集ARSG-110K其中包含超过11万个程序化生成的复杂场景配置以及300万张带有高保真三维标注的图像数据对。实验结果表明3D-Fixer在保持前馈推理高效性的同时实现了当前领先水平的几何重建精度为机器人与具身智能系统提供了一种高保真、具备良好泛化能力的三维场景生成新基准并为构建大规模可交互数字孪生环境提供了重要技术支撑。自动驾驶之心求点赞求分享求喜欢

相关文章:

CVPR 2026!地平线11篇论文入选(端到端/场景重建/世界模型/具身智能等)

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线作者 | 地平线HorizonRobotics编辑 | 自动驾驶之心本文只做学术分享,如有侵权,联系删文>>自动驾驶前沿信息获取→自动驾驶之心知识星球近日&#xff…...

用ConvLSTM+注意力机制搞定强降水预测:双偏振雷达数据实战指南

基于ConvLSTM与注意力机制的双偏振雷达强降水预测实战 气象预测领域正经历一场由深度学习驱动的技术革命。本文将手把手带您实现一个融合ConvLSTM与CBAM注意力机制的强降水预测系统,从数据预处理到模型部署全流程解析。不同于传统理论探讨,我们聚焦工程实…...

AD569x系列DAC Arduino驱动库详解与高精度应用

1. 项目概述Adafruit AD569x 库是一个专为 Analog Devices AD569x 系列数模转换器(DAC)设计的 Arduino 兼容驱动库,面向嵌入式硬件工程师与电子开发者提供开箱即用的 IC 接口控制能力。该库完整支持 AD5693(16-bit)、A…...

Gemini 3.1 Pro 2026年国内使用指南:技术解析与镜像站实测

对于希望体验前沿AI模型的国内用户而言,DeepMind推出的Gemini 3.1 Pro是当下备受关注的选择。然而,其官方服务在国内的网络访问存在一定门槛。目前,国内用户希望免费、便捷地使用Gemini 3.1 Pro,最推荐的途径是通过聚合了多款顶级…...

从零到一:使用Vector CANdb++ Editor构建DBC文件的实战避坑指南

1. 初识DBC文件与Vector CANdb Editor 第一次接触DBC文件时,我完全被各种专业术语搞懵了。简单来说,DBC文件就像是CAN总线网络的"字典",它定义了所有参与通信的电子控制单元(ECU)之间如何"说话"。…...

SpringBoot+Vue 陕西理工大学奖学金评定管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着高等教育事业的快速发展,高校奖学金评定工作日益复杂化,传统的人工评定方式效率低下且容易出错。陕西理工大学作为一所综合性大学,每年涉及大量学生的奖学金评定工作,亟需一套高效、公平、透明的管理系统来优化流程。该系…...

Spring_couplet_generation 服务器运维:Ubuntu 20.04系统安装与初始化

Spring_couplet_generation 服务器运维:Ubuntu 20.04系统安装与初始化 为你的AI应用准备一个稳定、安全的基础环境,是成功的第一步。今天,我们就来手把手完成Ubuntu 20.04 LTS系统的安装与初始化配置。无论你是刚拿到一台全新的物理服务器&a…...

SQL 中 select、from、join、where、group by、having、order by、limit 的执行顺序是什么?

在 SQL 查询中,虽然我们在编写语句时的顺序是 SELECT -> FROM -> JOIN -> WHERE -> GROUP BY -> HAVING -> ORDER BY -> LIMIT,但数据库引擎实际执行的顺序是不同的。 理解这个执行顺序对于优化查询性能、避免逻辑错误(…...

Nano-Banana部署教程:Kubernetes集群中Nano-Banana Studio编排方案

Nano-Banana部署教程:Kubernetes集群中Nano-Banana Studio编排方案 1. 学习目标与价值 你是不是也遇到过这样的场景?作为一名设计师或产品经理,需要向团队展示一款复杂产品的内部结构,或者为一份设计文档制作精美的分解示意图。…...

mPLUG本地VQA效果展示:同一张图不同英文提问(What/How many/Where)对比结果

mPLUG本地VQA效果展示:同一张图不同英文提问(What/How many/Where)对比结果 1. 引言:让图片“开口说话”的智能工具 你有没有想过,给一张图片提问题,让它自己告诉你里面有什么?这听起来像是科…...

RS485接口EMC设计:三级防护与分地系统实战指南

1. RS485接口EMC设计原理与工程实践RS485总线因其多点通信能力、长距离传输特性(理论可达1200米)及较强抗干扰能力,被广泛应用于工业自动化、楼宇控制、电力监控及医疗器械等对可靠性要求严苛的领域。然而,在实际工程部署中&#…...

TinyUSB嵌入式USB协议栈架构与移植实践

1. 项目概述TinyUSB 是一个专为资源受限嵌入式系统设计的开源 USB 协议栈,其核心目标是在保持功能完整性的同时,严格规避传统嵌入式 USB 实现中常见的工程风险:动态内存分配、线程不安全、平台耦合度高、中断上下文逻辑臃肿。该项目由 Ha Tha…...

手机检测模型哪家强?实时手机检测-通用实测效果展示

手机检测模型哪家强?实时手机检测-通用实测效果展示 1. 引言:为什么需要一个好的手机检测模型? 想象一下这样的场景:在一个大型会议或考场里,需要快速识别出谁在使用手机;在工厂的生产线上,需…...

深入解析highway_env:强化学习自动驾驶环境的代码架构与实现

1. highway_env:强化学习自动驾驶的仿真利器 第一次接触highway_env时,我就被它的简洁设计惊艳到了。这个基于Python的开源项目,专门为自动驾驶强化学习研究提供了高度可配置的仿真环境。想象一下,你正在开发一个自动驾驶AI&#…...

DA7280触觉驱动库解析:嵌入式Haptic闭环控制实战

1. DA7280触觉驱动库技术解析:面向嵌入式系统的高精度Haptic控制器集成方案DA7280是Dialog Semiconductor(现为Renesas子公司)推出的高性能、低功耗、IC可编程触觉驱动芯片,专为智能手机、可穿戴设备、工业HMI及IoT终端设计。其核…...

[特殊字符]️cv_resnet101_face-detection_cvpr22papermogface企业落地教程:集成至AI中台人脸分析模块

MogFace 极速智能人脸检测工具企业落地教程:集成至AI中台人脸分析模块 1. 引言:从实验室到生产线的挑战 想象一下,你是一家大型互联网公司的AI中台负责人。每天,来自电商、社交、安防等不同业务线的团队,都会向你提出…...

计算机毕业设计:Python基于协同过滤的小说推荐与书架管理平台 Django框架 数据分析 可视化 协同过滤推荐算法 图书 大数据 机器学习(建议收藏)✅

博主介绍:✌全网粉丝50W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战8年之久,选择我们就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与…...

FaceFusion高清化功能体验:让模糊人脸变清晰的秘密

FaceFusion高清化功能体验:让模糊人脸变清晰的秘密 1. 高清化功能初体验 第一次使用FaceFusion的高清化功能时,我上传了一张十年前的老照片。照片中的人脸因为年代久远已经变得模糊不清,五官细节几乎无法辨认。点击"高清化"按钮后…...

OpenClaw定时任务管理:Qwen3-32B实现每日新闻摘要自动推送

OpenClaw定时任务管理:Qwen3-32B实现每日新闻摘要自动推送 1. 为什么需要自动化新闻摘要 每天早上打开手机,总会被各种新闻推送淹没——科技动态、财经快讯、行业报告……信息过载已经成为现代人的通病。作为一个技术从业者,我发现自己花费…...

MPC-HC功能详解:从基础播放到高级视频调节全攻略

对于一款优秀的多媒体播放器来说,不仅需要有出色的播放性能,还需要有完善易用的功能。 MPC-HC正是这样一款功能全面的轻量级音频、视频播放器,它从诞生之日起就致力于为用户提供最好的播放体验。 MPC-HC的故事始于一位名叫"Gabest&quo…...

嵌入式Linux LED驱动:总线设备模型实战

1. 嵌入式Linux LED驱动实验:总线设备驱动模型实践1.1 实验背景与工程价值LED驱动是嵌入式Linux驱动开发中最基础、最典型的入门案例。其表面功能虽仅限于控制单个GPIO引脚的电平状态,但背后承载着Linux内核驱动架构的核心设计思想——分层、分离与抽象。…...

5分钟搞定Ollama本地大模型:用LiteLLM实现OpenAI API无缝兼容(附完整代码)

5分钟实现Ollama本地大模型与OpenAI API无缝兼容的终极方案 当开发者需要将现有基于OpenAI API的项目迁移到本地大模型时,往往面临接口不兼容、代码重构成本高等痛点。本文将介绍如何利用LiteLLM这一轻量级代理工具,在5分钟内完成从Ollama本地模型部署到…...

先上硬货!用DSP28335搞移相PWM,这事儿新手千万别慌。咱们直接拿官方例程开刀改代码,手把手看看怎么整出12路带移相的方波信号

dsp程序 dsp28335程序,移相程序 程序逻辑清晰,注释清楚,完整工程文件 有6对方波驱动信号,共12路输出,开关频率225k 后两对方波移相90度 开发环境为CCS,适用的DSP型号为TI公司的TMS320F28335 适合新手学习先…...

程序员/小白必看!大模型转行入门全攻略(避坑+方向+就业真相)

这两年,大模型彻底打破了“实验室壁垒”,完成了一场从“高深前沿研究”到“全民可用工具”的蜕变——它不再是只有算法专家才能触碰的领域,而是后端、前端程序员,甚至零基础转行者、应届毕业生手机里的常用辅助工具,更…...

《Foundation 网格系统》

《Foundation 网格系统》 引言 随着互联网技术的飞速发展,网站设计的重要性日益凸显。良好的网站设计不仅能够提升用户体验,还能为企业带来更高的转化率。本文将深入探讨Foundation网格系统,为您解析其特点、应用以及如何有效地运用在网站设计中。 一、什么是Foundation网…...

MVC 控制器:架构之美与实现细节

MVC 控制器:架构之美与实现细节 引言 MVC(Model-View-Controller)是一种软件设计模式,广泛应用于各种编程语言和框架中。它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。本文将深入探讨MVC控制器的概念、作用以及实现细节,帮助读者…...

WwiseUtil:3步掌握游戏音频解包与替换,释放你的创意潜能!

WwiseUtil:3步掌握游戏音频解包与替换,释放你的创意潜能! 【免费下载链接】wwiseutil Tools for unpacking and modifying Wwise SoundBank and File Package files. 项目地址: https://gitcode.com/gh_mirrors/ww/wwiseutil 还在为游…...

Linux实用功能代码集(2) —— 获得机器文件大小和MD5值

在开发中&#xff0c;经常会与文件打交道&#xff0c;而获得文件大小以及MD5值则也是非常常用的功能。下面就给出获取文件大小以及计算其MD5值的代码。代码如下&#xff1a;#include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd…...

ONNX模型压缩超快

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 ONNX模型压缩的超快革命&#xff1a;实时部署的加速引擎目录ONNX模型压缩的超快革命&#xff1a;实时部署的加速引擎 引言&#…...

告别越狱!用TrollStore在iOS 15上永久安装任意IPA(保姆级教程)

免越狱革命&#xff1a;TrollStore在iOS 15上的终极安装指南 当iOS用户遇到想安装的第三方应用却受限于系统限制时&#xff0c;传统解决方案往往指向越狱——这一伴随风险的操作如今有了更优雅的替代。TrollStore的出现彻底改变了游戏规则&#xff0c;它像一把瑞士军刀&#x…...