当前位置: 首页 > news >正文

2025开源数据工程全景图

作者 | Alireza Sadeghi
译自Practical Data Engineering

2025年开源数据工程领域呈现蓬勃创新与生态重构的双重态势,九大技术赛道在实时化、轻量化与云原生架构驱动下加速演进。一份来自外网的2025年开源数据工程全景图全面地展示了这一领域的发展态势与走向,现翻译此文供相关从业者参考。

值得注意的是,在数据工程领域全景图中,白鲸开源运营的开源项目Apache DolphinScheduler凭借其高扩展性、可视化DAG编排及对混合云环境的深度适配,持续领跑工作流编排领域,尤其在金融、制造业复杂任务调度场景中成为Airflow的有力竞争者。其社区活跃度与商业化成熟度显著提升,日均调度任务量突破千万级,助力企业实现DataOps全链路自动化。与此同时,白鲸开源运营的另一开源项目Apache SeaTunnel以批流一体引擎与超200种异构数据源的无缝集成能力,重塑数据集成范式,将传统ETL工具(如Nifi)的同步效率提升3倍以上,成为多云环境下数据迁移的首选方案。两大项目的卓越表现不仅印证了开源生态的技术韧性,更凸显了数据工程向低门槛、高弹性架构转型的核心趋势——实时流处理(Flink生态主导)、零磁盘存储架构(如Apache Iceberg)及单节点计算引擎(DuckDB崛起)正共同定义下一代数据基础设施的黄金标准。

引言

开源数据工程领域持续快速发展,2024年在存储、处理、集成和分析等方向均取得重大进展。

这是开源数据工程全景图的第二次年度发布,目标是识别并展示数据工程领域的关键活跃项目和核心工具,提供对这一动态生态系统的全面概览,并分析主要趋势与发展。

尽管全景图每年发布一次,其配套的GitHub仓库会全年持续更新。若发现遗漏内容,欢迎随时贡献补充。

工具选择标准

每个类别的开源项目数量庞大,难以涵盖所有工具。GitHub页面提供了更完整的工具列表,但年度全景图仅包含活跃项目,排除已停滞或成熟度不足的新项目。需要注意的是,部分入选工具可能尚未完全达到生产就绪状态,仍处于发展阶段。

下面是2025年开源数据工程全景图:

请添加图片描述
2025开源数据工程全景图

开源生态现状(2025年)

2024年开源数据工程生态显著增长,新增超50个工具,同时移除约10个不活跃或归档项目。尽管并非所有新增工具诞生于2024年,但它们代表了生态系统的关键扩展。

许可协议挑战与行业贡献

  • 许可协议争议:Redis、CockroachDB、ElasticSearch、Kibana等老牌项目转向更封闭的许可协议(Elastic随后宣布回归开源)。
  • 行业巨头贡献:Snowflake贡献Polaris、Databricks开源Unity Catalog、OneHouse捐赠Apache XTable、Netflix发布Maestro,彰显企业对开源的支持。

基金会动态

  • Apache基金会:持续孵化前沿项目,包括Apache XTable(通用表格式)、Apache Amoro(湖仓管理)、Apache HoraeDB(时序数据库)、Apache Gravitino(数据目录)、Apache Gluten(中间件)和Apache Polaris(数据目录)。
  • Linux基金会:托管Delta Lake、Amundsen、Kedro、Milvus、Marquez等明星项目,2024年新增vLLM(加州大学伯克利分校捐赠)和OpenSearch(从AWS移交)。

开源模式之争:Open Core vs Open Foundation

并非所有项目均为完全开源的中立工具。部分采用Open Core模式(核心功能需付费),其可持续性面临挑战。相比之下,Open Foundation模式(开源软件作为商业化产品基础)可能成为未来主流,确保开源工具的生产就绪性。

九大核心分类概览

数据工程全景图划分为9大类别:

  1. 存储系统:OLTP、OLAP及专用存储引擎
  2. 数据湖平台:湖仓架构工具
  3. 数据处理与集成:批流处理框架与Python工具
  4. 工作流编排与DataOps:流水线编排与数据运营管理
  5. 数据集成:数据摄取与CDC工具
  6. 数据基础设施:容器编排与监控组件
  7. ML/AI平台:机器学习与向量数据库
  8. 元数据管理:数据目录与治理
  9. 分析与可视化:BI工具与可视化框架

以下为各领域关键进展分析:

1. 存储系统

2024年,存储系统在架构上取得了显著进展,特别是在OLAP数据库系统领域。

DuckDB在1.0版本发布后,成为嵌入式OLAP类别的主要成功案例。新的嵌入式OLAP系统如chDB(基于ClickHouse)、GlareDB和SlateDB的出现,反映了对轻量级分析处理能力的需求增长。

请添加图片描述

  • OLAP扩展与HTAS架构
    PostgreSQL生态涌现OLAP扩展(如MotherDuck的pg_duckdb、Crunchy Data的pg_parquet),将OLTP数据库升级为支持数据湖的HTAS(混合事务分析存储)系统。

请添加图片描述

  • 零磁盘架构崛起
    基于S3等远程存储的架构成为主流,SlateDB、Apache HoraeDB等新系统原生支持,Apache Doris、StarRocks等老牌系统2024年跟进。

请添加图片描述

  • 其他亮点
    • Redis闭源后,Valkey成为最受关注的开源替代品,获Google Memorystore和Amazon ElastiCache支持。
    • PostgreSQL生态的Elasticsearch替代品ParadeDB、流式存储系统Proton和Fluss推动流批融合。

2. 数据湖平台

随着数据库先驱迈克尔·斯通布雷克(Michael Stonebraker)将湖仓架构和开放表格格式誉为 “下一个十年的OLAP数据库管理系统原型”,数据湖仓(lakehouse)继续成为数据工程领域的热点话题。

开放表格格式的生态系统在2024年持续演进。第四种主要开放表格格式,Apache Paimon,从孵化阶段毕业,带来了与Apache Flink集成的流式湖仓能力。Apache XTable作为一个新项目,专注于双向格式转换,而Apache Amoro进入孵化阶段,提供湖仓管理框架。

在2024年,Apache Iceberg已确立其作为开放表格格式框架的领先地位,凭借其生态系统的扩展和GitHub仓库的指标,包括更高的星标、分叉、拉取请求和提交次数。

请添加图片描述

请添加图片描述

所有主要的SaaS和云供应商都在增强其平台,以支持对开放表格格式的访问。然而,写入支持相对较少,Apache Iceberg是全面CRUD(创建、读取、更新、删除)集成的首选。

谷歌的BigLake托管表,允许在客户管理的云存储中使用可变的Iceberg表,亚马逊新宣布的S3表,原生支持Iceberg,以及其他主要SaaS工具,如Redpanda推出的Iceberg主题和Crunchy Data Warehouse深度集成Apache Iceberg,都是Iceberg在生态系统中日益采用和深度集成的例子。

展望未来,像Apache XTable和Delta UniForm(Delta Lake Universal Format)这样的通用表格格式可能面临在各种格式之间功能潜在分歧的重大挑战,开放表格格式的命运可能类似于开放文件格式,当Parquet成为事实上的标准时。

随着湖仓生态系统的持续增长,采用可互操作的开放标准和框架的开放数据湖仓平台预计将获得更多的关注。

请添加图片描述

原生表数据库兴起

在数据湖生态系统中,一种新的趋势正在兴起,即开发原生的表格式库,这些库使用 Python 和 Rust 编程语言编写。这些库的目标是直接访问开放的表格式,而无需依赖像 Spark 这样重量级的框架。
一些值得关注的例子包括:

  • Delta-rs:这是一个原生的 Rust 库,用于 Delta Lake,并提供了 Python 绑定。它允许开发者直接操作 Delta Lake 表,而无需依赖 Java 或 Apache Spark。
  • Hudi-rs:这是 Apache Hudi 的原生 Rust 实现,同样提供了 Python API。它使 Python 和 Rust 生态系统中的开发者能够更轻松地访问 Hudi 表,而无需依赖 Apache Spark、Java 或 Hadoop。
  • PyIceberg:这是一个正在发展的 Python 库,旨在增强对 Iceberg 表格式的访问能力,使其能够在默认的 Spark 引擎之外使用。

这些原生库的出现,为数据湖的开发和管理提供了更多选择,特别是在需要轻量级解决方案或跨语言开发的场景中。

3. 数据处理与集成

单节点处理的崛起

单节点处理的崛起代表了数据处理的根本转变,向传统的分布式优先方法发起挑战。

最近的分析显示,许多公司高估了其大数据需求,促使重新评估其数据处理要求。即使在拥有大量数据的组织中,约90%的查询仍在可管理的工作负载范围内,可以在单台机器上运行,仅扫描最近的数据。

请添加图片描述

现代单节点处理引擎,如DuckDB、Apache DataFusion和Polars,已成为强大的替代方案,能够处理以前需要分布式系统(如Hive/Tez、Spark、Presto或Amazon Athena)的工作负载。

流处理

流处理生态系统在2024年持续扩展,Apache Flink进一步巩固了其作为首选流处理引擎的地位,而Apache Spark仍保持其强大的地位。
请添加图片描述

在庆祝其十周年之际,Flink发布了2.0版本,这是自Flink 1.0发布八年来的首次重大更新。Apache Flink生态系统显著扩展,引入了Apache Paimon开放表格格式和新开源的Fluss流处理引擎。2024年,领先的云供应商越来越多地将Flink集成到其托管服务中,最新的是谷歌的无服务器BigQuery引擎用于Apache Flink解决方案。

新兴的流处理引擎,如Fluvio、Arroyo和FastStream,努力与这些成熟的竞争者竞争。Fluvio和Arroyo作为唯一的基于Rust的引擎,旨在消除传统JVM基础的流处理引擎通常存在的开销。

在开源流处理领域的重大新闻中,Redpanda收购了Benthos.dev,并将其重新命名为Redpanda Connect,同时将其许可模式转变为更偏向专有许可。作为回应,WarpStream对Benthos项目进行了分叉,将其重命名为Bento,并承诺保持其100%的MIT开源许可。

Python处理框架

在Python数据处理生态系统中,Polars目前是占主导地位的高性能DataFrame库,适用于数据工程工作负载(不包括PySpark)。Polars在2024年达到了8900万次下载的显著里程碑,并发布了1.0版本。

然而,Polars现在面临来自DuckDB的DataFrame API的竞争,后者以其与外部存储系统的惊人简单集成和与Apache Arrow的零复制集成(不同系统之间的直接内存共享)引起了社区的关注。两者都在去年排名前1%的最受欢迎的Python库中。

Apache Arrow巩固了其作为Python数据处理生态系统中内存数据表示的事实标准的地位。该框架与各种Python处理框架(包括Apache DataFusion、Ibis、Daft、cuDF和Pandas 3.0)建立了深度集成。

Ibis和Daft是其他具有高潜力的创新DataFrame项目。Ibis提供了对各种基于SQL的数据库的无缝后端接口,而Daft提供了分布式计算能力,从一开始就支持分布式DataFrame处理。

4. 工作流编排与DataOps

在2025年,开源工作流编排类别依然是数据工程生态系统中最有活力的部分之一,拥有超过10个活跃项目,从成熟的平台如Apache Airflow、Apache DolphinScheduler到新开源的引擎如Netflix的Maestro。

数据质量

Great Expectations继续作为领先的Python数据质量和验证框架,也被列入Databricks 2024年十大数据和AI产品榜单,紧随其后的是Soda和Pandera。然而,也有一些令人遗憾的消息:Data-Diff 项目已于 2024 年被其主要维护者 Datafold 存档。

数据版本控制

数据版本控制仍然是2024年的一个重要话题,努力将现代版本控制系统(如Git)的功能引入数据湖和湖仓。

像LakeFS和Nessie这样的项目,通过扩展事务性元数据层,增强了现代数据湖和开放表格格式(如Iceberg和Delta Lake)的功能。

数据转换

dbt在数据转换方面的应用范围正在扩大,超越了最初在数据仓库系统中的数据建模功能。

它现在通过新的集成和插件,利用Trino等短暂计算引擎,进入了数据湖等非仓库环境。

目前,dbt主要面临SQLMesh的竞争。

2024年,SQLMesh与dbt之间的竞争引起了广泛关注,Tobiko的首席执行官在社交媒体上声称,SQLMesh优秀到被dbt的Coalesce大会“禁用”!

5. 数据集成

在数据集成领域,Airbyte保持领先地位,在为版本1.x做准备时,成功关闭了13,000个拉取请求。

dlt框架通过1.0版本的发布,展示了显著的成熟度,而Apache SeaTunnel作为一个有竞争力的替代方案,获得了越来越多的关注。

请添加图片描述

变更数据捕获(CDC)框架

CDC框架领域出现了新工具,包括Artie Transfer和PeerDB(被ClickHouse收购),同时,Flink CDC连接器在使用Flink作为主要流处理引擎的平台中获得了广泛采用。

事件中心(流式发布/订阅服务)

2024年,数据集成领域出现了显著的架构转变,即存储和计算的分离,以及采用零磁盘架构的对象存储。

WarpStream是实时流式领域中率先实现这一架构的先驱。

这种模型还使得灵活的“自带云”(BYOC)部署策略成为可能,因为计算和存储可以托管在客户首选的基础设施上,而服务提供商维护控制平面。

WarpStream的成功促使主要竞争者采用类似的架构。

Redpanda推出了Cloud Topics,增强了其产品线,而AutoMQ实施了混合方法,采用快速缓存层以提高I/O性能。

此外,StreamNative为Apache Pulsar推出了Ursa引擎,Confluent在2024年推出了自己的云原生Freight Clusters。

最终,Confluent决定收购WarpStream,进一步扩展其产品线,采用BYOC模型。

与此同时,Apache Kafka正处于可能定义其未来方向的关键时刻。

6. 数据基础设施

2024年,数据基础设施领域保持稳定,Kubernetes在庆祝其十周年之际,继续领衔云环境中的资源调度和虚拟化引擎。

在可观察性领域,InfluxDB、Prometheus和Grafana继续占据主导地位,Grafana Labs通过一轮2.7亿美元的融资,巩固了其核心产品(如Grafana)作为通用可观察性解决方案的长期可行性。

7. 机器学习/人工智能平台

向量数据库在2023年的强劲势头下,继续保持增长,Milvus成为领先者,其它项目包括Qdrant、Chroma和Weaviate。

该类别目前有十个活跃的向量数据库项目,反映了向量搜索能力在现代AI驱动的数据架构中的重要性。

请添加图片描述

本年度,LLMOps(也称为GenOps)作为一个独立类别出现,标志着Dify和vLLM等新项目的快速增长,专注于管理LLM模型。

8. 元数据管理

元数据管理平台近年来获得了显著进展,DataHub通过积极的开发和社区参与,继续在开源领域保持领先地位。

然而,2024年在目录管理方面出现了最显著的发展。

与前几年不同,2024年市场上涌现出一波新的开放目录解决方案,包括Snowflake开源的Polaris、Databricks开源的Unity Catalog、LakeKeeper和Apache Gravitino。

这种繁荣反映了新兴的数据湖仓平台,依赖于开放表格格式,缺乏内置的高级目录管理功能,以实现多引擎的无缝互操作性。

所有这些项目都有潜力建立新的标准,成为数据湖仓平台中供应商中立的开放目录服务。

就像Hive Metastore曾成为Hadoop平台的事实标准一样,这些新兴的目录可能最终取代Hive Metastore在开放数据平台上的长期主导地位。

9. 分析与可视化

在开源商业智能领域,Apache Superset和Metabase仍然是领先的BI解决方案。

虽然Superset在GitHub上更受欢迎,但Metabase的开发活动更为活跃。

Lightdash作为一个有前途的新兴工具,获得了1100万美元的融资,展示了市场对轻量级BI解决方案的需求。

请添加图片描述

BI即代码解决方案

BI即代码作为一个独特的类别出现,受到Streamlit持续成功的推动,Streamlit保持其作为最受欢迎的BI即代码解决方案的地位。

这些工具使开发者能够使用代码、SQL和模板(如Markdown或YAML)创建交互式应用和轻量级BI仪表板,将软件工程的最佳实践,如版本控制、测试和CI/CD,融入到仪表板开发工作流中。

除了广为人知的 Streamlit 和 Evidence 之外,像 Quary 和 Vizro 这样的新入者也逐渐崭露头角。其中,Quary 特别引人注目,因为它采用了基于 Rust 的开发方式,这与该领域常见的以 Python 为中心的模式有所不同。

可组合BI堆栈

系统解耦的演变不仅限于存储系统;它还影响了商业智能(BI)堆栈。一种新兴趋势是将轻量级、无后端服务器的BI工具与无头嵌入式OLAP解决方案(如Apache DataFusion、Apache Arrow和DuckDB)相结合。

这种集成解决了开放源BI堆栈中的一些空白,例如原生查询外部数据湖和湖仓的能力,同时保持轻量级、解耦的架构的优势。

请添加图片描述

像Omni、GoodData、Evidence和Rilldata这样的BI产品,已经将这些引擎集成到其BI和数据探索工具中。

Apache Superset(使用duckdb-engine库)和Metabase现在也支持嵌入式DuckDB连接。

MPP查询引擎

在后Hadoop时代,开源MPP(大规模并行处理)系统的创新和引入相对较少,而现有引擎继续成熟。

虽然Hive的份额在下降,但Presto和Trino仍然是生产中使用的主要开源MPP查询引擎,尽管面临着Spark作为统一引擎,以及Databricks、Snowflake和AWS Redshift Spectrum等托管云MPP产品的激烈竞争。

未来展望与结论

开源数据生态系统正进入一个成熟阶段,关键领域如数据湖仓,其特征是围绕经过验证的技术的整合和对操作效率的更大关注。

该领域继续朝着云原生、可组合架构方向发展,同时围绕主导技术进行标准化。

需要关注的关键领域包括:

  • 开放表格格式领域的进一步整合
  • 实时和事务性系统中零磁盘架构的持续演变
  • 提供统一湖仓体验的追求
  • LLMOps和AI工程的崛起
  • 数据湖仓生态系统在开放目录集成和本地库开发等领域的扩展
  • 单节点数据处理和嵌入式分析的日益关注

原文链接:https://www.pracdata.io/p/open-source-data-engineering-landscape-2025

本文由 白鲸开源科技 提供发布支持!

相关文章:

2025开源数据工程全景图

作者 | Alireza Sadeghi 译自Practical Data Engineering 2025年开源数据工程领域呈现蓬勃创新与生态重构的双重态势,九大技术赛道在实时化、轻量化与云原生架构驱动下加速演进。一份来自外网的2025年开源数据工程全景图全面地展示了这一领域的发展态势与走向&…...

438. 找到字符串中所有字母异位词(LeetCode 热题 100)

题目来源: 438. 找到字符串中所有字母异位词 - 力扣(LeetCode) 题目内容: 给定两个字符串 s 和 p,找到 s 中所有 p 的 异位词的子串,返回这些子串的起始索引。不考虑答案输出的顺序。 示例 1: 输入: s &…...

c++标准io与线程,互斥锁

封装一个 File 类, 用有私有成员 File* fp 实现以下功能 File f "文件名" 要求打开该文件 f.write(string str) 要求将str数据写入文件中 string str f.read(int size) 从文件中读取最多size个字节, 并将读取到的数据返回 析构函数 #…...

java简单实现请求deepseek

1.deepseek的api创建 deepseek官网链接 点击右上API开放平台后找到API keys 创建APIkey&#xff1a; 注意&#xff1a;创建好的apikey只能在创建时可以复制&#xff0c;要保存好 2.java实现请求deepseek 使用springbootmaven 2.1 pom文件&#xff1a; <?xml version&…...

Ext系列文件系统 -- 磁盘结构,磁盘分区,inode,ext文件系统,软硬链接

目录 1.理解硬盘 1.1 磁盘、服务器、机柜、机房 1.2 磁盘物理结构 1.3 磁盘的存储结构 1.4 磁盘的逻辑结构 1.4.1 理解逻辑结构 1.4.2 真实过程 1.5 CHS地址和LBA地址的相互转换 2.引入文件系统 2.1 “块”概念 2.2 “分区”概念 2.3 “inode”概念 3.ext2文件系…...

PyTorch Tensor 形状变化操作详解

PyTorch Tensor 形状变化操作详解 在深度学习中&#xff0c;Tensor 的形状变换是非常常见的操作。PyTorch 提供了丰富的 API 来帮助我们调整 Tensor 的形状&#xff0c;以满足模型输入、计算或数据处理的需求。本文将详细介绍 PyTorch 中常见的 Tensor 形状变换操作&#xff0…...

文字识别软件cnocr学习笔记

• 安装 pip install cnocr • 基础的使用方法 首次运行会下载安装模型&#xff0c;如果没有梯子&#xff0c;会报错&#xff1a; 在网络上查找cnocr的模型资源&#xff0c;并下载到本地。https://download.csdn.net/download/qq_33464428/89514689?ops_request_misc%257B%2…...

本地部署DeepSeek R1 + 界面可视化open-webui【ollama容器+open-webui容器】

本地部署DeepSeek R1 界面可视化open-webui 本文主要讲述如何用ollama镜像和open-webui镜像部署DeepSeek R1&#xff0c; 镜像比较方便我们在各个机器之间快速部署。 显卡推荐 模型版本CPU内存GPU显卡推荐1.5B4核8GB非必需4GBRTX1650、RTX20607B、8B8核16GB8GBRTX3070、RTX…...

macOS部署DeepSeek-r1

好奇&#xff0c;跟着网友们的操作试了一下 网上方案很多&#xff0c;主要参考的是这篇 DeepSeek 接入 PyCharm&#xff0c;轻松助力编程_pycharm deepseek-CSDN博客 方案是&#xff1a;PyCharm CodeGPT插件 DeepSeek-r1:1.5b 假设已经安装好了PyCharm PyCharm: the Pyth…...

基于STM32与BD623x的电机控制实战——从零搭建无人机/机器人驱动系统

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划 文章目录 一、为什么选择这两个芯片&#xff1f;1.1 STM32微控制器1.2 ROHM BD623x电机驱动 二、核心控制原理详解2.1 H桥驱动奥…...

基于ffmpeg+openGL ES实现的视频编辑工具-字幕添加(六)

在视频编辑领域,字幕的添加是一项极为重要的功能,它能够极大地丰富视频内容,提升观众的观看体验。当我们深入探究如何实现这一功能时,FreeType 开源库成为了强大助力。本文将详细阐述借助 FreeType 库生成字幕数据的过程,以及如何实现字幕的缩放、移动、旋转、颜色修改、对…...

C++中const T为什么少见?它有什么用途?

在C中&#xff0c;右值引用&#xff08;T&&&#xff09;是移动语义和完美转发的核心特性之一&#xff0c;但你是否注意到&#xff0c;const T&&&#xff08;const右值引用&#xff09;却很少被使用&#xff1f;它到底有什么用途&#xff1f; 今天我们就来深入…...

Leetcode 位计算

3095. 或值至少 K 的最短子数组 I 3097. Shortest Subarray With OR at Least K II class Solution:def minimumSubarrayLength(self, nums: List[int], k: int) -> int:n len(nums)bits [0] * 30res infdef calc(bits):return sum(1 << i for i in range(30) if…...

SpringBoot3.x整合WebSocket

SpringBoot3.x整合WebSocket 本文主要介绍最新springboot3.x下如何整合WebSocket. WebSocket简述 WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议&#xff0c;它允许在浏览器和服务器之间进行实时的、双向的通信。相对于传统的基于请求和响应的 HTTP 协议&#xff…...

猿大师办公助手对比其他WebOffice在线编辑Office插件有什么优势

1. 原生Office功能完整嵌入&#xff0c;排版一致性保障 猿大师办公助手直接调用本地安装的微软Office、金山WPS或永中Office&#xff0c;支持所有原生功能&#xff08;如复杂公式、VBA宏等&#xff09;&#xff0c;确保网页编辑与本地打开的文档排版完全一致。 提供OLE嵌入和完…...

STM32创建静态库lib

创建静态库lib 1. 新建工程1.1 创建工程文件夹1.2 编写用户相关代码1.2.1 stm32f4xx_it.h1.2.2 stm32f4xx_it.c1.2.3 标准库配置&#xff1a;stm32f4xx_conf.h1.2.4 HAL库的配置&#xff1a;stm32f4xx_hal_conf.h1.2.5 LL库配置&#xff1a;stm32f4xx_ll_conf.h 1.3 移植通用文…...

Hive JOIN过滤条件位置玄学:ON vs WHERE的量子纠缠

Hive JOIN过滤条件位置玄学:ON vs WHERE的量子纠缠 作为数据工程师,Hive JOIN就像吃火锅选蘸料——放错位置味道全变!今天带你破解字节/阿里等大厂高频面试题:ON和WHERE后的过滤条件究竟有什么不同? 一、核心差异对比表 特性ON子句WHERE子句执行时机JOIN操作时JOIN完成后…...

MAC快速本地部署Deepseek (win也可以)

MAC快速本地部署Deepseek (win也可以) 下载安装ollama 地址: https://ollama.com/ Ollama 是一个开源的大型语言模型&#xff08;LLM&#xff09;本地运行框架&#xff0c;旨在简化大模型的部署和管理流程&#xff0c;使开发者、研究人员及爱好者能够高效地在本地环境中实验和…...

javaEE-13.spring MVC

目录 什么是spring web mvc: 什么是MVC: 一.创建一个spring项目 二.实现功能: 创建helloController.java项目: 建立连接&#xff1a; RequestMapping注解: 1.RequestMapping注解的使用&#xff1a; 2. RequestMapping 是GET还是POST请求 3.指定请求方法 RestControll…...

C/C++ | 每日一练 (2)

&#x1f4a2;欢迎来到张胤尘的技术站 &#x1f4a5;技术如江河&#xff0c;汇聚众志成。代码似星辰&#xff0c;照亮行征程。开源精神长&#xff0c;传承永不忘。携手共前行&#xff0c;未来更辉煌&#x1f4a5; 文章目录 C/C | 每日一练 (2)题目参考答案封装继承多态虚函数底…...

[2025CVPR]DeepVideo-R1:基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈,在多个视频基准上实现SOTA性能 一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战 ​安全措施依赖问题​ GRPO使用min和clip函数限制策略更新幅度,导致: 梯度抑制:当新旧策略差异过大时梯度消失收敛困难:策略无法充分优化# 传统GRPO的梯…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波&#xff1a;可以用来解决所提出的地质任务的波&#xff1b;干扰波&#xff1a;所有妨碍辨认、追踪有效波的其他波。 地震勘探中&#xff0c;有效波和干扰波是相对的。例如&#xff0c;在反射波…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者&#xff1a;Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位&#xff1a;中南大学地球科学与信息物理学院论文标题&#xff1a;BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接&#xff1a;https://arxiv.…...

前端倒计时误差!

提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

大型活动交通拥堵治理的视觉算法应用

大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动&#xff08;如演唱会、马拉松赛事、高考中考等&#xff09;期间&#xff0c;城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例&#xff0c;暖城商圈曾因观众集中离场导致周边…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

Linux-07 ubuntu 的 chrome 启动不了

文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了&#xff0c;报错如下四、启动不了&#xff0c;解决如下 总结 问题原因 在应用中可以看到chrome&#xff0c;但是打不开(说明&#xff1a;原来的ubuntu系统出问题了&#xff0c;这个是备用的硬盘&a…...

关键领域软件测试的突围之路:如何破解安全与效率的平衡难题

在数字化浪潮席卷全球的今天&#xff0c;软件系统已成为国家关键领域的核心战斗力。不同于普通商业软件&#xff0c;这些承载着国家安全使命的软件系统面临着前所未有的质量挑战——如何在确保绝对安全的前提下&#xff0c;实现高效测试与快速迭代&#xff1f;这一命题正考验着…...

让回归模型不再被异常值“带跑偏“,MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中&#xff0c;损失函数的选择对模型性能具有决定性影响。均方误差&#xff08;MSE&#xff09;作为经典的损失函数&#xff0c;在处理干净数据时表现优异&#xff0c;但在面对包含异常值的噪声数据时&#xff0c;其对大误差的二次惩罚机制往往导致模型参数…...

HarmonyOS运动开发:如何用mpchart绘制运动配速图表

##鸿蒙核心技术##运动开发##Sensor Service Kit&#xff08;传感器服务&#xff09;# 前言 在运动类应用中&#xff0c;运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据&#xff0c;如配速、距离、卡路里消耗等&#xff0c;用户可以更清晰…...