当前位置: 首页 > news >正文

SQLMesh 系列教程6- 详解 Python 模型

本文将介绍 SQLMesh 的 Python 模型,探讨其定义、优势及在企业业务场景中的应用。SQLMesh 不仅支持 SQL 模型,还允许通过 Python 编写数据模型,提供更高的灵活性和可编程性。我们将通过一个电商平台的实例,展示如何使用 Python 模型生成每日销售报告和计算客户生命周期价值。文章将详细解析 Python 模型的核心组成部分,包括模型定义、数据加载、转换逻辑和数据写入,并探讨其在实际业务中的价值,帮助读者掌握如何利用 Python 模型构建高效的数据管道。

SQLMesh 的 Python 模型

SQLMesh 不仅支持通过 SQL 定义数据模型,还支持通过 Python 编写数据模型。Python 模型提供了更高的灵活性和可编程性,特别适合需要复杂逻辑或动态生成 SQL 的场景。Python 模型的核心是通过编写 Python 函数来定义数据转换逻辑,并利用 SQLMesh 的框架将其集成到数据管道中。

在这里插入图片描述

Python 模型的定义

SQLMesh 的 Python 模型由以下几个部分组成:

  1. 模型定义
    • 使用 @model 装饰器定义 Python 模型。
    • 指定模型的名称、目标表、分区策略等元数据。
  2. 数据加载
    • 通过 SQLMesh 提供的上下文对象(context)加载数据。
    • 可以使用 SQL 查询或直接读取数据源。
  3. 数据转换逻辑
    • 在 Python 函数中实现数据转换逻辑。
    • 可以利用 Pandas、NumPy 等库进行复杂的数据处理。
  4. 数据写入
    • 将处理后的数据写入目标表。
    • 支持增量更新和全量更新。
  5. 依赖管理
    • 可以通过 @depends_on 装饰器声明模型之间的依赖关系。

Python 模型示例

以下是一个完整的 Python 模型示例,结合企业业务场景:假设我们需要从原始订单数据中生成每日销售报告,并计算每个客户的总消费金额。

1. 每日销售报告
  • 目标:每天生成销售数据,供业务团队分析。
  • 实现
    • 使用 @model 装饰器定义模型,指定为增量模型(INCREMENTAL_BY_TIME_RANGE)。
    • 通过 SQL 查询加载当天的订单数据,并计算总销售额、总订单数和平均订单价值。
    • 将结果写入目标表 daily_sales_report
2. 客户生命周期价值
  • 目标:每周计算每个客户的总消费金额,用于客户分群和营销策略。
  • 实现
    • 使用 @model 装饰器定义模型,指定为全量模型(FULL)。
    • 通过 SQL 查询加载所有订单数据,并按客户 ID 聚合计算总消费金额。
    • 将结果写入目标表 customer_lifetime_value
3. 业务场景
  • 原始数据表:raw_orders,包含订单的详细信息。
  • 目标数据表:daily_sales_report,按天汇总销售数据。
  • 目标数据表:customer_lifetime_value,计算每个客户的总消费金额。
4. Python 模型脚本
from sqlmesh import model
from sqlmesh.core.context import Context
import pandas as pd# 定义每日销售报告模型
@model(name="db.daily_sales_report",kind="INCREMENTAL_BY_TIME_RANGE",time_column="order_date",cron="@daily",grain=["order_date"],
)
def generate_daily_sales_report(context: Context):# 加载原始订单数据df = context.sql("""SELECTorder_date,SUM(quantity * price) AS total_sales,COUNT(DISTINCT order_id) AS total_orders,SUM(quantity * price) / COUNT(DISTINCT order_id) AS avg_order_valueFROM raw_ordersWHERE order_date = @start_dsGROUP BY order_date""")# 将结果写入目标表context.write(df, "db.daily_sales_report")# 定义客户生命周期价值模型
@model(name="db.customer_lifetime_value",kind="FULL",  # 全量模型cron="@weekly",
)
def generate_customer_lifetime_value(context: Context):# 加载原始订单数据df = context.sql("""SELECTcustomer_id,SUM(quantity * price) AS lifetime_valueFROM raw_ordersGROUP BY customer_id""")# 将结果写入目标表context.write(df, "db.customer_lifetime_value")

SQLMesh 的 Python 模型为数据工程提供了强大的灵活性和可编程性。通过 Python 模型,企业可以轻松实现复杂的数据转换逻辑,并将其集成到数据管道中。无论是每日销售报告还是客户生命周期价值分析,Python 模型都能帮助企业高效地处理和分析数据,支持数据驱动的决策。

优势与应用场景

  1. 灵活性
    • Python 模型支持复杂的数据处理逻辑,例如使用 Pandas 进行数据清洗、特征工程等。
    • 适合需要动态生成 SQL 或处理非结构化数据的场景。
  2. 可扩展性
    • 可以轻松集成外部 Python 库(如 Scikit-learn、TensorFlow)进行机器学习或高级分析。
  3. 企业应用场景
    • 电商平台:计算每日销售报告、客户生命周期价值、推荐系统特征工程等。
    • 金融行业:计算用户信用评分、交易风险分析等。
    • 物流行业:优化配送路线、预测库存需求等。

最后总结

本文深入探讨了 SQLMesh 的 Python 模型,展示了其定义、实现及在企业业务场景中的应用。通过电商平台的实例,我们演示了如何使用 Python 模型生成每日销售报告和计算客户生命周期价值。SQLMesh 的 Python 模型结合了 SQL 的简洁性和 Python 的强大功能,支持复杂的数据处理逻辑和动态 SQL 生成,非常适合需要灵活性和可扩展性的数据工程场景。无论是电商、金融还是物流行业,Python 模型都能帮助企业高效处理数据,赋能数据驱动的决策与创新。

相关文章:

SQLMesh 系列教程6- 详解 Python 模型

本文将介绍 SQLMesh 的 Python 模型,探讨其定义、优势及在企业业务场景中的应用。SQLMesh 不仅支持 SQL 模型,还允许通过 Python 编写数据模型,提供更高的灵活性和可编程性。我们将通过一个电商平台的实例,展示如何使用 Python 模…...

聊一聊vue如何实现角色权限的控制的

大家好,我是G探险者。 关于角色与权限控制,通常是分为两大类:一种是菜单权限;一种是操作权限。 菜单权限是指,每个角色对应着可以看到哪些菜单,至于每个菜单里面的每个按钮,比如增删改查等等这类…...

Python连接MySQL数据库图文教程,Python连接数据库MySQL入门教程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言1. 环境准备1.1安装 Python1.2选择开发环境1.3安装 MySQL 数据库1.4 安装 pymysql 库 2. 连接数据库3. 数据库基本操作3.1 创建数据库3.2 创建表3.3 插入数据3.…...

懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制)

1.合集懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制):https://www.bilibili.com/video/BV1M6rdYEEog/ 备注: 1.本地离线卡密采用最安全的非对称加解密技术,设备id采用最安全多重混合加密不可逆技术生成&…...

天 锐 蓝盾终端安全管理系统:办公U盘拷贝使用管控限制

天 锐 蓝盾终端安全管理系统以终端安全为基石,深度融合安全、管理与维护三大要素,通过对桌面终端系统的精准把控,助力企业用户构筑起更为安全、稳固且可靠的网络运行环境。它实现了管理的标准化,有效破解终端安全管理难题&#xf…...

LeetCode 2595.奇偶位数:位运算

【LetMeFly】2595.奇偶位数:位运算 力扣题目链接:https://leetcode.cn/problems/number-of-even-and-odd-bits/ 给你一个 正 整数 n 。 用 even 表示在 n 的二进制形式(下标从 0 开始)中值为 1 的偶数下标的个数。 用 odd 表示…...

一周学会Flask3 Python Web开发-response响应格式

锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 在HTTP响应中,数据可以通过多种格式传输。大多数情况下,我们会使用HTML格式,这也是Flask中…...

uni-app开发app时 使用uni.chooseLocation遇到的问题

问题一:不显示 问题二:选择地址列表一直在加载中 因为 uni-app 接口文档 中已经说明,使用腾讯的话需要开启云服务,具体可看官网,这就是为什么使用时直接不显示的原因,所以我使用的高德,但又出现…...

Android Hal AIDL 简介 (一)

Android 接口定义语言 (AIDL) 是一款可供用户用来抽象化 IPC 的工具。 以在 .aidl 文件中指定的接口为例,各种构建系统都会使用 aidl 二进制文件构造 C++ 或 Java 绑定,以便跨进程使用该接口(无论其运行时环境或位数如何)。 AIDL 可以在 Android 中的任何进程之间使用:在…...

鸿蒙初学者学习手册(HarmonyOSNext_API14)_组件截图(@ohos.arkui.componentSnapshot (组件截图) )

前言: 这个模块可以截取组件的图片,无论组件是否已加载。截图只能拍到组件本身的大小区域。 如果组件或其子组件画得超出了自己的区域,超出的部分不会出现在截图中。截图不会拍到与当前组件平级的(兄弟)组件。 模块简…...

华为昇腾910b服务器部署DeepSeek翻车现场

最近到祸一台HUAWEI Kunpeng 920 5250,先看看配置。之前是部署的讯飞大模型,发现资源利用率太低了。把5台减少到3台,就出了他 硬件配置信息 基本硬件信息 按照惯例先来看看配置。一共3块盘,500G的系统盘, 2块3T固态…...

[展示]Webrtc NoiseSuppressor降噪模块嵌入式平台移植

最近在尝试把WebRtc的NoiseSuppressor模块移植到嵌入式平台,现在已经移植了,尝试了下效果,降噪效果很显著,噪声带被显著抑制了 降噪前: 降噪后:...

golang内存泄漏

golang也用了好几年了,趁着有空 整理归纳下,以后忘了好看下 一般认为 Go 10次内存泄漏,8次goroutine泄漏,1次是真正内存泄漏,还有1次是cgo导致的内存泄漏 1:环境 go1.20 win10 2:goroutine泄漏 单个Goroutine占用内存&…...

安科瑞能源物联网平台助力企业实现绿色低碳转型

安科瑞顾强 随着全球能源结构的转型和“双碳”目标的推进,能源管理正朝着智能化、数字化的方向快速发展。安科瑞电气股份有限公司推出的微电网智慧能源管理平台(EMS 3.0),正是这一趋势下的创新解决方案。该平台集成了物联网&…...

Android Http-server 本地 web 服务

时间:2025年2月16日 地点:深圳.前海湾 需求 我们都知道 webview 可加载 URI,他有自己的协议 scheme: content:// 标识数据由 Content Provider 管理file:// 本地文件 http:// 网络资源 特别的,如果你想直接…...

腾讯的webUI怎样实现deepseek外部调用 ; 腾讯云通过API怎样调用deepseek

腾讯的webUI怎样实现deepseek外部调用 目录 腾讯的webUI怎样实现deepseek外部调用腾讯云通过API怎样调用deepseekhtml方式curl方式python方式腾讯云通过API怎样调用deepseek 重点说明:不需要SK,仅仅使用ip和端口号 html方式 <!DOCTYPE html> <html lang="e…...

DeepSeek VS ChatGPT-速度、准确性和成本

撰写本文时马斯克刚刚发布了聊天机器人Grok2&#xff0c;10万张算卡体现了马斯克的财大气粗。近年来&#xff0c;人工智能模型取得了长足的发展&#xff0c;每个模型都力求在速度、准确性和成本效率方面超越其他模型。在本文中&#xff0c;我将深入研究比较中美在AI的焦点模型上…...

内外网隔离文件传输解决方案|系统与钉钉集成+等保合规,安全提升70%

一、背景与痛点 在内外网隔离的企业网络环境中&#xff0c;员工与外部协作伙伴&#xff08;如钉钉用户&#xff09;的文件传输面临以下挑战&#xff1a; 1. **安全性风险**&#xff1a;内外网直连可能导致病毒传播、数据泄露。 2. **操作繁琐**&#xff1a;传统方式需频繁切…...

Linux基础开发工具的使用(apt、vim、gcc、g++、gdb、make、makefile)

Linux软件包管理器–apt Linux安装软件的方式 在Linux下安装软件的方法有以下三种&#xff1a; 下载到程序的源代码&#xff0c;自己编译出可执行程序获取deb安装包、然后使用dpkg命令安装。&#xff08;不解决依赖关系&#xff09;通过apt进行安装软件。 小知识点&#xf…...

最新版IDEA下载安装教程

一、下载IDEA 点击前往官网下载 或者去网盘下载 点击前往百度网盘下载 点击前往夸克网盘下载 进去后点击IDEA 然后点击Download 选择自己电脑对应的系统 点击下载 等待下载即可 二、安装IDEA 下载好后双击应用程序 点击下一步 选择好安装目录后点击下一步 勾选这两项后点击…...

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式&#xff0c;可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢&#xff0c;博主的学习进度也是步入了Java Mybatis 框架&#xff0c;目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学&#xff0c;希望能对大家有所帮助&#xff0c;也特别欢迎大家指点不足之处&#xff0c;小生很乐意接受正确的建议&…...

Go 语言接口详解

Go 语言接口详解 核心概念 接口定义 在 Go 语言中&#xff0c;接口是一种抽象类型&#xff0c;它定义了一组方法的集合&#xff1a; // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的&#xff1a; // 矩形结构体…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

一、开发准备 ​​环境搭建​​&#xff1a; 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 ​​项目创建​​&#xff1a; File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...

C++ 求圆面积的程序(Program to find area of a circle)

给定半径r&#xff0c;求圆的面积。圆的面积应精确到小数点后5位。 例子&#xff1a; 输入&#xff1a;r 5 输出&#xff1a;78.53982 解释&#xff1a;由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982&#xff0c;因为我们只保留小数点后 5 位数字。 输…...

浅谈不同二分算法的查找情况

二分算法原理比较简单&#xff0c;但是实际的算法模板却有很多&#xff0c;这一切都源于二分查找问题中的复杂情况和二分算法的边界处理&#xff0c;以下是博主对一些二分算法查找的情况分析。 需要说明的是&#xff0c;以下二分算法都是基于有序序列为升序有序的情况&#xf…...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开&#xff0c;首…...

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列&#xff0c;以便知晓哪些列包含有价值的数据&#xff0c;…...