SQLMesh 系列教程6- 详解 Python 模型
本文将介绍 SQLMesh 的 Python 模型,探讨其定义、优势及在企业业务场景中的应用。SQLMesh 不仅支持 SQL 模型,还允许通过 Python 编写数据模型,提供更高的灵活性和可编程性。我们将通过一个电商平台的实例,展示如何使用 Python 模型生成每日销售报告和计算客户生命周期价值。文章将详细解析 Python 模型的核心组成部分,包括模型定义、数据加载、转换逻辑和数据写入,并探讨其在实际业务中的价值,帮助读者掌握如何利用 Python 模型构建高效的数据管道。
SQLMesh 的 Python 模型
SQLMesh 不仅支持通过 SQL 定义数据模型,还支持通过 Python 编写数据模型。Python 模型提供了更高的灵活性和可编程性,特别适合需要复杂逻辑或动态生成 SQL 的场景。Python 模型的核心是通过编写 Python 函数来定义数据转换逻辑,并利用 SQLMesh 的框架将其集成到数据管道中。

Python 模型的定义
SQLMesh 的 Python 模型由以下几个部分组成:
- 模型定义:
- 使用
@model装饰器定义 Python 模型。 - 指定模型的名称、目标表、分区策略等元数据。
- 使用
- 数据加载:
- 通过 SQLMesh 提供的上下文对象(
context)加载数据。 - 可以使用 SQL 查询或直接读取数据源。
- 通过 SQLMesh 提供的上下文对象(
- 数据转换逻辑:
- 在 Python 函数中实现数据转换逻辑。
- 可以利用 Pandas、NumPy 等库进行复杂的数据处理。
- 数据写入:
- 将处理后的数据写入目标表。
- 支持增量更新和全量更新。
- 依赖管理:
- 可以通过
@depends_on装饰器声明模型之间的依赖关系。
- 可以通过
Python 模型示例
以下是一个完整的 Python 模型示例,结合企业业务场景:假设我们需要从原始订单数据中生成每日销售报告,并计算每个客户的总消费金额。
1. 每日销售报告
- 目标:每天生成销售数据,供业务团队分析。
- 实现:
- 使用
@model装饰器定义模型,指定为增量模型(INCREMENTAL_BY_TIME_RANGE)。 - 通过 SQL 查询加载当天的订单数据,并计算总销售额、总订单数和平均订单价值。
- 将结果写入目标表
daily_sales_report。
- 使用
2. 客户生命周期价值
- 目标:每周计算每个客户的总消费金额,用于客户分群和营销策略。
- 实现:
- 使用
@model装饰器定义模型,指定为全量模型(FULL)。 - 通过 SQL 查询加载所有订单数据,并按客户 ID 聚合计算总消费金额。
- 将结果写入目标表
customer_lifetime_value。
- 使用
3. 业务场景
- 原始数据表:
raw_orders,包含订单的详细信息。 - 目标数据表:
daily_sales_report,按天汇总销售数据。 - 目标数据表:
customer_lifetime_value,计算每个客户的总消费金额。
4. Python 模型脚本
from sqlmesh import model
from sqlmesh.core.context import Context
import pandas as pd# 定义每日销售报告模型
@model(name="db.daily_sales_report",kind="INCREMENTAL_BY_TIME_RANGE",time_column="order_date",cron="@daily",grain=["order_date"],
)
def generate_daily_sales_report(context: Context):# 加载原始订单数据df = context.sql("""SELECTorder_date,SUM(quantity * price) AS total_sales,COUNT(DISTINCT order_id) AS total_orders,SUM(quantity * price) / COUNT(DISTINCT order_id) AS avg_order_valueFROM raw_ordersWHERE order_date = @start_dsGROUP BY order_date""")# 将结果写入目标表context.write(df, "db.daily_sales_report")# 定义客户生命周期价值模型
@model(name="db.customer_lifetime_value",kind="FULL", # 全量模型cron="@weekly",
)
def generate_customer_lifetime_value(context: Context):# 加载原始订单数据df = context.sql("""SELECTcustomer_id,SUM(quantity * price) AS lifetime_valueFROM raw_ordersGROUP BY customer_id""")# 将结果写入目标表context.write(df, "db.customer_lifetime_value")
SQLMesh 的 Python 模型为数据工程提供了强大的灵活性和可编程性。通过 Python 模型,企业可以轻松实现复杂的数据转换逻辑,并将其集成到数据管道中。无论是每日销售报告还是客户生命周期价值分析,Python 模型都能帮助企业高效地处理和分析数据,支持数据驱动的决策。
优势与应用场景
- 灵活性:
- Python 模型支持复杂的数据处理逻辑,例如使用 Pandas 进行数据清洗、特征工程等。
- 适合需要动态生成 SQL 或处理非结构化数据的场景。
- 可扩展性:
- 可以轻松集成外部 Python 库(如 Scikit-learn、TensorFlow)进行机器学习或高级分析。
- 企业应用场景:
- 电商平台:计算每日销售报告、客户生命周期价值、推荐系统特征工程等。
- 金融行业:计算用户信用评分、交易风险分析等。
- 物流行业:优化配送路线、预测库存需求等。
最后总结
本文深入探讨了 SQLMesh 的 Python 模型,展示了其定义、实现及在企业业务场景中的应用。通过电商平台的实例,我们演示了如何使用 Python 模型生成每日销售报告和计算客户生命周期价值。SQLMesh 的 Python 模型结合了 SQL 的简洁性和 Python 的强大功能,支持复杂的数据处理逻辑和动态 SQL 生成,非常适合需要灵活性和可扩展性的数据工程场景。无论是电商、金融还是物流行业,Python 模型都能帮助企业高效处理数据,赋能数据驱动的决策与创新。
相关文章:
SQLMesh 系列教程6- 详解 Python 模型
本文将介绍 SQLMesh 的 Python 模型,探讨其定义、优势及在企业业务场景中的应用。SQLMesh 不仅支持 SQL 模型,还允许通过 Python 编写数据模型,提供更高的灵活性和可编程性。我们将通过一个电商平台的实例,展示如何使用 Python 模…...
聊一聊vue如何实现角色权限的控制的
大家好,我是G探险者。 关于角色与权限控制,通常是分为两大类:一种是菜单权限;一种是操作权限。 菜单权限是指,每个角色对应着可以看到哪些菜单,至于每个菜单里面的每个按钮,比如增删改查等等这类…...
Python连接MySQL数据库图文教程,Python连接数据库MySQL入门教程
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言1. 环境准备1.1安装 Python1.2选择开发环境1.3安装 MySQL 数据库1.4 安装 pymysql 库 2. 连接数据库3. 数据库基本操作3.1 创建数据库3.2 创建表3.3 插入数据3.…...
懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制)
1.合集懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制):https://www.bilibili.com/video/BV1M6rdYEEog/ 备注: 1.本地离线卡密采用最安全的非对称加解密技术,设备id采用最安全多重混合加密不可逆技术生成&…...
天 锐 蓝盾终端安全管理系统:办公U盘拷贝使用管控限制
天 锐 蓝盾终端安全管理系统以终端安全为基石,深度融合安全、管理与维护三大要素,通过对桌面终端系统的精准把控,助力企业用户构筑起更为安全、稳固且可靠的网络运行环境。它实现了管理的标准化,有效破解终端安全管理难题…...
LeetCode 2595.奇偶位数:位运算
【LetMeFly】2595.奇偶位数:位运算 力扣题目链接:https://leetcode.cn/problems/number-of-even-and-odd-bits/ 给你一个 正 整数 n 。 用 even 表示在 n 的二进制形式(下标从 0 开始)中值为 1 的偶数下标的个数。 用 odd 表示…...
一周学会Flask3 Python Web开发-response响应格式
锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 在HTTP响应中,数据可以通过多种格式传输。大多数情况下,我们会使用HTML格式,这也是Flask中…...
uni-app开发app时 使用uni.chooseLocation遇到的问题
问题一:不显示 问题二:选择地址列表一直在加载中 因为 uni-app 接口文档 中已经说明,使用腾讯的话需要开启云服务,具体可看官网,这就是为什么使用时直接不显示的原因,所以我使用的高德,但又出现…...
Android Hal AIDL 简介 (一)
Android 接口定义语言 (AIDL) 是一款可供用户用来抽象化 IPC 的工具。 以在 .aidl 文件中指定的接口为例,各种构建系统都会使用 aidl 二进制文件构造 C++ 或 Java 绑定,以便跨进程使用该接口(无论其运行时环境或位数如何)。 AIDL 可以在 Android 中的任何进程之间使用:在…...
鸿蒙初学者学习手册(HarmonyOSNext_API14)_组件截图(@ohos.arkui.componentSnapshot (组件截图) )
前言: 这个模块可以截取组件的图片,无论组件是否已加载。截图只能拍到组件本身的大小区域。 如果组件或其子组件画得超出了自己的区域,超出的部分不会出现在截图中。截图不会拍到与当前组件平级的(兄弟)组件。 模块简…...
华为昇腾910b服务器部署DeepSeek翻车现场
最近到祸一台HUAWEI Kunpeng 920 5250,先看看配置。之前是部署的讯飞大模型,发现资源利用率太低了。把5台减少到3台,就出了他 硬件配置信息 基本硬件信息 按照惯例先来看看配置。一共3块盘,500G的系统盘, 2块3T固态…...
[展示]Webrtc NoiseSuppressor降噪模块嵌入式平台移植
最近在尝试把WebRtc的NoiseSuppressor模块移植到嵌入式平台,现在已经移植了,尝试了下效果,降噪效果很显著,噪声带被显著抑制了 降噪前: 降噪后:...
golang内存泄漏
golang也用了好几年了,趁着有空 整理归纳下,以后忘了好看下 一般认为 Go 10次内存泄漏,8次goroutine泄漏,1次是真正内存泄漏,还有1次是cgo导致的内存泄漏 1:环境 go1.20 win10 2:goroutine泄漏 单个Goroutine占用内存&…...
安科瑞能源物联网平台助力企业实现绿色低碳转型
安科瑞顾强 随着全球能源结构的转型和“双碳”目标的推进,能源管理正朝着智能化、数字化的方向快速发展。安科瑞电气股份有限公司推出的微电网智慧能源管理平台(EMS 3.0),正是这一趋势下的创新解决方案。该平台集成了物联网&…...
Android Http-server 本地 web 服务
时间:2025年2月16日 地点:深圳.前海湾 需求 我们都知道 webview 可加载 URI,他有自己的协议 scheme: content:// 标识数据由 Content Provider 管理file:// 本地文件 http:// 网络资源 特别的,如果你想直接…...
腾讯的webUI怎样实现deepseek外部调用 ; 腾讯云通过API怎样调用deepseek
腾讯的webUI怎样实现deepseek外部调用 目录 腾讯的webUI怎样实现deepseek外部调用腾讯云通过API怎样调用deepseekhtml方式curl方式python方式腾讯云通过API怎样调用deepseek 重点说明:不需要SK,仅仅使用ip和端口号 html方式 <!DOCTYPE html> <html lang="e…...
DeepSeek VS ChatGPT-速度、准确性和成本
撰写本文时马斯克刚刚发布了聊天机器人Grok2,10万张算卡体现了马斯克的财大气粗。近年来,人工智能模型取得了长足的发展,每个模型都力求在速度、准确性和成本效率方面超越其他模型。在本文中,我将深入研究比较中美在AI的焦点模型上…...
内外网隔离文件传输解决方案|系统与钉钉集成+等保合规,安全提升70%
一、背景与痛点 在内外网隔离的企业网络环境中,员工与外部协作伙伴(如钉钉用户)的文件传输面临以下挑战: 1. **安全性风险**:内外网直连可能导致病毒传播、数据泄露。 2. **操作繁琐**:传统方式需频繁切…...
Linux基础开发工具的使用(apt、vim、gcc、g++、gdb、make、makefile)
Linux软件包管理器–apt Linux安装软件的方式 在Linux下安装软件的方法有以下三种: 下载到程序的源代码,自己编译出可执行程序获取deb安装包、然后使用dpkg命令安装。(不解决依赖关系)通过apt进行安装软件。 小知识点…...
最新版IDEA下载安装教程
一、下载IDEA 点击前往官网下载 或者去网盘下载 点击前往百度网盘下载 点击前往夸克网盘下载 进去后点击IDEA 然后点击Download 选择自己电脑对应的系统 点击下载 等待下载即可 二、安装IDEA 下载好后双击应用程序 点击下一步 选择好安装目录后点击下一步 勾选这两项后点击…...
KubeSphere 容器平台高可用:环境搭建与可视化操作指南
Linux_k8s篇 欢迎来到Linux的世界,看笔记好好学多敲多打,每个人都是大神! 题目:KubeSphere 容器平台高可用:环境搭建与可视化操作指南 版本号: 1.0,0 作者: 老王要学习 日期: 2025.06.05 适用环境: Ubuntu22 文档说…...
零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?
一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...
Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以?
Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以? 在 Golang 的面试中,map 类型的使用是一个常见的考点,其中对 key 类型的合法性 是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...
Cesium1.95中高性能加载1500个点
一、基本方式: 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...
在rocky linux 9.5上在线安装 docker
前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...
Matlab | matlab常用命令总结
常用命令 一、 基础操作与环境二、 矩阵与数组操作(核心)三、 绘图与可视化四、 编程与控制流五、 符号计算 (Symbolic Math Toolbox)六、 文件与数据 I/O七、 常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结,涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...
return this;返回的是谁
一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请,不同级别的经理有不同的审批权限: // 抽象处理者:审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...
【无标题】路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论
路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论 一、传统路径模型的根本缺陷 在经典正方形路径问题中(图1): mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...
现有的 Redis 分布式锁库(如 Redisson)提供了哪些便利?
现有的 Redis 分布式锁库(如 Redisson)相比于开发者自己基于 Redis 命令(如 SETNX, EXPIRE, DEL)手动实现分布式锁,提供了巨大的便利性和健壮性。主要体现在以下几个方面: 原子性保证 (Atomicity)ÿ…...
