SQLMesh 系列教程6- 详解 Python 模型
本文将介绍 SQLMesh 的 Python 模型,探讨其定义、优势及在企业业务场景中的应用。SQLMesh 不仅支持 SQL 模型,还允许通过 Python 编写数据模型,提供更高的灵活性和可编程性。我们将通过一个电商平台的实例,展示如何使用 Python 模型生成每日销售报告和计算客户生命周期价值。文章将详细解析 Python 模型的核心组成部分,包括模型定义、数据加载、转换逻辑和数据写入,并探讨其在实际业务中的价值,帮助读者掌握如何利用 Python 模型构建高效的数据管道。
SQLMesh 的 Python 模型
SQLMesh 不仅支持通过 SQL 定义数据模型,还支持通过 Python 编写数据模型。Python 模型提供了更高的灵活性和可编程性,特别适合需要复杂逻辑或动态生成 SQL 的场景。Python 模型的核心是通过编写 Python 函数来定义数据转换逻辑,并利用 SQLMesh 的框架将其集成到数据管道中。

Python 模型的定义
SQLMesh 的 Python 模型由以下几个部分组成:
- 模型定义:
- 使用
@model装饰器定义 Python 模型。 - 指定模型的名称、目标表、分区策略等元数据。
- 使用
- 数据加载:
- 通过 SQLMesh 提供的上下文对象(
context)加载数据。 - 可以使用 SQL 查询或直接读取数据源。
- 通过 SQLMesh 提供的上下文对象(
- 数据转换逻辑:
- 在 Python 函数中实现数据转换逻辑。
- 可以利用 Pandas、NumPy 等库进行复杂的数据处理。
- 数据写入:
- 将处理后的数据写入目标表。
- 支持增量更新和全量更新。
- 依赖管理:
- 可以通过
@depends_on装饰器声明模型之间的依赖关系。
- 可以通过
Python 模型示例
以下是一个完整的 Python 模型示例,结合企业业务场景:假设我们需要从原始订单数据中生成每日销售报告,并计算每个客户的总消费金额。
1. 每日销售报告
- 目标:每天生成销售数据,供业务团队分析。
- 实现:
- 使用
@model装饰器定义模型,指定为增量模型(INCREMENTAL_BY_TIME_RANGE)。 - 通过 SQL 查询加载当天的订单数据,并计算总销售额、总订单数和平均订单价值。
- 将结果写入目标表
daily_sales_report。
- 使用
2. 客户生命周期价值
- 目标:每周计算每个客户的总消费金额,用于客户分群和营销策略。
- 实现:
- 使用
@model装饰器定义模型,指定为全量模型(FULL)。 - 通过 SQL 查询加载所有订单数据,并按客户 ID 聚合计算总消费金额。
- 将结果写入目标表
customer_lifetime_value。
- 使用
3. 业务场景
- 原始数据表:
raw_orders,包含订单的详细信息。 - 目标数据表:
daily_sales_report,按天汇总销售数据。 - 目标数据表:
customer_lifetime_value,计算每个客户的总消费金额。
4. Python 模型脚本
from sqlmesh import model
from sqlmesh.core.context import Context
import pandas as pd# 定义每日销售报告模型
@model(name="db.daily_sales_report",kind="INCREMENTAL_BY_TIME_RANGE",time_column="order_date",cron="@daily",grain=["order_date"],
)
def generate_daily_sales_report(context: Context):# 加载原始订单数据df = context.sql("""SELECTorder_date,SUM(quantity * price) AS total_sales,COUNT(DISTINCT order_id) AS total_orders,SUM(quantity * price) / COUNT(DISTINCT order_id) AS avg_order_valueFROM raw_ordersWHERE order_date = @start_dsGROUP BY order_date""")# 将结果写入目标表context.write(df, "db.daily_sales_report")# 定义客户生命周期价值模型
@model(name="db.customer_lifetime_value",kind="FULL", # 全量模型cron="@weekly",
)
def generate_customer_lifetime_value(context: Context):# 加载原始订单数据df = context.sql("""SELECTcustomer_id,SUM(quantity * price) AS lifetime_valueFROM raw_ordersGROUP BY customer_id""")# 将结果写入目标表context.write(df, "db.customer_lifetime_value")
SQLMesh 的 Python 模型为数据工程提供了强大的灵活性和可编程性。通过 Python 模型,企业可以轻松实现复杂的数据转换逻辑,并将其集成到数据管道中。无论是每日销售报告还是客户生命周期价值分析,Python 模型都能帮助企业高效地处理和分析数据,支持数据驱动的决策。
优势与应用场景
- 灵活性:
- Python 模型支持复杂的数据处理逻辑,例如使用 Pandas 进行数据清洗、特征工程等。
- 适合需要动态生成 SQL 或处理非结构化数据的场景。
- 可扩展性:
- 可以轻松集成外部 Python 库(如 Scikit-learn、TensorFlow)进行机器学习或高级分析。
- 企业应用场景:
- 电商平台:计算每日销售报告、客户生命周期价值、推荐系统特征工程等。
- 金融行业:计算用户信用评分、交易风险分析等。
- 物流行业:优化配送路线、预测库存需求等。
最后总结
本文深入探讨了 SQLMesh 的 Python 模型,展示了其定义、实现及在企业业务场景中的应用。通过电商平台的实例,我们演示了如何使用 Python 模型生成每日销售报告和计算客户生命周期价值。SQLMesh 的 Python 模型结合了 SQL 的简洁性和 Python 的强大功能,支持复杂的数据处理逻辑和动态 SQL 生成,非常适合需要灵活性和可扩展性的数据工程场景。无论是电商、金融还是物流行业,Python 模型都能帮助企业高效处理数据,赋能数据驱动的决策与创新。
相关文章:
SQLMesh 系列教程6- 详解 Python 模型
本文将介绍 SQLMesh 的 Python 模型,探讨其定义、优势及在企业业务场景中的应用。SQLMesh 不仅支持 SQL 模型,还允许通过 Python 编写数据模型,提供更高的灵活性和可编程性。我们将通过一个电商平台的实例,展示如何使用 Python 模…...
聊一聊vue如何实现角色权限的控制的
大家好,我是G探险者。 关于角色与权限控制,通常是分为两大类:一种是菜单权限;一种是操作权限。 菜单权限是指,每个角色对应着可以看到哪些菜单,至于每个菜单里面的每个按钮,比如增删改查等等这类…...
Python连接MySQL数据库图文教程,Python连接数据库MySQL入门教程
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言1. 环境准备1.1安装 Python1.2选择开发环境1.3安装 MySQL 数据库1.4 安装 pymysql 库 2. 连接数据库3. 数据库基本操作3.1 创建数据库3.2 创建表3.3 插入数据3.…...
懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制)
1.合集懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制):https://www.bilibili.com/video/BV1M6rdYEEog/ 备注: 1.本地离线卡密采用最安全的非对称加解密技术,设备id采用最安全多重混合加密不可逆技术生成&…...
天 锐 蓝盾终端安全管理系统:办公U盘拷贝使用管控限制
天 锐 蓝盾终端安全管理系统以终端安全为基石,深度融合安全、管理与维护三大要素,通过对桌面终端系统的精准把控,助力企业用户构筑起更为安全、稳固且可靠的网络运行环境。它实现了管理的标准化,有效破解终端安全管理难题…...
LeetCode 2595.奇偶位数:位运算
【LetMeFly】2595.奇偶位数:位运算 力扣题目链接:https://leetcode.cn/problems/number-of-even-and-odd-bits/ 给你一个 正 整数 n 。 用 even 表示在 n 的二进制形式(下标从 0 开始)中值为 1 的偶数下标的个数。 用 odd 表示…...
一周学会Flask3 Python Web开发-response响应格式
锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 在HTTP响应中,数据可以通过多种格式传输。大多数情况下,我们会使用HTML格式,这也是Flask中…...
uni-app开发app时 使用uni.chooseLocation遇到的问题
问题一:不显示 问题二:选择地址列表一直在加载中 因为 uni-app 接口文档 中已经说明,使用腾讯的话需要开启云服务,具体可看官网,这就是为什么使用时直接不显示的原因,所以我使用的高德,但又出现…...
Android Hal AIDL 简介 (一)
Android 接口定义语言 (AIDL) 是一款可供用户用来抽象化 IPC 的工具。 以在 .aidl 文件中指定的接口为例,各种构建系统都会使用 aidl 二进制文件构造 C++ 或 Java 绑定,以便跨进程使用该接口(无论其运行时环境或位数如何)。 AIDL 可以在 Android 中的任何进程之间使用:在…...
鸿蒙初学者学习手册(HarmonyOSNext_API14)_组件截图(@ohos.arkui.componentSnapshot (组件截图) )
前言: 这个模块可以截取组件的图片,无论组件是否已加载。截图只能拍到组件本身的大小区域。 如果组件或其子组件画得超出了自己的区域,超出的部分不会出现在截图中。截图不会拍到与当前组件平级的(兄弟)组件。 模块简…...
华为昇腾910b服务器部署DeepSeek翻车现场
最近到祸一台HUAWEI Kunpeng 920 5250,先看看配置。之前是部署的讯飞大模型,发现资源利用率太低了。把5台减少到3台,就出了他 硬件配置信息 基本硬件信息 按照惯例先来看看配置。一共3块盘,500G的系统盘, 2块3T固态…...
[展示]Webrtc NoiseSuppressor降噪模块嵌入式平台移植
最近在尝试把WebRtc的NoiseSuppressor模块移植到嵌入式平台,现在已经移植了,尝试了下效果,降噪效果很显著,噪声带被显著抑制了 降噪前: 降噪后:...
golang内存泄漏
golang也用了好几年了,趁着有空 整理归纳下,以后忘了好看下 一般认为 Go 10次内存泄漏,8次goroutine泄漏,1次是真正内存泄漏,还有1次是cgo导致的内存泄漏 1:环境 go1.20 win10 2:goroutine泄漏 单个Goroutine占用内存&…...
安科瑞能源物联网平台助力企业实现绿色低碳转型
安科瑞顾强 随着全球能源结构的转型和“双碳”目标的推进,能源管理正朝着智能化、数字化的方向快速发展。安科瑞电气股份有限公司推出的微电网智慧能源管理平台(EMS 3.0),正是这一趋势下的创新解决方案。该平台集成了物联网&…...
Android Http-server 本地 web 服务
时间:2025年2月16日 地点:深圳.前海湾 需求 我们都知道 webview 可加载 URI,他有自己的协议 scheme: content:// 标识数据由 Content Provider 管理file:// 本地文件 http:// 网络资源 特别的,如果你想直接…...
腾讯的webUI怎样实现deepseek外部调用 ; 腾讯云通过API怎样调用deepseek
腾讯的webUI怎样实现deepseek外部调用 目录 腾讯的webUI怎样实现deepseek外部调用腾讯云通过API怎样调用deepseekhtml方式curl方式python方式腾讯云通过API怎样调用deepseek 重点说明:不需要SK,仅仅使用ip和端口号 html方式 <!DOCTYPE html> <html lang="e…...
DeepSeek VS ChatGPT-速度、准确性和成本
撰写本文时马斯克刚刚发布了聊天机器人Grok2,10万张算卡体现了马斯克的财大气粗。近年来,人工智能模型取得了长足的发展,每个模型都力求在速度、准确性和成本效率方面超越其他模型。在本文中,我将深入研究比较中美在AI的焦点模型上…...
内外网隔离文件传输解决方案|系统与钉钉集成+等保合规,安全提升70%
一、背景与痛点 在内外网隔离的企业网络环境中,员工与外部协作伙伴(如钉钉用户)的文件传输面临以下挑战: 1. **安全性风险**:内外网直连可能导致病毒传播、数据泄露。 2. **操作繁琐**:传统方式需频繁切…...
Linux基础开发工具的使用(apt、vim、gcc、g++、gdb、make、makefile)
Linux软件包管理器–apt Linux安装软件的方式 在Linux下安装软件的方法有以下三种: 下载到程序的源代码,自己编译出可执行程序获取deb安装包、然后使用dpkg命令安装。(不解决依赖关系)通过apt进行安装软件。 小知识点…...
最新版IDEA下载安装教程
一、下载IDEA 点击前往官网下载 或者去网盘下载 点击前往百度网盘下载 点击前往夸克网盘下载 进去后点击IDEA 然后点击Download 选择自己电脑对应的系统 点击下载 等待下载即可 二、安装IDEA 下载好后双击应用程序 点击下一步 选择好安装目录后点击下一步 勾选这两项后点击…...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...
Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
今天呢,博主的学习进度也是步入了Java Mybatis 框架,目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学,希望能对大家有所帮助,也特别欢迎大家指点不足之处,小生很乐意接受正确的建议&…...
Go 语言接口详解
Go 语言接口详解 核心概念 接口定义 在 Go 语言中,接口是一种抽象类型,它定义了一组方法的集合: // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的: // 矩形结构体…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序
一、开发准备 环境搭建: 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 项目创建: File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
C++ 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...
聊一聊接口测试的意义有哪些?
目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...
CMake控制VS2022项目文件分组
我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...
