当前位置: 首页 > article >正文

Pandas crosstab实战:用一份超市销售数据,搞定会员复购率与商品关联分析

Pandas crosstab实战用一份超市销售数据搞定会员复购率与商品关联分析超市运营团队经常面临两个关键问题如何提升会员忠诚度哪些商品组合能带来更高客单价本文将用一份模拟超市交易数据带你用Pandas的crosstab函数破解这些业务难题。我们会从原始交易记录出发逐步构建可落地的分析方案最终产出可直接用于商业决策的数据洞察。1. 数据准备与清洗假设我们获得了一份包含3个月交易记录的CSV文件字段包括import pandas as pd df pd.read_csv(supermarket_transactions.csv) print(df.head(3))输出示例member_id purchase_date product_category amount 0 10001 2023-01-05 dairy 58 1 10002 2023-01-05 beverage 23 2 10001 2023-01-08 snacks 42关键预处理步骤日期格式标准化df[purchase_date] pd.to_datetime(df[purchase_date]) df[purchase_week] df[purchase_date].dt.isocalendar().week异常值处理# 移除金额为负的记录 df df[df[amount] 0] # 检查缺失值 print(df.isnull().sum())会员分层按消费金额member_value df.groupby(member_id)[amount].sum().reset_index() df pd.merge(df, member_value, onmember_id, suffixes(, _total))2. 会员复购行为分析2.1 基础复购率计算计算各会员在不同周次的购买频率weekly_repurchase pd.crosstab( indexdf[member_id], columnsdf[purchase_week], valuesdf[amount], aggfunccount, marginsTrue )输出示例purchase_week 1 2 3 4 5 All member_id 10001 2 1 0 3 1 7 10002 1 2 1 0 0 4 All 3 3 1 3 1 112.2 进阶价值分析结合消费金额评估会员价值repurchase_matrix pd.crosstab( indexdf[member_id], columnsdf[purchase_week], valuesdf[amount], aggfuncsum, marginsTrue )关键洞察方法高频率低金额可能需要促销刺激低频率高金额重点维护对象稳定型客户核心用户群体3. 商品关联分析实战3.1 基础关联矩阵统计商品类别共同购买情况# 生成交易ID与商品类别的交叉表 item_matrix pd.crosstab( indexdf[purchase_date].astype(str) df[member_id].astype(str), columnsdf[product_category] ) # 计算关联度 from mlxtend.frequent_patterns import association_rules from mlxtend.frequent_patterns import apriori frequent_itemsets apriori(item_matrix, min_support0.05, use_colnamesTrue) rules association_rules(frequent_itemsets, metriclift, min_threshold1)3.2 可视化呈现import seaborn as sns import matplotlib.pyplot as plt # 热力图展示 plt.figure(figsize(10,8)) sns.heatmap(rules.pivot(indexantecedents, columnsconsequents, valueslift), annotTrue, cmapYlGnBu) plt.title(商品关联强度热力图) plt.show()典型业务应用场景高关联度商品捆绑销售或邻近陈列互斥商品避免同时促销潜在组合开发新品套餐4. 多维交叉分析技巧4.1 时间维度叠加分析不同时段的商品偏好变化time_category pd.crosstab( indexdf[purchase_week], columnsdf[product_category], valuesdf[amount], aggfuncsum, normalizeindex )4.2 会员分层交叉高价值会员的消费特征vip_analysis pd.crosstab( index[pd.qcut(df[amount_total], 3, labels[低, 中, 高])], columnsdf[product_category], valuesdf[amount], aggfuncmean )输出优化技巧# 添加百分比格式 def format_percent(x): return f{x*100:.1f}% styled_table (time_category .style .background_gradient(cmapBlues) .format(format_percent))5. 分析报告自动化输出5.1 关键指标计算模板def generate_kpi_report(df): report {} # 复购率 repeat_customers len(df[member_id].unique()) / df.shape[0] report[repeat_rate] repeat_customers # 商品组合收益 top_combos rules.nlargest(3, lift) report[top_combinations] top_combos[[antecedents,consequents,lift]] return pd.DataFrame.from_dict(report, orientindex)5.2 邮件自动发送集成import smtplib from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText def send_report(report_df): msg MIMEMultipart() msg[Subject] 每周超市销售分析报告 html report_df.to_html() msg.attach(MIMEText(html, html)) with smtplib.SMTP(smtp.example.com, 587) as server: server.login(user, password) server.sendmail(fromexample.com, toexample.com, msg.as_string())实际项目中我发现最有效的分析策略是先用简单交叉表快速验证业务假设再逐步添加维度进行深度挖掘。比如先看整体复购率再按会员等级拆分最后结合时间维度分析变化趋势。这种渐进式分析方法既能保证效率又能避免陷入数据沼泽。

相关文章:

Pandas crosstab实战:用一份超市销售数据,搞定会员复购率与商品关联分析

Pandas crosstab实战:用一份超市销售数据,搞定会员复购率与商品关联分析 超市运营团队经常面临两个关键问题:如何提升会员忠诚度?哪些商品组合能带来更高客单价?本文将用一份模拟超市交易数据,带你用Pandas…...

三步快速安装Fast-GitHub:彻底解决国内GitHub访问难题的终极指南

三步快速安装Fast-GitHub:彻底解决国内GitHub访问难题的终极指南 【免费下载链接】Fast-GitHub 国内Github下载很慢,用上了这个插件后,下载速度嗖嗖嗖的~! 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 你是否…...

别再只用min(A)了!Matlab里min函数的这5种高级用法,数据处理效率翻倍

别再只用min(A)了!Matlab里min函数的这5种高级用法,数据处理效率翻倍 在数据分析与科学计算领域,Matlab的min函数就像瑞士军刀中的主刀——看似简单却功能强大。但许多用户仅停留在min(A)的基础用法,错失了90%的效率提升机会。本文…...

【哈工大 哈理工主办】第六届电子、信息与计算技术前沿国际会议(ICFEICT 2026) 诚邀您共聚哈尔滨

ICFEICT 2026 定于2026 年 7 月 17 日 —19 日在中国哈尔滨召开,由哈尔滨工业大学、哈尔滨理工大学主办,哈尔滨工程大学、黑龙江大学等单位协办,旨在为国内外高校、科研院所及企事业单位搭建高水平学术交流平台,聚焦电子、信息与计…...

提升游戏体验:原神自动化脚本的智能辅助解决方案

提升游戏体验:原神自动化脚本的智能辅助解决方案 【免费下载链接】genshin-impact-script 原神脚本,包含自动钓鱼、自动拾取、自动跳过对话等多项实用功能。A Genshin Impact script includes many useful features such as automatic fishing, automati…...

跨越语言边界的文本智能:paraphrase-multilingual-MiniLM-L12-v2实战指南

跨越语言边界的文本智能:paraphrase-multilingual-MiniLM-L12-v2实战指南 【免费下载链接】paraphrase-multilingual-MiniLM-L12-v2 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/paraphrase-multilingual-MiniLM-L12-v2 你是否曾为处理多语言文…...

Spring AI Alibaba——支持Agent Skill

文章目录前言版本准备1、新建skills2、自定义tools3、启动类4、测试类总结前言 Spring AI Alibaba是阿里团队针对Spring AI框架在国内应用风格的一种包装、扩展与延伸。 对Agent Skills的支持,比Langchain4j更早,但对springboot 版本要求更高点。 之前…...

如何优雅地绕过网盘下载限制:一个完全在本地运行的解决方案

如何优雅地绕过网盘下载限制:一个完全在本地运行的解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 /…...

FreeMove:高效安全的Windows目录迁移完整指南

FreeMove:高效安全的Windows目录迁移完整指南 【免费下载链接】FreeMove Move directories without breaking shortcuts or installations 项目地址: https://gitcode.com/gh_mirrors/fr/FreeMove FreeMove是一款专为Windows用户设计的开源工具,通…...

从流水灯看FPGA时序:用Nexys A7的100MHz时钟实现精准0.5秒延时

从流水灯看FPGA时序:用Nexys A7的100MHz时钟实现精准0.5秒延时 在数字电路设计中,时序控制是一切逻辑实现的基础。当我们用FPGA开发板上的LED灯实现流水效果时,表面看似简单的闪烁背后,隐藏着精密的时钟分频与计数器设计原理。本…...

别只盯着CDGP考试!用DAMA车轮图,手把手搭建你的第一个数据治理看板

用DAMA车轮图构建数据治理健康度看板的实战指南 数据治理不再是纸上谈兵的理论框架,而是需要落地到日常运营中的实践体系。对于数据工程师、分析师和IT从业者来说,如何将DAMA知识体系转化为可操作的监控工具,是提升团队协作效率和决策质量的关…...

告别Postman!用Apifox测试套件搞定团队接口自动化(附CI/CD集成实战)

从Postman迁移到Apifox:打造高效团队接口自动化测试体系 在DevOps和持续交付成为主流的今天,接口自动化测试已成为研发流程中不可或缺的一环。传统方案如PostmanNewman虽然广为人知,但在团队协作、版本管理和CI/CD集成方面存在明显短板。Apif…...

别再被Nacos 2.2.3权限验证卡住!手把手教你补全secret.key配置,解决basicAuthenticationFilter报错

Nacos 2.2.3权限验证全流程避坑指南:从配置补全到稳定运行 当你第一次在Nacos 2.2.3中启用权限验证功能时,是否也被那一连串晦涩的报错信息搞得焦头烂额?特别是那个关于basicAuthenticationFilter的bean创建失败错误,看似复杂的问…...

告别云端:在树莓派4B上搭建你的私有AI聊天机器人(基于llama.cpp)

在树莓派4B上构建私有AI聊天机器人的完整实践指南 从零开始的边缘智能革命 当ChatGPT掀起全球AI浪潮时,大多数用户只能通过云端服务体验大语言模型的魅力。但有一群技术极客正在探索另一种可能——如何将这些强大的AI能力装进口袋大小的设备里。树莓派4B作为最受欢迎…...

D3KeyHelper终极指南:5分钟掌握暗黑3鼠标宏工具,游戏效率翻倍提升

D3KeyHelper终极指南:5分钟掌握暗黑3鼠标宏工具,游戏效率翻倍提升 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelpe…...

DS4Windows完整指南:3步让PlayStation手柄在Windows电脑上完美运行

DS4Windows完整指南:3步让PlayStation手柄在Windows电脑上完美运行 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 想要在Windows电脑上使用PlayStation手柄畅玩所有游戏吗&am…...

软件工程中设计模式的最佳实践与应用场景深度分析

软件工程中设计模式的最佳实践与应用场景深度分析 在软件开发过程中,设计模式是解决常见问题的经典方案,它们不仅能提高代码的可维护性和复用性,还能帮助开发团队更高效地协作。随着软件系统复杂度的提升,合理运用设计模式成为工…...

4步掌握量化交易核心技能:从零到策略实盘的终极指南

4步掌握量化交易核心技能:从零到策略实盘的终极指南 【免费下载链接】Tutorials Jupyter notebook tutorials from QuantConnect website for Python, Finance and LEAN. 项目地址: https://gitcode.com/gh_mirrors/tutorials2/Tutorials 你是否曾经看着金融…...

HSTracker:macOS炉石传说终极套牌追踪与管理完全指南

HSTracker:macOS炉石传说终极套牌追踪与管理完全指南 【免费下载链接】HSTracker A deck tracker and deck manager for Hearthstone on macOS 项目地址: https://gitcode.com/gh_mirrors/hs/HSTracker 你是否曾在炉石传说对战中忘记对手还剩什么牌&#xff…...

Python高级应用系列(十三)Python C扩展与性能加速:Cython、ctypes、cffi

前言 Python以开发效率和可读性著称,但「性能」始终是其软肋。在CPU密集型场景下,纯Python代码的执行速度可能比C/C++慢数十甚至上百倍。 然而Python生态提供了多种性能加速方案,从调用C库到将Python代码编译为C,层次丰富、适用场景各异: 方案 定位 适用场景 ctypes 调用…...

nli-MiniLM2-L6-H768应用场景:智能合约条款与自然语言解释的矛盾性检测

nli-MiniLM2-L6-H768应用场景:智能合约条款与自然语言解释的矛盾性检测 1. 模型核心能力解析 nli-MiniLM2-L6-H768是一个专为文本关系判断设计的轻量级自然语言推理(NLI)模型。与生成式模型不同,它的核心价值在于精准判断两段文本之间的逻辑关系&#…...

疾病防治电脑版v考虑放大缴纳开工

此件客户都是啊u覅业务i啊...

医疗AI项目实战:手把手教你用pydicom库为PNG图像注入DICOM‘灵魂’(含完整元数据配置)

医疗AI数据工程实战:用Python构建符合临床标准的DICOM元数据体系 在医疗AI项目的开发流程中,数据工程环节往往决定着模型的成败。当我们使用公开的PNG/JPG医学图像数据集时,如何将其转化为具有完整临床元数据的DICOM文件,是每个医…...

手把手搭建你的第一个AI Agent(零基础实战教程)

看完上一篇,你可能觉得AI Agent很酷,但"这玩意儿是不是只有程序员才能玩?"答案是:不。今天我就带你从零开始,30分钟搭建一个真正能帮你干活的Agent。 一、先定个小目标:我们要做什么? 实战项目:做一个"周报助手Agent" 它能做什么? 你输入这周做…...

沐曦股份Day0适配阿里千问Qwen3.6-35B-A3B,与FlagOS合作实现模型多芯部署

阿里巴巴千问模型团队最新宣布,开源旗下多模态“智能体小钢炮” Qwen3.6-35B-A3B模型。沐曦股份与FlagOS合作,完成了该模型的Day0 适配。经测试,基于沐曦芯片,实现了“零代码修改”完成 Qwen3.6-35B-A3B 的推理部署及充分验证。这…...

StreamCap:免费开源的多平台直播录制终极指南

StreamCap:免费开源的多平台直播录制终极指南 【免费下载链接】StreamCap Multi-Platform Live Stream Automatic Recording Tool | 多平台直播流自动录制客户端 基于FFmpeg 支持监控/定时/转码 项目地址: https://gitcode.com/gh_mirrors/st/StreamCap 在…...

别再瞎调了!Fluent DPM模型这3个参数设置不对,仿真结果差十倍

Fluent DPM模型参数优化实战:避开颗粒追踪的三大陷阱 在计算流体动力学(CFD)仿真中,离散相模型(DPM)的准确设置往往是决定仿真成败的关键。许多工程师在使用Fluent进行喷雾、粉尘或颗粒两相流分析时,常常陷入"参数调参师"的困境——…...

网页视频下载难题终结者:3分钟学会用VideoDownloadHelper轻松保存在线视频

网页视频下载难题终结者:3分钟学会用VideoDownloadHelper轻松保存在线视频 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 你是否…...

共享汽车功率管理器件选型实战:空间、效率与可靠性的平衡之道

在共享汽车朝着电动化、智能化与高利用率不断演进的今天,其内部的电子控制系统已不再是简单的功能单元,而是直接决定了车辆可用性、用户体验与运营成本的核心。一套设计精良的功率管理方案,是共享汽车实现稳定供电、智能控制与长久耐用寿命的…...

5G下行数据通道全解析:从DL-SCH到PDSCH的映射与DMRS配置

1. 5G下行数据传输的核心流程 当你用手机刷视频时,数据是怎么从基站传到手机里的?这背后是5G下行数据传输的一整套精密机制。简单来说,基站先把数据打包成DL-SCH(下行共享信道),然后通过PDSCH(物…...