当前位置: 首页 > article >正文

从家庭账本到预测模型:一个Python案例讲透线性回归怎么用(附OLS源码)

从家庭账本到预测模型一个Python案例讲透线性回归怎么用附OLS源码翻开记账本你是否好奇每月消费和收入之间究竟存在怎样的数学关系当收入增加1000元时消费会同步增长多少这些问题背后隐藏着一个经典的数据分析工具——线性回归。本文将以家庭财务数据为场景带你用Python从零构建消费预测模型不仅理解OLS普通最小二乘法的原理更学会如何让数学模型为现实决策服务。1. 数据准备从Excel到分析矩阵任何数据分析项目的第一步都是获取高质量数据。假设你已坚持记账半年每月记录可支配收入和消费支出数据如下月份收入元食品支出交通支出娱乐支出总消费1月8,0002,2008001,0006,3802月11,0003,1009501,5009,350..................关键数据处理步骤import pandas as pd import numpy as np # 从Excel加载数据 df pd.read_excel(家庭账本.xlsx, sheet_name月度汇总) # 数据清洗处理缺失值和异常值 df df.dropna() # 删除包含缺失值的记录 df df[(df[收入] 0) (df[总消费] 0)] # 过滤无效数据 # 提取分析变量 X df[收入].values # 自变量月收入 y df[总消费].values # 因变量月消费注意实际数据中常存在收入为0但消费为正的特殊月份如失业期动用存款这类数据点需要单独分析不宜直接纳入回归模型。2. OLS原理最小二乘法的几何解释普通最小二乘法的核心思想是找到一条直线使所有数据点到该直线的垂直距离残差平方和最小。用数学公式表示$$ \min_{\beta_0, \beta_1} \sum_{i1}^n (y_i - \hat{y_i})^2 \min_{\beta_0, \beta_1} \sum_{i1}^n [y_i - (\beta_0 \beta_1 x_i)]^2 $$通过求导可得闭式解$$ \beta_1 \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \beta_0 \bar{y} - \beta_1 \bar{x} $$手动实现OLS算法def manual_ols(X, y): x_mean, y_mean np.mean(X), np.mean(y) cov_xy np.sum((X - x_mean) * (y - y_mean)) var_x np.sum((X - x_mean)**2) beta_1 cov_xy / var_x beta_0 y_mean - beta_1 * x_mean return beta_0, beta_1 beta_0, beta_1 manual_ols(X, y) print(f截距项: {beta_0:.2f}, 斜率: {beta_1:.2f})执行后输出截距项: 142.00, 斜率: 0.67这个结果意味着消费函数可表示为 $$ \text{消费} 142 0.67 \times \text{收入} $$3. 模型解读系数背后的现实意义斜率0.67具有重要的经济学解释——边际消费倾向MPC表示每增加1元收入消费平均增加0.67元。这个数字揭示了家庭的消费习惯储蓄率估算1 - 0.67 0.33即约33%的新增收入转为储蓄基本生存支出截距142元可理解为即使零收入时仍需的基本支出如水电费消费结构对比表收入区间元食品支出占比娱乐支出占比储蓄率8,000-12,00042%18%25%12,000-20,00035%22%30%20,00028%25%35%提示当斜率接近1时表明消费与收入几乎等比例增长储蓄行为不明显而斜率小于0.5则显示较强的储蓄倾向。4. 模型诊断这些限制你必须知道虽然OLS模型给出了明确的数学关系但盲目应用可能导致严重误判。以下是三个关键限制线性假设陷阱实际消费函数可能在收入临界点如房贷还款额突变处呈现非线性检查方法绘制残差图观察模式import matplotlib.pyplot as plt # 计算预测值和残差 y_pred beta_0 beta_1 * X residuals y - y_pred # 残差诊断图 plt.figure(figsize(12,4)) plt.subplot(121) plt.scatter(X, residuals) plt.axhline(0, colorred) plt.title(残差vs收入) plt.subplot(122) plt.scatter(y_pred, residuals) plt.axhline(0, colorred) plt.title(残差vs预测值)外推风险模型在训练数据范围800-3500元内有效预测月收入5万元时的消费结果可能严重失真遗漏变量偏差未考虑家庭人数变化、突发医疗支出等关键因素改进方案构建多元线性回归模型5. 实战进阶用模型指导财务决策基于现有模型我们可以开发实用的财务规划工具未来12个月消费预测器def consumption_forecast(current_income, income_growth_rate, months): forecast [] for m in range(1, months1): projected_income current_income * (1 income_growth_rate)**m projected_spending beta_0 beta_1 * projected_income forecast.append((m, projected_income, projected_spending)) return pd.DataFrame(forecast, columns[月份, 预测收入, 预测消费]) # 假设当前月收入1.5万元预计月增长2% df_forecast consumption_forecast(15000, 0.02, 12) print(df_forecast.tail(3))输出示例月份 预测收入 预测消费 9 10 18284.34 12372.51 10 11 18649.98 12637.49 11 12 19022.98 12917.40财务健康度评估指标def financial_health_assessment(income, spending): savings_rate (income - spending) / income mpc beta_1 # 边际消费倾向 if savings_rate 0.1: status 风险储蓄不足 elif abs((spending - (beta_0 beta_1 * income))/income) 0.2: status 异常消费偏离常态 else: status 健康 return status # 当月检测 current_status financial_health_assessment(18000, 12500) print(f财务状态: {current_status})6. 模型优化从一元到多元的进化更精准的预测需要引入更多解释变量。使用statsmodels库构建多元线性模型import statsmodels.api as sm # 添加家庭人数作为新特征 df[家庭成员] [2, 2, 3, 3, 3, 4, 4, 4, 4, 4] # 示例数据 # 构建多元回归 X_multi df[[收入, 家庭成员]] X_multi sm.add_constant(X_multi) # 添加截距项 model sm.OLS(df[总消费], X_multi) results model.fit() print(results.summary())关键输出解读家庭成员的系数为387.5表示每增加1名成员月消费增加约388元调整R-squared从0.98提升到0.99模型解释力增强变量重要性排序月收入系数0.61p值0.001家庭成员数系数387.5p值0.03截距项统计不显著可考虑去除)7. 可视化呈现让数据自己说话专业的可视化能增强分析结果的说服力plt.figure(figsize(14,6)) # 三维散点图收入、家庭成员、消费 ax plt.subplot(121, projection3d) ax.scatter(df[收入], df[家庭成员], df[总消费], cr, markero) ax.set_xlabel(月收入) ax.set_ylabel(家庭成员) ax.set_zlabel(月消费) # 预测区间图 plt.subplot(122) plt.scatter(df[收入], df[总消费], alpha0.7) plt.plot(X, y_pred, colorblue, linewidth2) plt.fill_between(X, y_pred-300, y_pred300, colorblue, alpha0.1) plt.title(消费预测区间±300元) plt.xlabel(月收入) plt.ylabel(实际消费)最后需要提醒的是任何模型都是现实的简化。在我的财务咨询案例中曾遇到模型预测消费1.2万元实际支出却突破2万元的客户——后来发现是因为突然增加的育儿开支。这正印证了统计学家George Box的名言所有模型都是错的但有些是有用的。关键在于理解模型的适用边界将其作为决策的辅助工具而非绝对真理。

相关文章:

从家庭账本到预测模型:一个Python案例讲透线性回归怎么用(附OLS源码)

从家庭账本到预测模型:一个Python案例讲透线性回归怎么用(附OLS源码) 翻开记账本,你是否好奇每月消费和收入之间究竟存在怎样的数学关系?当收入增加1000元时,消费会同步增长多少?这些问题背后隐…...

别再手推机器人动力学方程了!用Python的Sympybotics库5分钟自动生成C代码

用Sympybotics实现机器人动力学方程自动生成:从符号推导到嵌入式C代码的完整实践 在机器人控制算法开发中,动力学方程的推导一直是工程师们的噩梦。传统手工推导不仅耗时费力,还容易出错。想象一下,当你花费数周时间推导六自由度机…...

Autoware避障从入门到放弃?手把手教你修复关键订阅话题与源码(ROS Melodic/Kinetic)

Autoware避障模块深度解析:从源码修复到实战调优 在自动驾驶系统的开发过程中,避障功能无疑是核心安全模块之一。Autoware作为开源自动驾驶框架的标杆,其避障实现却常常让开发者陷入调试困境——明明按照文档配置了所有节点,车辆却…...

(115页PPT)五大质量工具之FMEA(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 https://download.csdn.net/download/2501_92808811/92779092 资料解读:《五大质量工具之FMEA》 详细资料请看本解读文章的最后内容。 失效模式与影响分析(FMEA&#xf…...

从兔子生崽到斐波那契:用C语言和Python两种思路搞定经典算法题

从兔子生崽到斐波那契:用C语言和Python两种思路搞定经典算法题 斐波那契数列这个看似简单的数学概念,却能在编程面试、算法竞赛甚至自然界中频繁出现。今天我们不只讲一种解法,而是带你用C语言和Python两种截然不同的思维方式来攻克它。你会发…...

告别PESQ!2024年语音质量评估,我们该用什么工具?(附Python代码对比)

2024年语音质量评估工具全景指南:从PESQ到现代解决方案 在音频处理领域,语音质量评估一直是算法开发、产品优化和学术研究的关键环节。过去二十年里,PESQ(Perceptual Evaluation of Speech Quality)作为行业标准被广泛…...

BiliDownloader:免费高效的B站视频下载终极解决方案

BiliDownloader:免费高效的B站视频下载终极解决方案 【免费下载链接】BiliDownloader BiliDownloader是一款界面精简,操作简单且高速下载的b站下载器 项目地址: https://gitcode.com/gh_mirrors/bi/BiliDownloader 在当今内容爆炸的时代&#xff…...

深度解析:抖音批量下载器如何实现高效无水印视频采集

深度解析:抖音批量下载器如何实现高效无水印视频采集 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…...

从协议差异到验证策略:深入拆解AHB2APB Bridge的10个关键测试点与覆盖率收集

从协议差异到验证策略:深入拆解AHB2APB Bridge的10个关键测试点与覆盖率收集 在芯片验证领域,AHB2APB Bridge作为AMBA总线架构中的关键组件,其验证质量直接影响系统互联的可靠性。许多初级工程师常陷入"协议理解表面化"的误区——认…...

3种高效方案:在Windows上无缝运行安卓应用的终极指南

3种高效方案:在Windows上无缝运行安卓应用的终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想象一下这样的场景:你在Windows电脑前处理…...

除了FFmpeg,这4款小众但好用的M3U8下载工具你可能真不知道(含Python脚本示例)

超越FFmpeg:4款高效M3U8下载工具深度评测与实战指南 在视频处理领域,M3U8格式因其分片传输特性成为流媒体主流方案。虽然FFmpeg凭借其全能性成为首选工具,但在特定场景下,专业工具往往能提供更精细的控制和更优的体验。本文将深入…...

终极指南:如何用grepWin正则表达式工具快速搜索替换Windows文件内容

终极指南:如何用grepWin正则表达式工具快速搜索替换Windows文件内容 【免费下载链接】grepWin A powerful and fast search tool using regular expressions 项目地址: https://gitcode.com/gh_mirrors/gr/grepWin 还在为海量文件中查找特定文本而烦恼吗&…...

免费德州扑克GTO求解器:Desktop Postflop完整使用指南

免费德州扑克GTO求解器:Desktop Postflop完整使用指南 【免费下载链接】desktop-postflop [Development suspended] Advanced open-source Texas Holdem GTO solver with optimized performance 项目地址: https://gitcode.com/gh_mirrors/de/desktop-postflop …...

别再踩坑了!Spring Boot项目里Jackson处理LocalDateTime的正确姿势(附完整配置代码)

Spring Boot项目中Jackson处理LocalDateTime的终极指南 如果你正在使用Spring Boot开发Java应用,并且遇到了LocalDateTime序列化的问题,那么这篇文章就是为你准备的。作为现代Java开发中最常用的日期时间API之一,LocalDateTime在JSON序列化时…...

从‘geometry_msgs/Pose’看ROS消息设计:手把手教你读懂和自定义.msg文件

从geometry_msgs/Pose剖析ROS消息设计:从理解到自定义的实战指南 在机器人操作系统(ROS)的生态中,消息传递是模块间通信的基石。而geometry_msgs/Pose作为描述物体位姿的经典消息类型,其设计思路堪称ROS消息系统的典范…...

ArcGIS 10.2 安装避坑全记录:从.NET报错到License Manager配置(Win10/11实测)

ArcGIS 10.2 安装避坑全记录:从.NET报错到License Manager配置(Win10/11实测) 当你在Windows 10或11系统上首次安装ArcGIS 10.2时,可能会遇到一系列令人头疼的问题。从.NET Framework缺失到License Manager连接失败,每…...

Blender 4.0 新手避坑指南:从安装到第一个立方体,辣椒酱教程没讲的10个细节

Blender 4.0 新手避坑指南:从安装到第一个立方体 第一次打开Blender时,那个充满按钮、菜单和英文术语的界面确实容易让人望而生畏。作为一个从零开始学习Blender的过来人,我完全理解这种困惑——明明只是想建个简单的立方体,却被各…...

redis-cli MODULE LIST的庖丁解牛

它的本质是:向正在运行的 Redis 服务端发送一个管理命令,查询其当前动态加载的所有模块(Modules)的元数据列表。这不仅是一个简单的“清单”,更是验证环境配置、排查功能缺失(如布隆过滤器)、以…...

Docker 27监控配置不生效?揭秘被官方文档隐瞒的27个资源配置优先级陷阱(含systemd-unit深度适配方案)

第一章:Docker 27资源监控配置失效现象与根本归因自 Docker v27.0.0 发布以来,大量用户反馈通过 --memory、--cpus 或 cgroupv2 配置的容器资源限制在运行时未生效,docker stats 显示 CPU 使用率持续超限、内存使用突破设定上限,且…...

解锁OBS视频流新境界:Spout2插件完全指南 [特殊字符]

解锁OBS视频流新境界:Spout2插件完全指南 🚀 【免费下载链接】obs-spout2-plugin A Plugin for OBS Studio to enable Spout2 (https://github.com/leadedge/Spout2) input / output 项目地址: https://gitcode.com/gh_mirrors/ob/obs-spout2-plugin …...

NVIDIA Container Toolkit失效、nvidia-smi不可见、AI模型加载卡死——Docker AI调试三重门全拆解

第一章:NVIDIA Container Toolkit失效、nvidia-smi不可见、AI模型加载卡死——Docker AI调试三重门全拆解当容器内执行 nvidia-smi 返回 command not found 或空白输出,PyTorch/TensorFlow 加载模型时卡在 torch.cuda.is_available() 或显存分配阶段&…...

3步解锁B站专业直播:开源工具的终极自由方案

3步解锁B站专业直播:开源工具的终极自由方案 【免费下载链接】bilibili_live_stream_code 用于在准备直播时获取第三方推流码,以便可以绕开哔哩哔哩直播姬,直接在如OBS等软件中进行直播,软件同时提供定义直播分区和标题功能 项目…...

告别HTTP请求焦虑:用CSS Sprites(精灵图)优化你的Vue/React项目图片加载

告别HTTP请求焦虑:用CSS Sprites(精灵图)优化你的Vue/React项目图片加载 在当今快节奏的Web开发领域,性能优化始终是开发者关注的焦点。当我们构建复杂的单页应用(SPA)时,图片资源的管理往往成为…...

告别在线API:在嵌入式Linux上用Ekho TTS实现离线语音播报(避坑实录)

嵌入式Linux离线语音方案:Ekho TTS深度集成指南 在智能硬件开发领域,语音交互已成为提升用户体验的关键要素。然而,当项目部署在无网络环境的嵌入式设备时,传统在线TTS服务立刻暴露出致命缺陷——网络依赖性。我曾在一个工业级智能…...

如何用WPPM轻松管理你的Python环境?Windows开发者的终极工具指南

如何用WPPM轻松管理你的Python环境?Windows开发者的终极工具指南 【免费下载链接】winpython A free Python-distribution for Windows platform, including prebuilt packages for Scientific Python. 项目地址: https://gitcode.com/gh_mirrors/wi/winpython …...

我整理了 14 种 GPT-Image-2 的神仙玩法,大家看看效果怎么样!

最近很多人被灰度到了GPT-Image-2。从上周开始,X 和 LINUX DO 上一大批人在晒图,说自己被 GPT-Image-2 灰度到了。抖音直播间截图、手写笔记、中文试卷、城市海报…… 张张都像真的,不像 AI 画的。先说结论:这一代最强它开始理解场…...

Navicat试用期重置终极指南:3种方法彻底解决14天限制

Navicat试用期重置终极指南:3种方法彻底解决14天限制 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 还在为Navic…...

Android 11 应用内更新踩坑记:从DownloadManager到FileProvider的完整避坑指南

Android 11应用内更新全流程实战:权限、存储与安装的现代化解决方案 在移动应用持续迭代的今天,应用内更新功能已成为提升用户体验的关键组件。然而,随着Android 11(API 30)引入的Scoped Storage等隐私保护机制&#x…...

Docker沙箱配置实战手册(生产环境零事故配置模板)

第一章:Docker沙箱配置的核心价值与生产级定位Docker沙箱并非仅用于开发环境的临时隔离机制,而是现代云原生基础设施中保障服务可预测性、安全边界与部署一致性的关键执行层。在生产环境中,一个经过严谨配置的Docker沙箱,实质上构…...

RoboMaster客户端UI绘制避坑指南:从串口协议到服务器调试,手把手教你显示第一条线

RoboMaster客户端UI绘制实战:从协议解析到动态调试的全链路指南 去年备赛期间,我们战队连续三天卡在UI显示问题上——明明协议封装正确,裁判系统指示灯正常,客户端却始终一片空白。直到凌晨三点才发现,原来是服务器端口…...