当前位置: 首页 > article >正文

梯度下降的使用-房价预测

一个小小的建议可以安装JupyterLab来调试练习真的很方便。 房价预测示例 - 使用梯度下降求解线性回归 使用真实数据集加州房价数据集 (California Housing Dataset) 来源1990年加州人口普查数据 特征说明 - MedInc: 区域内家庭收入中位数 - HouseAge: 房屋年龄中位数 - AveRooms: 平均房间数 - AveBedrms: 平均卧室数 - Population: 区域人口 - AveOccup: 平均居住人数 - Latitude: 纬度 - Longitude: 经度 - Target: 房屋价格中位数 (单位10万美元) importnumpyasnpfromsklearn.datasetsimportfetch_california_housingtry:importmatplotlib.pyplotasplt HAS_MATPLOTLIBTrueexceptImportError:HAS_MATPLOTLIBFalse# 配置中文字体支持plt.rcParams[font.sans-serif][Arial Unicode MS,SimHei,STHeiti,Heiti TC]plt.rcParams[axes.unicode_minus]False# 解决负号显示问题# # 1. 加载真实房价数据集# defload_house_price_data(): 加载加州房价数据集 (真实数据) 来源sklearn.datasets基于1990年加州人口普查 真实场景中数据通常从 CSV 文件或数据库加载 df pd.read_csv(house_prices.csv) X df[[MedInc, HouseAge, ...]].values y df[Target].values print(正在加载加州房价数据集...)housingfetch_california_housing()Xhousing.data# 特征矩阵yhousing.target# 目标值房价单位10万美元# 为了演示清晰只取前1000条数据并选择3个主要特征# 真实场景可以用全部数据X_subsetX[:1000,:3]# 只取收入、房龄、房间数y_subsety[:1000]# 将房价单位转换为万美元乘以10y_subsety_subset*10feature_names[收入中位数(万$),房龄中位数(年),平均房间数]print(f原始数据集:{housing.data.shape[0]}条记录)print(f使用数据:{len(y_subset)}条记录 (示例演示))returnX_subset,y_subset,feature_names# # 2. 数据预处理# defpreprocess_data(X): 特征预处理标准化 使各特征在相近范围内加速梯度下降收敛 # 计算均值和标准差munp.mean(X,axis0)sigmanp.std(X,axis0)# 标准化X_scaled(X-mu)/sigma# 添加偏置列 (x0 1)mX.shape[0]X_finalnp.column_stack([np.ones(m),X_scaled])returnX_final,mu,sigma# # 3. 梯度下降实现# defgradient_descent(X,y,alpha0.01,iterations1000,verboseTrue): 批量梯度下降 参数 X: 特征矩阵 (m, n1)包含偏置列 y: 目标值向量 (m,) alpha: 学习率 iterations: 最大迭代次数 verbose: 是否打印训练过程 返回 theta: 估计的参数向量 loss_history: 损失历史记录 m,nX.shape thetanp.zeros(n)# 参数初始化为零loss_history[]foriinrange(iterations):# 计算预测值hX.dot(theta)# 计算误差errorh-y# 计算损失 (MSE)loss(1/(2*m))*np.sum(error**2)loss_history.append(loss)# 计算梯度并更新参数gradient(1/m)*X.T.dot(error)thetatheta-alpha*gradient# 打印训练进度ifverboseand(i%1000oriiterations-1):print(f迭代{i:4d}: 损失 {loss:.4f})returntheta,loss_history# # 4. 模型预测# defpredict_price(med_inc,house_age,ave_rooms,theta,mu,sigma): 使用训练好的模型预测房价 参数 med_inc: 区域收入中位数 (万美元) house_age: 房屋年龄中位数 (年) ave_rooms: 平均房间数 theta: 训练得到的参数 mu: 特征均值 (用于标准化) sigma: 特征标准差 返回 预测房价 (万美元) # 构建特征向量featuresnp.array([med_inc,house_age,ave_rooms])# 标准化使用训练数据的均值和标准差features_scaled(features-mu)/sigma# 添加偏置项features_finalnp.array([1,features_scaled[0],features_scaled[1],features_scaled[2]])# 预测predicted_pricenp.dot(features_final,theta)returnpredicted_price# # 5. 训练过程可视化# defplot_loss_history(loss_history): 绘制损失下降曲线 ifnotHAS_MATPLOTLIB:print(\n提示: 安装 matplotlib 后可生成损失曲线图)print( pip install matplotlib)returnplt.figure(figsize(10,6))plt.plot(loss_history,b-,linewidth2)plt.xlabel(迭代次数,fontsize12)plt.ylabel(损失 (MSE),fontsize12)plt.title(梯度下降收敛过程,fontsize14)plt.grid(True,alpha0.3)# 标记收敛点final_lossloss_history[-1]plt.axhline(yfinal_loss,colorr,linestyle--,alpha0.5)plt.text(len(loss_history)*0.7,final_loss,f最终损失:{final_loss:.2f},fontsize10)plt.tight_layout()plt.show()plt.savefig(/Users/agilewing/house_price_loss.png,dpi150)plt.close()print(\n损失曲线已保存到: /Users/agilewing/house_price_loss.png)# # 6. 主程序# defmain():print(*50)print(房价预测模型训练)print(*50)# Step 1: 加载数据print(\n[Step 1] 加载房价数据...)X_raw,y,feature_namesload_house_price_data()print(f数据规模:{X_raw.shape[0]}条记录,{X_raw.shape[1]}个特征)print(f特征:{feature_names})print(f房价范围:{y.min():.1f}-{y.max():.1f}万美元)# Step 2: 数据预处理print(\n[Step 2] 数据预处理 (标准化)...)X,mu,sigmapreprocess_data(X_raw)print(f特征均值:{mu})print(f特征标准差:{sigma})# Step 3: 设置超参数print(\n[Step 3] 设置超参数...)alpha0.1# 学习率iterations500# 迭代次数print(f学习率:{alpha})print(f迭代次数:{iterations})# Step 4: 训练模型print(\n[Step 4] 开始训练 (梯度下降)...)theta,loss_historygradient_descent(X,y,alpha,iterations)# Step 5: 显示训练结果print(\n[Step 5] 训练完成!)print(-*40)print(估计的参数:)print(f θ₀ (基准价):{theta[0]:.2f}万美元)print(f θ₁ (收入系数):{theta[1]:.2f})print(f θ₂ (房龄系数):{theta[2]:.2f})print(f θ₃ (房间数系数):{theta[3]:.2f})print(-*40)# 注由于数据已标准化系数反映的是标准化特征的影响# 要得到原始特征的系数需要转换# Step 6: 模型评估print(\n[Step 6] 模型评估...)predictionsX.dot(theta)msenp.mean((predictions-y)**2)rmsenp.sqrt(mse)r21-np.sum((y-predictions)**2)/np.sum((y-np.mean(y))**2)print(f均方误差 (MSE):{mse:.2f})print(f均方根误差 (RMSE):{rmse:.2f}万美元)print(fR² 分数:{r2:.4f})# Step 7: 预测示例print(\n[Step 7] 使用模型预测房价...)print(-*40)# 预测几个区域使用真实合理的特征值# 加州房价数据集的特征收入中位数、房龄中位数、平均房间数test_cases[(8.0,30,6),# 高收入区老房子大房间(4.0,10,4),# 中收入区新房中等房间(2.0,40,3),# 低收入区很老房子小房间(6.0,20,5),# 中高收入区中等房龄]formed_inc,house_age,ave_roomsintest_cases:pricepredict_price(med_inc,house_age,ave_rooms,theta,mu,sigma)print(f 收入{med_inc:.1f}万$, 房龄{house_age}年,{ave_rooms}房间 → 预测房价:{price:.1f}万美元)print(-*40)# Step 8: 可视化print(\n[Step 8] 生成可视化图表...)plot_loss_history(loss_history)print(\n*50)print(训练完成模型可用于预测新房屋价格。)print(*50)returntheta,mu,sigma# # 7. 交互式预测函数# definteractive_predict(theta,mu,sigma): 交互式预测房价 用户输入区域信息模型返回预测价格 print(\n*50)print(房价预测系统 (加州房价))print(*50)whileTrue:try:print(\n请输入区域信息输入 q 退出:)med_incinput( 区域收入中位数 (万美元): )ifmed_inc.lower()q:breakmed_incfloat(med_inc)house_agefloat(input( 房屋年龄中位数 (年): ))ave_roomsfloat(input( 平均房间数: ))pricepredict_price(med_inc,house_age,ave_rooms,theta,mu,sigma)print(f\n 预测房价中位数:{price:.1f}万美元)exceptValueError:print( 输入格式错误请重新输入)exceptKeyboardInterrupt:breakprint(\n感谢使用)# # 运行主程序# if__name____main__:# 训练模型theta,mu,sigmamain()# 可选交互式预测# interactive_predict(theta, mu, sigma)

相关文章:

梯度下降的使用-房价预测

一个小小的建议:可以安装JupyterLab来调试练习,真的很方便。 """ 房价预测示例 - 使用梯度下降求解线性回归使用真实数据集:加州房价数据集 (California Housing Dataset) 来源:1990年加州人口普查数据特征说明&am…...

基于Nanobot的智能写作助手:自媒体内容生成系统

基于Nanobot的智能写作助手:自媒体内容生成系统 1. 引言 每天清晨,自媒体创作者小王都要面对同样的挑战:找热点、写大纲、创作内容、排版发布。这个过程往往需要3-4个小时,而且质量参差不齐。直到他发现了一个解决方案——基于N…...

OFA图像描述模型LaTeX科研文档辅助:自动为图表生成Caption

OFA图像描述模型LaTeX科研文档辅助:自动为图表生成Caption 写论文最烦人的步骤是什么?对我而言,除了反复修改格式,就是给那一大堆图表写Caption(图注和表注)。每张图、每个表,都得绞尽脑汁想一…...

OpenAI Symphony:生产级AI应用开发框架的设计理念与工程实践

1. 项目概述与核心价值最近在AI应用开发圈里,一个名为“Symphony”的项目引起了我的注意。它来自OpenAI,这个标签本身就意味着重量级。但和很多人想象的不同,Symphony并非一个全新的、独立的AI模型,而是一个面向生产环境的AI应用开…...

专业领域嵌入模型微调与高效数据清洗实践

1. 项目概述:定制化嵌入模型提升专业领域检索效果 在构建专业领域的信息检索系统时,通用嵌入模型的表现往往不尽如人意。以法律文书、医疗记录或多轮客户对话这类专业数据为例,标准模型难以捕捉其中的专业术语、上下文关联和领域特定语义。Co…...

VS Code 远程容器环境卡顿、构建失败、端口映射失效(2024最新避坑图谱)

更多请点击: https://intelliparadigm.com 第一章:VS Code 远程容器开发环境卡顿、构建失败、端口映射失效的典型现象与根因定位 常见现象速查表 现象典型表现高频触发场景卡顿文件保存延迟 >2s,终端响应迟滞,自动补全失效挂…...

Open3D 点云播放:连续帧可视化完整实现

文章目录 Open3D 点云播放:连续帧可视化完整实现 一、问题 二、基础结构 2.1 安装 2.2 核心 API 三、实现 3.1 数据准备 3.2 回调方式播放 3.3 播放控制(暂停/恢复) 四、真实 PCD 文件序列 五、延迟加载 + 多线程 六、可视化窗口配置 七、性能优化 复用几何体 八、键盘快捷键…...

TransformerUNet 医学图像分割:牙齿 X 光 + PyTorch 全链路

文章目录 TransformerUNet 医学图像分割:牙齿 X 光 + PyTorch 全链路 一、架构 二、环境 三、数据 3.1 结构 3.2 Dataset 四、模型 4.1 DoubleConv 4.2 TransformerEncoderBlock 4.3 TransformerUNet 五、训练 六、结果 七、对比 八、推理 九、调试 十、总结 代码链接与详细流…...

Java调用AI做智能数据清洗:实战文本纠错与格式化

一、前言 电商、CRM、企业内部系统里,数据质量问题永远是最头疼的问题之一。重复数据、格式混乱、信息缺失……传统规则引擎清洗规则越写越复杂,维护成本极高。 这一期我们换换口味,聊点接地气的:用AI帮Java做数据清洗。 二、痛点:传统规则清洗的困境 看几个典型例子:…...

LangChain4j实战:用Java打造本地知识库问答机器人

一、前言 最近AI应用最火的场景之一就是RAG(检索增强生成)——让AI基于你提供的文档来回答问题,而不是让它"胡编"。比如做一个公司内部知识库问答、产品手册问答等。 Java生态中做这个最成熟的库是LangChain4j。本文手把手教你用Java实现一个本地知识库问答机器…...

GLM-4.1V-9B-Base入门必备:JDK1.8环境下Java客户端调用指南

GLM-4.1V-9B-Base入门必备:JDK1.8环境下Java客户端调用指南 1. 为什么需要这份指南 很多企业还在使用JDK1.8运行关键业务系统,而GLM-4.1V-9B-Base作为新一代大模型,其官方SDK往往要求更高版本的Java环境。这就产生了一个现实问题&#xff1…...

复杂工业管网故障阀门智能定位系统实现【附源码】

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,查看文章底部二维码(1)动态阻力系数修正的阀门网络压降模型:基…...

【VS Code Dev Containers终极优化指南】:20年专家亲授12个生产环境避坑技巧,90%开发者从未用过的性能翻倍配置

更多请点击: https://intelliparadigm.com 第一章:Dev Containers核心原理与架构全景 Dev Containers(开发容器)并非简单地将代码运行在 Docker 中,而是基于 VS Code Remote-Containers 扩展构建的标准化开发环境抽象…...

Python基础:字典的键值对结构与增删改查操作

Python基础:字典的键值对结构与增删改查操作📚 本章学习目标:深入理解字典的键值对结构与增删改查操作的核心概念与实践方法,掌握关键技术要点,了解实际应用场景与最佳实践。本文属于《Python从入门到精通教程》Python…...

Resource Override深度解析:实现浏览器资源重定向与内容注入的架构设计

Resource Override深度解析:实现浏览器资源重定向与内容注入的架构设计 【免费下载链接】ResourceOverride An extension to help you gain full control of any website by redirecting traffic, replacing, editing, or inserting new content. 项目地址: https…...

LongCat-Image-Editn实战教程:用GitHub Actions实现PR触发自动图像编辑与效果验证

LongCat-Image-Editn实战教程:用GitHub Actions实现PR触发自动图像编辑与效果验证 你是不是也遇到过这样的场景?团队里有人提交了一个新的图像编辑功能,或者修改了某个图像处理的参数,你需要在本地拉取代码、配置环境、运行测试&…...

基于FastAPI的Python CMS GnuBoard6:从架构解析到生产部署实战

1. 项目概述:为什么选择 GnuBoard6 作为你的下一个 Python CMS?如果你正在寻找一个基于 Python 的现代化内容管理系统(CMS),并且对 FastAPI 的高性能和简洁语法情有独钟,那么 GnuBoard6(简称 G6…...

现代CAD技术在RF/微波混频器设计中的应用与优化

1. 现代CAD技术如何重塑RF/微波混频器设计流程十年前我刚入行时,混频器设计还停留在"手算公式试验板调试"的原始阶段。记得第一次设计2.4GHz下变频器时,为了调出理想的转换损耗,整整烧毁了十七个二极管样品。如今在CAD工具的辅助下…...

LM大模型算法原理浅析:从Transformer到现代预训练架构

LM大模型算法原理浅析:从Transformer到现代预训练架构 1. 引言:为什么需要理解大模型算法 如果你用过ChatGPT或者类似的AI对话工具,可能会好奇这些模型为什么能如此流畅地生成人类语言。背后的核心技术就是大语言模型(LM&#x…...

汉字小达人、古诗文大会高频考点:《游子吟》,全真模考免费参与

上海汉字小达人活动和小学古诗文大会还有五个多月就开赛了,有兴趣参加的孩子要抓紧准备了。关于这两个比赛:这两个比赛都是面向上海的三年级到五年级的小学生,每年9月-11月比赛,也就是说现在就读二年级的孩子就可以准备了&#xf…...

Dev Container首次连接耗时>90秒?揭秘微软内部未公开的remote-ssh+buildkit协同加速方案(实测从142s→8.3s)

更多请点击: https://intelliparadigm.com 第一章:Dev Container首次连接耗时>90秒?揭秘微软内部未公开的remote-sshbuildkit协同加速方案(实测从142s→8.3s) 当 VS Code 通过 Dev Container 连接远程 Lin…...

MCP 2026日志分析升级全解密:如何在72小时内完成旧日志管道迁移并启用AI驱动的实时语义标注?

更多请点击: https://intelliparadigm.com 第一章:MCP 2026日志分析升级全景概览 MCP(Mission-Critical Platform)2026版本日志分析子系统完成架构级重构,核心目标是实现毫秒级实时聚合、语义化异常归因与跨服务拓扑追…...

Docker+WASM双引擎边缘架构设计(附eBPF流量调度代码):单集群支撑500+异构边缘节点的实战验证

更多请点击: https://intelliparadigm.com 第一章:DockerWASM双引擎边缘架构设计概览 在资源受限、低延迟敏感的边缘计算场景中,单一容器运行时已难以兼顾安全性、启动速度与跨平台兼容性。DockerWASM双引擎架构应运而生——它将 Docker 的成…...

工具调用的错误处理与回退策略

工具调用的错误处理与回退策略 关键词:工具调用错误处理、回退策略、幂等性、熔断降级、重试机制、死信队列、可观测性 摘要:在微服务、AI Agent、分布式系统等场景下,工具调用已经成为业务逻辑的核心组成部分,但网络波动、服务故障、参数错误等问题随时可能导致调用失败,…...

终极Unity游戏翻译指南:5分钟用XUnity.AutoTranslator打破语言障碍

终极Unity游戏翻译指南:5分钟用XUnity.AutoTranslator打破语言障碍 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为看不懂的日语RPG或欧美大作而苦恼吗?XUnity.AutoTranslat…...

全新二级域名分发系统网站源码_终极最强版

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示一、详细介绍 全新二级域名分发系统网站源码_终极最强版 附教程 亲测 一、系统核心优势 高性能架构:基于PHP8.1Swoole扩展开发,支持10万并发请求 智能分发引擎:实时动态解析二级域…...

《三步构建QClaw防幻觉体系,告别虚假信息》

很多人使用QClaw时最头疼的问题,不是它不够聪明,而是它总能一本正经地说出完全不存在的事情。它会编造出从未发表过的学术论文,虚构出根本不存在的行业专家,甚至能详细描述一个从来没有举办过的会议的流程和成果。这些虚假信息看起来无比真实,有具体的时间、地点、人物和数…...

一维生成对抗网络(1D-GAN)实战:从原理到工业应用

1. 从零构建一维生成对抗网络的核心挑战在金融时序预测、医疗信号处理和工业传感器数据分析等领域,一维数据建模正变得愈发重要。传统方法如ARIMA或RNN虽然有效,但难以捕捉复杂的数据分布。2014年Goodfellow提出的生成对抗网络(GAN)为这个问题提供了全新…...

code-dna:为LLM生成代码库DNA图谱,提升AI编程助手上下文理解

1. 项目概述:为LLM注入代码库的“基因图谱”如果你和我一样,每天都要和大型语言模型(LLM)一起工作,无论是用Claude Code、Cursor还是其他AI编程助手,肯定都遇到过同一个令人头疼的问题:每次开启…...

LSTM模型开发全流程:从数据预处理到部署优化

1. LSTM模型的生命周期概述在时间序列预测和自然语言处理领域,长短期记忆网络(LSTM)已经成为处理序列数据的首选架构。与普通循环神经网络(RNN)相比,LSTM通过精心设计的"门控机制"解决了长期依赖问题,使其能够记住长达数百个时间步…...