当前位置: 首页 > article >正文

别再死磕梯度下降了!用Python手写BFGS算法,5分钟搞定二次函数优化

别再死磕梯度下降用Python手写BFGS算法5分钟搞定二次函数优化优化算法是机器学习和数据科学中的核心工具而梯度下降可能是大多数人接触到的第一个优化方法。但当你开始处理更复杂的模型或更大规模的数据时梯度下降的局限性就会显现——收敛速度慢、需要手动调整学习率、对初始值敏感等问题让人头疼。今天我们就来探索一种更高效的替代方案BFGS算法。BFGSBroyden-Fletcher-Goldfarb-Shanno算法属于拟牛顿法家族它通过近似Hessian矩阵的逆来智能调整搜索方向和步长无需手动设置学习率收敛速度通常比梯度下降快一个数量级。我们将通过一个简单的二次函数优化问题直观对比两种方法的差异并手把手教你用Python实现BFGS算法。1. 为什么需要BFGS梯度下降的痛点解析梯度下降法虽然简单直观但在实际应用中存在几个明显的缺点学习率选择困难过大导致震荡过小收敛缓慢收敛速度慢特别是当条件数较大时即函数在不同方向上的曲率差异大需要手动调参不同问题需要不同的学习率和迭代次数让我们用一个简单的二次函数f(x) x² y²来演示梯度下降的问题。下面是梯度下降的实现import numpy as np def gradient_descent(f, df, x0, lr0.1, max_iter100, tol1e-6): x x0.copy() history [x.copy()] for i in range(max_iter): grad df(x) if np.linalg.norm(grad) tol: break x - lr * grad history.append(x.copy()) return x, np.array(history)测试这个函数def f(x): return x[0]**2 x[1]**2 def df(x): return np.array([2*x[0], 2*x[1]]) x0 np.array([1.5, 1.5]) x_gd, hist_gd gradient_descent(f, df, x0, lr0.1)即使对于这样一个简单的凸函数梯度下降也需要约15次迭代才能收敛到最小值点[0,0]。如果我们把学习率设置得稍大比如0.2算法就会在最小值附近震荡如果设置得太小比如0.01则需要上百次迭代。2. BFGS算法原理揭秘智能调整搜索方向BFGS算法的核心思想是通过迭代构建Hessian矩阵逆的近似从而更智能地确定搜索方向。与梯度下降总是沿着负梯度方向搜索不同BFGS会根据函数局部曲率信息调整方向。算法的主要步骤如下初始化选择初始点x₀和初始Hessian逆近似H₀通常设为单位矩阵迭代直到收敛计算当前梯度∇f(xₖ)确定搜索方向pₖ -Hₖ∇f(xₖ)通过线搜索确定步长αₖ更新参数xₖ₊₁ xₖ αₖpₖ计算梯度变化yₖ ∇f(xₖ₊₁) - ∇f(xₖ)和参数变化sₖ xₖ₊₁ - xₖ更新Hessian逆近似Hₖ₊₁关键的Hessian逆更新公式为Hₖ₊₁ (I - ρₖsₖyₖᵀ)Hₖ(I - ρₖyₖsₖᵀ) ρₖsₖsₖᵀ其中ρₖ 1/(yₖᵀsₖ)。这个更新保证了Hₖ₊₁保持正定对于凸函数从而保证搜索方向是下降方向。3. Python实现BFGS从零开始手写代码现在让我们实现完整的BFGS算法。我们将分几个关键部分来实现3.1 回溯线搜索实现首先实现一个辅助函数用于确定合适的步长def backtracking(f, df, x, p, alpha1, rho0.5, c1e-4): 回溯线搜索满足Armijo条件的步长 fx f(x) grad df(x) slope np.dot(grad, p) while f(x alpha * p) fx c * alpha * slope: alpha * rho if alpha 1e-10: # 防止步长过小 break return alpha3.2 核心BFGS算法实现def bfgs(f, df, x0, max_iter100, tol1e-6): x x0.copy() n len(x0) H np.eye(n) # 初始Hessian逆近似 history [x.copy()] for k in range(max_iter): grad df(x) if np.linalg.norm(grad) tol: break # 计算搜索方向 p -H.dot(grad) # 线搜索确定步长 alpha backtracking(f, df, x, p) # 更新参数 x_new x alpha * p # 计算变化量 s x_new - x y df(x_new) - grad # 更新Hessian逆近似 rho 1.0 / (y.dot(s) 1e-10) # 防止除以零 I np.eye(n) H (I - rho * np.outer(s, y)).dot(H).dot(I - rho * np.outer(y, s)) rho * np.outer(s, s) x x_new history.append(x.copy()) return x, np.array(history)3.3 测试BFGS实现让我们用同样的二次函数测试BFGSx_bfgs, hist_bfgs bfgs(f, df, x0np.array([1.5, 1.5])) print(fBFGS找到的最优解: {x_bfgs}) print(f迭代次数: {len(hist_bfgs)})对于这个简单问题BFGS通常只需要3-5次迭代就能收敛到机器精度远少于梯度下降的15次左右。4. 性能对比BFGS vs 梯度下降为了直观展示两种算法的差异我们来系统性地比较它们的表现4.1 迭代次数对比算法平均迭代次数 (tol1e-6)收敛标准梯度下降 (lr0.1)15‖∇f(x)‖ 1e-6BFGS4‖∇f(x)‖ 1e-64.2 收敛路径可视化我们可以绘制两种算法的优化路径import matplotlib.pyplot as plt # 绘制等高线 x np.linspace(-1.6, 1.6, 100) y np.linspace(-1.6, 1.6, 100) X, Y np.meshgrid(x, y) Z f([X, Y]) plt.figure(figsize(10, 6)) plt.contour(X, Y, Z, levels20) plt.plot(hist_gd[:,0], hist_gd[:,1], o-, label梯度下降) plt.plot(hist_bfgs[:,0], hist_bfgs[:,1], s-, labelBFGS) plt.legend() plt.title(优化路径对比) plt.xlabel(x) plt.ylabel(y) plt.show()从图中可以明显看出BFGS的路径更加直接几乎沿着最速下降方向直达最小值点而梯度下降则呈现典型的之字形路径。4.3 函数值下降曲线plt.figure(figsize(10, 6)) plt.semilogy([f(x) for x in hist_gd], label梯度下降) plt.semilogy([f(x) for x in hist_bfgs], labelBFGS) plt.xlabel(迭代次数) plt.ylabel(函数值 (log scale)) plt.title(函数值下降曲线) plt.legend() plt.grid(True) plt.show()在半对数坐标下BFGS显示出超线性收敛的特性而梯度下降只是线性收敛。5. 进阶话题BFGS的实际应用技巧虽然我们的例子使用了简单的二次函数但BFGS的真正价值在于处理更复杂的非线性优化问题。以下是一些实际应用中的技巧5.1 处理非凸函数对于非凸函数标准的BFGS实现可能会遇到以下问题Hessian逆近似可能失去正定性可能收敛到鞍点或局部极小值解决方案# 在BFGS实现中添加保护措施 if y.dot(s) 1e-10: # 曲率条件不满足 H np.eye(n) # 重置Hessian逆近似 continue5.2 内存受限的L-BFGS当参数维度很高时存储完整的Hessian逆近似矩阵可能不现实。这时可以使用L-BFGSLimited-memory BFGS它只保存最近的m个{s,y}对来近似Hessian逆。5.3 结合自动微分对于复杂的函数手动计算梯度容易出错。可以结合自动微分工具如JAX或PyTorchimport jax.numpy as jnp from jax import grad def f(x): return jnp.sum(x**2) jnp.prod(x) df grad(f) # 自动计算梯度 # 然后可以直接使用我们的BFGS实现 x_opt, _ bfgs(f, df, x0jnp.array([1.0, 1.0]))6. 常见问题与调试技巧在实际使用BFGS时可能会遇到以下问题6.1 算法不收敛的可能原因梯度计算错误这是最常见的问题。可以通过有限差分法验证梯度def check_gradient(f, df, x, eps1e-5): grad_analytic df(x) grad_numeric np.zeros_like(x) for i in range(len(x)): x_plus x.copy() x_plus[i] eps x_minus x.copy() x_minus[i] - eps grad_numeric[i] (f(x_plus) - f(x_minus)) / (2*eps) return grad_analytic, grad_numeric初始Hessian逆近似不合适对于不同尺度的问题可以尝试调整初始Hessian逆H np.eye(n) * scale_factor线搜索不精确可以尝试调整回溯线搜索的参数alpha backtracking(f, df, x, p, alpha1, rho0.9, c0.1)6.2 性能优化技巧向量化计算确保所有操作都使用NumPy的向量化操作避免不必要的计算缓存重复使用的值预热启动对于类似问题可以使用前一次的Hessian逆近似作为初始值7. 超越二次函数BFGS在机器学习中的应用虽然我们使用二次函数作为示例但BFGS的真正威力在于处理更复杂的机器学习模型优化问题。以下是一些典型应用场景7.1 逻辑回归def logistic_loss(w, X, y): z X.dot(w) return np.mean(np.log1p(np.exp(-y * z))) def logistic_grad(w, X, y): z X.dot(w) s 1 / (1 np.exp(y * z)) return -X.T.dot(y * s) / len(y) # 使用BFGS优化 w0 np.zeros(X.shape[1]) w_opt, _ bfgs(lambda w: logistic_loss(w, X, y), lambda w: logistic_grad(w, X, y), w0)7.2 神经网络参数优化虽然深度学习通常使用随机梯度下降及其变种但对于小型网络或全批量训练BFGS也是一个不错的选择def neural_net_loss(params, X, y): # 前向传播计算损失 ... return loss def neural_net_grad(params, X, y): # 反向传播计算梯度 ... return grad # 展平参数并优化 params_flat, unflatten flatten_params(initial_params) params_opt_flat, _ bfgs(lambda p: neural_net_loss(unflatten(p), X, y), lambda p: flatten_grad(neural_net_grad(unflatten(p), X, y)), params_flat)7.3 超参数优化BFGS也可以用于优化模型的超参数虽然这通常需要计算二阶导数或使用基于梯度的超参数优化方法。8. 算法变种与扩展阅读BFGS算法有多种变体和改进值得进一步探索L-BFGS内存受限版本适合高维问题BFGS-B支持边界约束的版本DFP另一种拟牛顿法与BFGS类似但更新公式不同自适应BFGS自动调整参数的版本对于想深入了解的读者推荐以下资源Nocedal Wright的《Numerical Optimization》Boyd Vandenberghe的《Convex Optimization》SciPy的scipy.optimize.minimize实现其中包含BFGS和L-BFGS选项

相关文章:

别再死磕梯度下降了!用Python手写BFGS算法,5分钟搞定二次函数优化

别再死磕梯度下降!用Python手写BFGS算法,5分钟搞定二次函数优化 优化算法是机器学习和数据科学中的核心工具,而梯度下降可能是大多数人接触到的第一个优化方法。但当你开始处理更复杂的模型或更大规模的数据时,梯度下降的局限性就…...

【2026年华为留学生暑期实习-非AI方向(通软嵌软测试算法数据科学)-4月23日-第一题- 给软件版本号排序】(题目+思路+JavaC++Python解析+在线测试)

题目内容 给出一系列软件版本号,请以升序对其排序。 主版本号是由“.”分割的多组数字组成,另外在正式的 releasereleaserelease 版本之前还存在 betabeta...

Ceph块存储与对象存储实战指南

Ceph 分布式存储学习笔记(三):块存储和对象存储管理 Ceph 是一个开源的分布式存储系统,提供高性能、高可靠性和可扩展性。块存储(RBD)和对象存储(RGW)是 Ceph 的两种核心存储类型&a…...

Java高频面试考点场景题12

视频以 “银行网点” 类比,系统讲解了线程池的核心设计逻辑与面试高频考点,核心内容可总结为以下四部分:一、线程池的 “抠门” 原则线程池设计遵循 “能排队就不招临时工” 的反直觉原则:优先使用核心线程处理任务,队…...

别再傻傻用播放器看信息了!用ffprobe命令行5分钟搞定视频文件深度解析

别再傻傻用播放器看信息了!用ffprobe命令行5分钟搞定视频文件深度解析 每次拿到一个视频文件,你是不是也习惯性地双击用播放器打开,然后右键查看属性?这种方法虽然直观,但效率实在太低——尤其是当你需要批量检查视频参…...

WanVideo_Cofy:AI 驱动的开源专业级视频生成平台全解析

一、平台简介 WanVideo_Cofy(全称 WanVideo ComfyUI,常简称为 WanVideo_Cofy)是基于阿里云通义万相 Wan 2 系列视频生成模型(核心为 Wan 2.2)深度定制、依托 ComfyUI 可视化节点编辑器打造的开源 AI 视频生成一体化解…...

Phi-3.5-mini-instruct惊艳效果:中文技术术语与英文缩写双向精准映射

Phi-3.5-mini-instruct惊艳效果:中文技术术语与英文缩写双向精准映射 1. 模型概述与核心能力 Phi-3.5-mini-instruct是微软推出的轻量级开源指令微调大模型,在多项基准测试中表现优异。这个模型特别适合需要处理技术文档和跨语言术语映射的场景。 1.1…...

破壳记录(二)|头部、底部与登录模块:从业务组件到状态管理的工程化实践

本系列继续拆解网易云音乐仿写项目中的技术难点。上一篇我们聚焦配置层面的工程化(持久化、懒加载、TS 配置、代理),这一篇深入到业务组件与状态管理—— 头部导航、底部页脚、登录系统,看看它们如何体现数据驱动、CSS 工程化、异…...

Java 微服务架构:从拆分到治理的完整踩坑记录

一、为什么要写这篇文章做过 Java 转 Vue3 迁移的同学都知道——光看文档是不够的。文档告诉你 API 怎么用,但不会告诉你哪些"习惯性写法"在新框架里会悄悄出错,还不报错。本文来自真实迁移经历,整理了 6 类高频踩坑场景&#xff0…...

MinerU快速部署教程:3步搭建智能文档解析系统,支持OCR识别

MinerU快速部署教程:3步搭建智能文档解析系统,支持OCR识别 1. 引言:为什么你需要一个自己的文档解析助手 想象一下这个场景:你手头有一堆扫描的PDF合同、会议纪要的截图,或者一份满是表格和公式的学术论文。你需要快…...

别再乱配了!手把手教你搞定RK809 Codec的MIC差分与单端输入(附DTS配置避坑)

RK809 Codec硬件配置实战:从差分与单端输入原理到DTS避坑指南 在嵌入式音频系统开发中,RK809这颗高度集成的音频Codec芯片因其出色的性价比和丰富的功能接口,成为RK3568等主流嵌入式平台的首选音频解决方案。但许多开发者在实际调试过程中&am…...

Mac上VS Code配置PySide6开发环境:从Qt Designer拖拽到代码运行的全流程避坑指南

Mac上VS Code配置PySide6开发环境:从Qt Designer拖拽到代码运行的全流程避坑指南 在Mac环境下使用VS Code进行PySide6开发,可以享受到Qt Designer可视化设计工具带来的高效界面开发体验。不同于Windows系统的一键安装,MacOS特有的应用包结构和…...

数字化-两种基因,两种宿命

一个做汽配的人,为什么在研究瑞幸事情是这样的。我们公司内部有个群,有天晚上,有人甩了一个链接进来,是程前朋友圈讲瑞幸9块9咖啡怎么赚钱的那期。本来大家都在忙自己的事,没人点开。但技术负责人看完之后,…...

应对Turnitin严查:英文论文降AI率避坑指南,如何彻底告别“机器味”?

这两天在几个交流群里潜水,发现大家都在聊一件挺让人头疼的事。 明明是自己熬夜敲出来的英文初稿,丢进 Turnitin 一查,AI 率直接飙到 80% 以上,所以掌握科学降ai率方法是非常重要的。 最近各大检测系统都在疯狂升级算法&#xff…...

Phi-3-mini-128k-instruct镜像免配置亮点:预装vLLM 0.6.3+Chainlit 1.2.0+依赖全兼容

Phi-3-mini-128k-instruct镜像免配置亮点:预装vLLM 0.6.3Chainlit 1.2.0依赖全兼容 1. 模型简介 Phi-3-Mini-128K-Instruct是一个38亿参数的轻量级开放模型,属于Phi-3系列的最新成员。这个模型经过精心训练,使用了包含合成数据和精选公开网…...

jQuery Mobile 页面:深入理解与高效应用

jQuery Mobile 页面:深入理解与高效应用 引言 随着移动设备的普及,移动网页开发成为了前端开发的一个重要分支。jQuery Mobile 是一个流行的开源移动网页框架,它为开发者提供了一套完整的移动网页解决方案。本文将深入探讨 jQuery Mobile 页面的设计原理、实现方法以及在实…...

Real-Anime-Z入门指南:从服务器IP访问7860到生成首张图的5分钟全流程

Real-Anime-Z入门指南:从服务器IP访问7860到生成首张图的5分钟全流程 1. 项目概述 Real-Anime-Z是一款基于Stable Diffusion技术的2.5D风格图像生成模型,完美融合了写实质感与动漫美感。这个模型系列由23个LoRA变体组成,可以叠加在Z-Image基…...

CloudCompare点云配准结果不准?手把手教你用PCL代码复现并验证其指标

CloudCompare点云配准结果验证:用PCL代码复现核心指标的计算逻辑 当我们在CloudCompare中完成点云配准后,软件会给出"精度"和"重叠度"两个关键指标。但作为专业用户,你是否思考过这些数字背后的计算原理?本文…...

手把手教你用大疆M100和ZED相机搭建空地协同SLAM系统(附Gazebo仿真)

从零搭建空地协同SLAM系统:大疆M100与ZED相机的实战指南 当无人机与地面机器人开始共享同一张环境地图时,魔法就发生了。想象一下,无人机像鹰隼般俯瞰全局,地面机器人则如猎犬般细致探索——这正是协同SLAM技术的魅力所在。本文将…...

当AI阅读‘动物园怪谈’:用GPT-4分析规则矛盾与逻辑漏洞,我们能学到什么?

当AI阅读‘动物园怪谈’:用GPT-4分析规则矛盾与逻辑漏洞,我们能学到什么? 深夜的实验室里,我将这份被称为"动物园怪谈"的诡异文档完整输入GPT-4的对话框。屏幕上跳动的光标仿佛在呼吸,等待AI给出它的解读。这…...

JDK20安装后,除了‘Hello World’还能怎么玩?用VSCode快速搭建你的第一个Java项目

JDK20安装后,除了‘Hello World’还能怎么玩?用VSCode快速搭建你的第一个Java项目 当你成功安装JDK20并验证了环境变量配置后,打印"Hello World"可能已经无法满足你的探索欲望。作为现代Java开发者,我们更渴望立即投入…...

不只是抓包:用Fiddler在Android上‘伪造’数据,快速测试App的边界与异常场景

不只是抓包:用Fiddler在Android上‘伪造’数据,快速测试App的边界与异常场景 在移动应用测试领域,大多数工程师对Fiddler的认知停留在"抓包工具"层面——它能记录HTTP/HTTPS请求,帮助分析网络交互。但鲜有人意识到&…...

CentOS 8停服后,yum install报错‘Could not resolve host’的终极修复手册(附阿里云源修正)

CentOS 8停服后yum源失效的深度修复指南:从原理到实战 当你在终端输入yum install命令后看到Could not resolve host的红色报错时,这不仅仅是简单的网络问题——它标志着CentOS 8生命周期结束(EOL)带来的连锁反应正在影响你的系统。作为仍在维护CentOS 8…...

别再手动模拟时序了!深入理解STM32 FSMC如何“硬件级”简化外部SRAM访问

深入解析STM32 FSMC:硬件级SRAM访问优化实践 在嵌入式系统开发中,内存资源常常成为限制项目复杂度的瓶颈。当STM32内部SRAM不足以支撑大型应用时,外部SRAM扩展成为必选项。传统GPIO模拟时序的方法不仅代码臃肿,还存在性能瓶颈。本…...

从WiFi到SDR:如何为你的机器人集群挑选合适的“数传”硬件?(避坑指南与组网实测)

从WiFi到SDR:机器人集群通信硬件选型实战手册 当二十台自主移动机器人需要在500米半径的仓库内同步位置数据时,WiFi模块频繁掉线;当野外搜救集群需要跨越3公里峡谷传输高清图像时,常规数传模块集体失联——这些真实场景暴露出机器…...

系统运维实战:journalctl日志分析与故障排查指南

1. journalctl基础:从零开始掌握日志分析 刚接触Linux系统运维时,最让我头疼的就是排查系统问题。每次服务器出状况,面对/var/log下密密麻麻的日志文件总是一头雾水。直到发现了journalctl这个神器,我的运维效率直接翻倍。journal…...

Real Anime Z企业级运维:Prometheus+Grafana显存/延迟/吞吐量监控

Real Anime Z企业级运维:PrometheusGrafana显存/延迟/吞吐量监控 1. 项目背景与监控需求 Real Anime Z是基于阿里云通义Z-Image底座模型开发的高精度二次元图像生成工具,其核心特性包括BF16稳定精度、智能权重注入和双层显存优化方案。在企业级部署场景…...

以学代练:用竞赛真题学算法——二叉树

先上题目,出自蓝桥杯省赛真题题目描述给定一棵包含 N 个节点 的完全二叉树,树上每个节点都有权值。节点按照从上到下、从左到右的顺序依次编号为 A1​,A2​,…,AN​。现在需要把同一深度(同一层)的所有节点权值相加,求…...

避坑指南:ArcGIS中管网流向设置总出错?可能是你的‘源’和‘汇’用错了

ArcGIS管网流向分析:从原理到实践的深度避坑指南 在市政管网或河网分析中,流向判断是网络分析的基础,却也是许多GIS工程师踩坑的重灾区。你是否遇到过这样的场景:精心构建的几何网络,在执行流向分析时频繁报错&#xf…...

【进阶指南】Ant Design Select 下拉框数据全解析:从 value、label 到自定义属性的高效获取

1. 理解Ant Design Select的核心数据流 当你第一次接触Ant Design的Select组件时,可能会觉得它就是个简单的下拉选择器。但实际开发中,特别是处理复杂业务表单时,我们往往需要获取的不仅仅是value值。想象一下这样的场景:用户选择…...