当前位置: 首页 > news >正文

24/8/17算法笔记 MPC算法

MPC算法,在行动前推演一下

MPC(Model Predictive Control,模型预测控制)是一种先进的控制策略,它利用未来预测模型来优化当前的控制动作。MPC的核心思想是,在每一个控制步骤中,都基于当前系统状态的测量值,通过预测模型向前看若干步,并计算出一个使未来输出最优化的控制序列。然后,只应用这个序列的第一个控制动作,并在下一个时间步重复这个过程。

MPC算法的主要特点包括:

  1. 滚动时域优化:MPC在每一个控制步骤中解决一个有限时间范围内的优化问题,而不是试图直接解决整个控制任务。

  2. 模型预测:利用系统模型来预测未来的行为。这个模型可以是物理模型,也可以是基于数据的模型。

  3. 约束处理:MPC可以自然地处理系统的输入和输出约束,例如,限制控制输入的最大和最小值,或者状态变量的运行范围。

  4. 优化目标:通常包括跟踪预定轨迹、最小化能耗、保证系统稳定性等。

  5. 反馈校正:由于实际系统与模型之间存在差异,MPC通常会在每个控制周期中使用最新的测量状态来更新预测并重新优化。

MPC算法的一般步骤包括:

  1. 状态测量:获取当前系统状态的实际测量值。

  2. 模型预测:使用当前状态和预测模型来预测未来的状态和输出。

  3. 优化问题设置:定义目标函数和约束条件,设置优化问题。

  4. 求解优化问题:求解优化问题,得到最优控制序列。

  5. 应用控制动作:将优化问题的解,即控制序列的第一个控制动作应用到系统上。

  6. 重复过程:在下一个控制周期,重复上述步骤。

MPC算法广泛应用于化工、石油、交通、航空等众多领域,特别是在需要考虑复杂约束和多步预测的场合。然而,MPC算法的性能在很大程度上依赖于模型的准确性和优化算法的选择。随着计算能力的提升和优化算法的发展,MPC在实际工业应用中的使用越来越广泛。

import gym
#创建环境
env = gym.make('Pendulum-v1')

定义样本池对象

import numpy as np
import torchclass Pool:def __init__(self,limit):#样本池self.datas = []self.limit = limitdef add(self,state,action,reward,next_state,over):if isinstance(state,np.ndarray) or isinstance(state,torch.Tensor):#检查变量 state 是否是 bo.ndarray 或者 torch.Tensor 类型state = state.reshape(3).tolist()action = float(action)reward = float(reward)if isinstance(next_state,np.ndarray) or isinstance(next_state,torch.Tensor):next_state = next_state.reshape(3).tolist()over = bool(over)self.datas.appen((state,action,reward,next_state,over))#数据上限,超出时从最古老的开始删除while len(self.datas)>self.limit:self.datas.pop(0)#获取一批数据样本def get_sample(self):samples = self.datasstate = torch.FloatTensor([i[0] for i in samples]).reshape(-1,3)action = torch.FloatTensor([i[1] for i in samples]).reshape(-1,1)reward = torch.FloatTensor([i[2] for i in samples]).reshape(-1,1)     next_state = torch.FloatTensor([i[3]for i in samples]).reshape(-1,3)over = torch.LongTensor([i[4]for i in samples]).reshape(-1,1)input = torch.cat([state,action],dim=1)label = torch.cat([rewarrd,next_state-state],dim=1)return input,labeldef _len_(self):return len(self_datas)

初始化样本池,并添加一局游戏的数据

pool = Pool(1000000)#初始化一局游戏的数据
def _():#初始化游戏state = env.reset()#玩到游戏结束为止over = Falsewhile not over:#随机一个动作action = env.action_space.sample()[0]#执行动作,得到反馈next_state,reward,over,_ = env.step([action])#记录数据样本pool.add(state,action,reward,next_state,over)#更新游戏状态,开始下一个动作state = next_state

定义主模型

import random
#定义主模型
class Model(torch.nn.Module):#swish激活函数class Swish(torch.nn.Module):def __init__(self):super().__init__()def forward(self,x):return X*torch.sigmoid(x)

主模型中的FC层

#定义一个工具层
class FCLayer(torch.nn.Module):def __init__(self,in_size,out_size):super().__init__()self.in_size = in_size#初始化参数std  = in_size**0.5std *=2std = 1/stdweight = torch.empty(5, in_size,out_size)torch.nn.init.normal_(weight,mean=0.0,std=std)self.weight = torch.nn.Parameter(weighr)self.bias = torch.nn.Parameter(torch.zeros(5,1,out_size))def forward(self,x):x = torch.bmm(x,self.weight)x = x+self.biasreturn x

主模型初始化函数

def __init__(self):super().__init__()self.sequential = torch.nn.Sequential(self.FCLayer(4,200), #全连接层(线性层)self.Swish(), #激活函数层self.FCLayer(200,200),self.Swish(),self.FCLayer(200,200),self.Swish(), self.FCLayer(200,200),self.Swish(),self.FCLayer(200,8),torch.nn.Identity(),)self.softplus = torch.nn.Softplus() #Softplus 是一个平滑的ReLU激活函数self.optimizer = torch.optim.Adam(self.parameters(),lr=1e-3)

主模型计算过程,计算结果是一个均值和log方差,对logvar的加减操作是为了调整logvar的最大最小值

def forward(self,x):x = self.sequential(x)mean  = x[...,:4]logvar = x[...,4:]logvar = 0.5 - logvarlogva = 0.5 -self.softplus(logvar)logvar = logvar+10logvar = self.softplus(logvar)-10return mean,logvar

主模型的训练函数

def train(self,input,label):#反复训练N次for _ in range(len(input)//64*20):#从全量数据中抽样64个,反复抽5遍,形成5份数据select = [torch.randperm(len(input))[:64] for _ in range(5)]select =torch.stack(select)input_select = input[select]label_select = label[select]del select#模型计算mean,logvar = model(input_select)#计算lossmse_loss = (mean - label_select)**2*(-logvar).exp()mse_loss = mse_loss.mean(dim=1).mean()var_loss+logvar.mean(dim=1).mean()loss =mse_loss+var_lossself.optimizer.zero_grad()loss.backward()self.optimizer.step()

初始化主模型

model = Model()a,b = model(torch.randn(5,64,4))
a.shape,b.shape

MPC fake step函数,功能是根据state和action估计reward和next_state

class MPC:def _fake_step(self,state,action):input = torch.cat([state,action],dim=1)#重复5遍input = input.unsqueeze(dim=0).repeat([5,1,1])#模型计算with torch.no_grad():mean,std = model(input)std = std.exp().sqrt()del input#means的后3列加上环境数据mean[:,:,1:]+=state#重采样sample = torch.distributions.Normal(0,1).sample(mean.shape)#0-4的值域采样b个元素select = [random.choice(range(5))for _ in range(mean.shape[1])]#重采样结果,第0个维度,0-4随机选择,第二个维度,0-b顺序选择sample = sample[select,range(mean.shape[1])]#切分一下,就成了rewards,next_statereward,next_state = sample[:,:1],sample[:,1:]return reward,next_state

MPC cem优化函数,虚拟N条动作链,并优化M次,求与孤寂结果最佳的分布

    def _cem_optimizer(self,state,mean):state = torch.FloatTensor(state).reshape(1,3)var = torch.ones(25)#当前游戏的环境信息,复制50次state = state.repeat(50,1)#循环5次,寻找最优解for _ in range(5):#采样50个标准正态分布数据作为actionactions = torch.distributions.Normal(0,1).sample([50,25])#乘以标准差,加上均值actions *=var**0.5actions +=mean#计算每条动作序列的累计奖励reward_sum = torch.zeros(50,1)#遍历25个动作for i in range(25):action = actions[:,i].unsqueeze(dim=1)#现在是不能真的去玩游戏的,只能去预测reward和next_statereward,next_state = self._fake_step(state,action)reward_sum += rewardstate = next_state#按照reward_sum从小到大排序select = torch.sort(reward_sum.squeeze(dim=1)).indicesactions = actions[select]del select#取发聩最优的10个动作链actions = actions[-5:]#在下一次随机动作时,希望贴近这些动作的分布new_mean = actions.mean(dim= 0)new_var = actions.var(dim=0)#增量更新mean = 0.1*mean +0.9*new_meanvar = 0.1*var+0.9*new_varreturn mean

MPC mpc函数,每次动作都预演N次,求预演结果最佳的分布

def mpc(self):#初始化动作的分布均值都是0mean = torch.zeros(25)reward_sum = 0state = env.reset()over = Falsewhile not over:#当前状态下,找25个最优都知道均值actions = self._cem_optimize(state,mean)#执行第一个动作action = actions[0].item()#执行动作next_state,reward,over,_ = env.step([action])#增加数据pool.add(state,action,reward,next_state,over)state = next_statereward_sum +=reward#下个动作的均值,在当前动作均值的基础上寻找mean = torch.empty(actions.shape)mean[:-1] = actions[1:]mean[-1] = 0return reward_sum

初始化MPC对象

mpc = MPC()
a,b = mpc._fake_step(torch.randn(200,3),torch.randn(200,1))
print(a.shape,b.shape)
print(mpc._cem_optimize(torch.randn(1,3),,torch.zeros(25)).shape)

训练

for i in range(10):input,label = pool.get_sample()model.train(input,label)reward_sum = mpc.mpc()print(i,len(pool),reward_sum)

相关文章:

24/8/17算法笔记 MPC算法

MPC算法,在行动前推演一下 MPC(Model Predictive Control,模型预测控制)是一种先进的控制策略,它利用未来预测模型来优化当前的控制动作。MPC的核心思想是,在每一个控制步骤中,都基于当前系统状…...

GROUP_CONCAT 用法详解(Mysql)

GROUP_CONCAT GROUP_CONCAT 是 MySQL 中的一个聚合函数,用于将分组后的多行数据连接成一个单一的字符串。 通常用于将某个列的多个值合并到一个字符串中,以便更方便地显示或处理数据。 GROUP_CONCAT([DISTINCT] column_name[ORDER BY column_name [ASC…...

Golang httputil 包深度解析:HTTP请求与响应的操控艺术

标题:Golang httputil 包深度解析:HTTP请求与响应的操控艺术 引言 在Go语言的丰富标准库中,net/http/httputil包是一个强大的工具集,它提供了操作HTTP请求和响应的高级功能。从创建自定义的HTTP代理到调试HTTP流量,h…...

SQLALchemy 分页

SQLALchemy 分页 1. 使用SQLAlchemy的`slice`和`offset`/`limit`SQLAlchemy 1.4及更新版本SQLAlchemy 1.3及更早版本使用第三方库注意事项在Web开发中,分页是处理大量数据时一个非常重要的功能。SQLAlchemy是一个流行的Python SQL工具包和对象关系映射(ORM)库,它允许开发者…...

快速上手体验MyPerf4J监控springboot应用(docker版快速开始-本地版)

使用MyPerf4J监控springboot应用 快速启动influxdb时序数据库日志收集器telegrafgrafana可视化界面安装最终效果 项目地址 项目简介: 一个针对高并发、低延迟应用设计的高性能 Java 性能监控和统计工具。 价值 快速定位性能瓶颈快速定位故障原因 快速启动 监控本地应用 idea配…...

C语言 之 strlen、strcpy、strcat、strcmp字符串函数的使用和模拟实现

文章目录 strlen的使用和模拟实现函数的原型strlen模拟实现:方法1方法2方法3 strcpy的使用和模拟实现函数的原型strcpy的模拟实现: strcat的使用和模拟实现函数的原型strcat的模拟实现: strcmp的使用和模拟实现函数的原型strcmp的模拟实现 本…...

CAPL使用结构体的方式组装一条DoIP车辆识别请求报文(payload type 0x0002)

DoIP车辆识别请求(payload type 0x0002)报文的格式为: /******************************************************** +--------+--------+--------+--------+ |version | inVer | type | +--------+--------+--------+--------+ | length …...

数据接入教学

数据接入教学 1、开通外部网络策略2、检查本地防火墙策略3、测试网络连通性4、工具抓包命令5、本地测试发送与监听 1、开通外部网络策略 保证外部网络联通、保证内部防火墙开通策略(可以关闭进行测试) 2、检查本地防火墙策略 关闭进行测试 停止firewa…...

炒作将引发人工智能寒冬

我们似乎经常看到人工智能的进步被吹捧为机器真正变得智能的一大飞跃。我将在这里挑选其中的一个例子,并确切解释为什么这种态度会为人工智能的未来埋下隐患。 这很酷,这是一个非常困难且非常具体的问题,这个团队花了3 年时间才解决。他们一定…...

clamp靶机复现

靶机设置 设置靶机为NAT模式 靶机IP发现 nmap 192.168.112.0/24 靶机IP为192.168.112.143 目录扫描 dirsearch 192.168.112.143 访问浏览器 提示让我们扫描更多的目录 换个更大的字典,扫出来一个 /nt4stopc/ 目录 目录拼接 拼接 /nt4stopc/ 发现页面中有很多…...

mfc100u.dll丢失问题分析,详细讲解mfc100u.dll丢失解决方法

面对mfc100u.dll文件丢失带来的挑战时,许多用户都可能感到有些无助,尤其是当这一问题影响到他们日常使用的软件时。但实际上,存在几种有效方法可以帮助您快速恢复该关键的系统文件。为了方便不同水平的用户,本文将详细解析各种处理…...

【C++】什么是内存管理?

如果有不懂的地方,可以看我以往文章哦! 个人主页:CSDN_小八哥向前冲 所属专栏:C入门 目录 C/C内存分布 C内存管理方式 new/delete操作内置类型 new/delete操作自定义类型 operator new与operator delete函数 new和delete实现…...

产业经济大脑建设方案(五)

为了提升产业经济的智能化水平,我们提出建设一个综合产业经济大脑系统,该系统通过整合大数据分析、人工智能和云计算技术,构建全方位的数据采集、处理和决策支持平台。该平台能够实时监测产业链各环节的数据,运用智能算法进行深度…...

如何在 Odoo 16 中覆盖创建、写入和取消链接方法

Odoo 是一款强大的开源业务应用程序套件,可为各种业务运营提供广泛的功能。其主要功能之一是能够自定义和扩展其功能以满足特定的业务需求。在本博客中,我们将探讨如何覆盖Odoo 16中的创建、写入和取消链接方法,从而使您无需修改​​核心代码…...

pip离线安装accelerate

一、离线下载到当前文件夹 pip download accelerate -d ./anzhuangbao# 制定版本使用以下命令pip download accelerate0.32.0 -d ./anzhuangbao二、离线安装 cd anzhuangbaipip install --no-index --find-links. accelerate三、验证是否安装 pip show accelerateAccelerate: …...

VUE3请求意外报跨越错误或者500错误问题

1.有可能是请求传参和传参类型写错了 首先要确保该请求接口是支持跨域的(不支持叫后端改) access-control-allow-headers:Content-Type, Accept, Access-Control-Allow-Origin, api_key, Authorization access-control-allow-methods:GET, POST, OPTIO…...

vue 关于两个if条件中的promise

一、案例效果 期望if判断条件里的两个promise 都同时执行完成 二、 初始代码案例 const formatDetail async (fnArgsJsonParams: MapLogicType) > {if (fnArgsJsonParams?.targetFeatureName) {const resDetailData await formatFeatureInfo(fnArgsJsonParams.targetF…...

C/C++移位运算问题

目录 上期答案揭晓: 回忆: 问题1展现: 问题2展现: 改进方案: 下期预告:C语言类型转换的问题。 上期答案揭晓: 上期的问题大家是否都有了想法,下面说说我的思路。 上次我们提到…...

录屏工具 Icecream Screen Recorder PRO v7.41

Icecream Screen Recorder的免费屏幕录制工具,具备捕捉视频、音频、图片和游戏等多种功能。以前推荐过的icecreamPDF也是他家的非常好用! 下载链接:「录屏」来自UC网盘分享https://drive.uc.cn/s/b474616b91534...

解决连接不上Linux和服务器中的Nacos(Windows中能连接但是Linux中却不行)

报错 com.alibaba.nacos.shaded.io.grpc.StatusRuntimeException: UNKNOWN: Uncaught exception in the SynchronizationContext. Re-thrown. at com.alibaba.nacos.shaded.io.grpc.Status.asRuntimeException(Status.jav 2024-08-13T10:21:52.93708:00 ERROR 27764 --- …...

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

.Net框架,除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

Axios请求超时重发机制

Axios 超时重新请求实现方案 在 Axios 中实现超时重新请求可以通过以下几种方式&#xff1a; 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

蓝桥杯3498 01串的熵

问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798&#xff0c; 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

docker 部署发现spring.profiles.active 问题

报错&#xff1a; org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...

安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲

文章目录 前言第一部分&#xff1a;体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分&#xff1a;体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...

在Mathematica中实现Newton-Raphson迭代的收敛时间算法(一般三次多项式)

考察一般的三次多项式&#xff0c;以r为参数&#xff1a; p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]&#xff1b; 此多项式的根为&#xff1a; 尽管看起来这个多项式是特殊的&#xff0c;其实一般的三次多项式都是可以通过线性变换化为这个形式…...

多模态图像修复系统:基于深度学习的图片修复实现

多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...

在 Spring Boot 项目里,MYSQL中json类型字段使用

前言&#xff1a; 因为程序特殊需求导致&#xff0c;需要mysql数据库存储json类型数据&#xff0c;因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...