当前位置：首页 > article >正文

基于“动手学强化学习”的知识点（二）：第 15 章模仿学习（gym版本＞= 0.26）

article 2026/3/7 13:41:48

第 15 章模仿学习（gym版本＞= 0.26）

摘要

摘要

本系列知识点讲解基于动手学强化学习中的内容进行详细的疑难点分析！具体内容请阅读动手学强化学习！

对应动手学强化学习——模仿学习

# -*- coding: utf-8 -*-import gym
import torch
import torch.nn.functional as F
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import random
import rl_utilsclass PolicyNet(torch.nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super(PolicyNet, self).__init__()self.fc1 = torch.nn.Linear(state_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, action_dim)def forward(self, x):x = F.relu(self.fc1(x))return F.softmax(self.fc2(x), dim=1)class ValueNet(torch.nn.Module):def __init__(self, state_dim, hidden_dim):super(ValueNet, self).__init__()self.fc1 = torch.nn.Linear(state_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, 1)def forward(self, x):x = F.relu(self.fc1(x))return self.fc2(x)class PPO:''' PPO算法,采用截断方式 '''def __init__(self, state_dim, hidden_dim, action_dim, actor_lr, critic_lr,lmbda, epochs, eps, gamma, device):self.actor = PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.critic = ValueNet(state_dim, hidden_dim).to(device)self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)self.gamma = gammaself.lmbda = lmbdaself.epochs = epochs  # 一条序列的数据用于训练轮数self.eps = eps  # PPO中截断范围的参数self.device = devicedef take_action(self, state):if isinstance(state, tuple):state = state[0]state = torch.tensor([state], dtype=torch.float).to(self.device)probs = self.actor(state)'''根据概率分布创建一个离散分类分布对象，用于采样离散动作。离散的概率模型。'''action_dist = torch.distributions.Categorical(probs)action = action_dist.sample()return action.item()def update(self, transition_dict):    processed_state = []for s in transition_dict['states']:if isinstance(s, tuple):# 如果元素是元组，则取元组的第一个元素processed_state.append(s[0])else:processed_state.append(s)# states = torch.tensor(transition_dict['states'], dtype=torch.float).to(self.device)states = torch.tensor(processed_state, dtype=torch.float).to(self.device)actions = torch.tensor(transition_dict['actions']).view(-1, 1).to(self.device)rewards = torch.tensor(transition_dict['rewards'],dtype=torch.float).view(-1, 1).to(self.device)next_states = torch.tensor(transition_dict['next_states'],dtype=torch.float).to(self.device)dones = torch.tensor(transition_dict['dones'],dtype=torch.float).view(-1, 1).to(self.device)'''计算 TD 目标（即回归目标）：td_target=r+γ×V(s′)×(1−done)'''td_target = rewards + self.gamma * self.critic(next_states) * (1 -dones)'''计算 TD 残差（或优势估计的基础）：当前状态的 TD 目标减去当前 critic 估计的状态价值。'''td_delta = td_target - self.critic(states)'''调用辅助函数（在 rl_utils 模块中定义）计算优势函数，通常使用广义优势估计（GAE）。'''advantage = rl_utils.compute_advantage(self.gamma, self.lmbda, td_delta.cpu()).to(self.device)'''先将状态输入 actor 网络得到动作概率分布（例如 shape 为 (batch_size, action_dim)）。使用 .gather(1, actions) 选出每个样本所执行动作对应的概率（注意 actions 的形状必须匹配）。取对数得到旧的对数概率，再 detach() 阻断梯度流，保存旧策略下的概率值。'''old_log_probs = torch.log(self.actor(states).gather(1, actions)).detach()for _ in range(self.epochs):'''在当前策略下重新计算所有样本的对数概率，与旧对数概率进行比较。'''log_probs = torch.log(self.actor(states).gather(1, actions))'''计算概率比率，即新旧策略的概率之比，用于 PPO 的 clip 损失计算。'''ratio = torch.exp(log_probs - old_log_probs)'''计算无截断的策略目标，乘上优势值。'''surr1 = ratio * advantage'''对 ratio 进行截断，确保其在 [1−ϵ,1+ϵ] 范围内（例如 [0.8, 1.2]），然后乘以优势。'''surr2 = torch.clamp(ratio, 1 - self.eps, 1 + self.eps) * advantage  # 截断'''PPO 算法的目标是最大化最小值，因此这里取两者中的较小值再取负号作为损失。对整个 batch 求均值。'''actor_loss = torch.mean(-torch.min(surr1, surr2))  # PPO损失函数'''计算 critic 的均方误差（MSE）损失：当前 critic 估计与 TD 目标之间的误差，对整个 batch 取平均。'''critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach()))self.actor_optimizer.zero_grad()self.critic_optimizer.zero_grad()actor_loss.backward()critic_loss.backward()self.actor_optimizer.step()self.critic_optimizer.step()actor_lr = 1e-3
critic_lr = 1e-2
num_episodes = 250
hidden_dim = 128
gamma = 0.98
lmbda = 0.95
epochs = 10
eps = 0.2
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")env_name = 'CartPole-v0'
env = gym.make(env_name)
if not hasattr(env, 'seed'):def seed_fn(self, seed=None):env.reset(seed=seed)return [seed]env.seed = seed_fn.__get__(env, type(env))
# env.seed(0)
torch.manual_seed(0)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
ppo_agent = PPO(state_dim, hidden_dim, action_dim, actor_lr, critic_lr, lmbda, epochs, eps, gamma, device)return_list = rl_utils.train_on_policy_agent(env, ppo_agent, num_episodes)def sample_expert_data(n_episode):states = []actions = []for episode in range(n_episode):state = env.reset()done = Falsewhile not done:action = ppo_agent.take_action(state)states.append(state)actions.append(action)result = env.step(action)if len(result) == 5:next_state, reward, done, truncated, info = resultdone = done or truncated  # 可合并 terminated 和 truncated 标志else:next_state, reward, done, info = result# next_state, reward, done, _ = env.step(action)state = next_stateprocessed_states = []for s in states:if isinstance(s, tuple):# 如果元素是元组，则取元组的第一个元素processed_states.append(s[0])else:processed_states.append(s)return np.array(processed_states), np.array(actions)if not hasattr(env, 'seed'):def seed_fn(self, seed=None):env.reset(seed=seed)return [seed]env.seed = seed_fn.__get__(env, type(env))
# env.seed(0)
torch.manual_seed(0)
random.seed(0)
n_episode = 1
expert_s, expert_a = sample_expert_data(n_episode)n_samples = 30  # 采样30个数据
random_index = random.sample(range(expert_s.shape[0]), n_samples)
expert_s = expert_s[random_index]
expert_a = expert_a[random_index]class BehaviorClone:def __init__(self, state_dim, hidden_dim, action_dim, lr):self.policy = PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.optimizer = torch.optim.Adam(self.policy.parameters(), lr=lr)def learn(self, states, actions):"""解释：定义一个学习函数，接收一批专家数据中的状态和动作，用于更新策略网络。"""states = torch.tensor(states, dtype=torch.float).to(device)actions = torch.tensor(actions).view(-1, 1).to(device)'''- 将 states 输入 policy 网络，得到每个状态下所有动作的概率分布，假设输出形状为 (batch_size, action_dim)；- 使用 .gather(1, actions.long()) 从概率分布中取出对应专家动作的概率（注意动作需要转换为长整型索引）；- 对这些概率取对数，得到对数概率（log likelihood）。'''log_probs = torch.log(self.policy(states).gather(1, actions.long()))# log_probs = torch.log(self.policy(states).gather(1, actions))'''计算行为克隆的损失，即负对数似然损失。对所有样本的负对数概率取均值。'''bc_loss = torch.mean(-log_probs)  # 最大似然估计self.optimizer.zero_grad()bc_loss.backward()self.optimizer.step()def take_action(self, state):if isinstance(state, tuple):state = state[0]state = torch.tensor([state], dtype=torch.float).to(device)probs = self.policy(state)action_dist = torch.distributions.Categorical(probs)action = action_dist.sample()return action.item()def test_agent(agent, env, n_episode):return_list = []for episode in range(n_episode):episode_return = 0state = env.reset()done = Falsewhile not done:action = agent.take_action(state)result = env.step(action)if len(result) == 5:next_state, reward, done, truncated, info = resultdone = done or truncated  # 可合并 terminated 和 truncated 标志else:next_state, reward, done, info = result# next_state, reward, done, _ = env.step(action)state = next_stateepisode_return += rewardreturn_list.append(episode_return)return np.mean(return_list)if not hasattr(env, 'seed'):def seed_fn(self, seed=None):env.reset(seed=seed)return [seed]env.seed = seed_fn.__get__(env, type(env))
# env.seed(0)
torch.manual_seed(0)
np.random.seed(0)lr = 1e-3
bc_agent = BehaviorClone(state_dim, hidden_dim, action_dim, lr)
n_iterations = 1000
batch_size = 64
test_returns = []with tqdm(total=n_iterations, desc="进度条") as pbar:for i in range(n_iterations):sample_indices = np.random.randint(low=0, high=expert_s.shape[0], size=batch_size)bc_agent.learn(expert_s[sample_indices], expert_a[sample_indices])current_return = test_agent(bc_agent, env, 5)test_returns.append(current_return)if (i + 1) % 10 == 0:pbar.set_postfix({'return': '%.3f' % np.mean(test_returns[-10:])})pbar.update(1)iteration_list = list(range(len(test_returns)))
plt.plot(iteration_list, test_returns)
plt.xlabel('Iterations')
plt.ylabel('Returns')
plt.title('BC on {}'.format(env_name))
plt.show()class Discriminator(nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super(Discriminator, self).__init__()self.fc1 = torch.nn.Linear(state_dim + action_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, 1)def forward(self, x, a):cat = torch.cat([x, a], dim=1)x = F.relu(self.fc1(cat))return torch.sigmoid(self.fc2(x))class GAIL:def __init__(self, agent, state_dim, action_dim, hidden_dim, lr_d):print(state_dim, action_dim, hidden_dim)self.discriminator = Discriminator(state_dim, hidden_dim, action_dim).to(device)self.discriminator_optimizer = torch.optim.Adam(self.discriminator.parameters(), lr=lr_d)self.agent = agentdef learn(self, expert_s, expert_a, agent_s, agent_a, next_s, dones):expert_states = torch.tensor(expert_s, dtype=torch.float).to(device)expert_actions = torch.tensor(expert_a).to(device)processed_state = []for s in agent_s:if isinstance(s, tuple):# 如果元素是元组，则取元组的第一个元素processed_state.append(s[0])else:processed_state.append(s)agent_states = torch.tensor(processed_state, dtype=torch.float).to(device)agent_actions = torch.tensor(agent_a).to(device)'''作用：将专家动作转换为 one-hot 编码形式，转换为浮点数。'''expert_actions = F.one_hot(expert_actions.long(), num_classes=2).float()agent_actions = F.one_hot(agent_actions.long(), num_classes=2).float()expert_prob = self.discriminator(expert_states, expert_actions)agent_prob = self.discriminator(agent_states, agent_actions)'''作用：计算二元交叉熵损失（BCE）：- 对 agent 数据，目标标签设为 1（即希望判别器认为 agent 数据为“真”），损失为 BCE(agent_prob, 1)；- 对专家数据，目标标签设为 0（希望判别器认为专家数据为“假”），损失为 BCE(expert_prob, 0)。- 然后将两部分损失相加。'''discriminator_loss = nn.BCELoss()(agent_prob, torch.ones_like(agent_prob)) + nn.BCELoss()(expert_prob, torch.zeros_like(expert_prob))self.discriminator_optimizer.zero_grad()discriminator_loss.backward()self.discriminator_optimizer.step()'''作用：利用判别器对 agent 数据输出计算奖励：- 计算 –log(agent_prob) 作为奖励信号（当 agent_prob 较小时，奖励较高，鼓励 agent 模仿专家）；- detach() 阻断梯度，转移到 CPU 并转换为 numpy 数组，方便后续传入 agent.update。'''rewards = -torch.log(agent_prob).detach().cpu().numpy()transition_dict = {'states': agent_s,'actions': agent_a,'rewards': rewards,'next_states': next_s,'dones': dones}self.agent.update(transition_dict)if not hasattr(env, 'seed'):def seed_fn(self, seed=None):env.reset(seed=seed)return [seed]env.seed = seed_fn.__get__(env, type(env))
# env.seed(0)
torch.manual_seed(0)
lr_d = 1e-3
agent = PPO(state_dim, hidden_dim, action_dim, actor_lr, critic_lr, lmbda, epochs, eps, gamma, device)
gail = GAIL(agent, state_dim, action_dim, hidden_dim, lr_d)
n_episode = 500
return_list = []with tqdm(total=n_episode, desc="进度条") as pbar:for i in range(n_episode):episode_return = 0state = env.reset()done = Falsestate_list = []action_list = []next_state_list = []done_list = []while not done:action = agent.take_action(state)result = env.step(action)if len(result) == 5:next_state, reward, done, truncated, info = resultdone = done or truncated  # 可合并 terminated 和 truncated 标志else:next_state, reward, done, info = result# next_state, reward, done, _ = env.step(action)state_list.append(state)action_list.append(action)next_state_list.append(next_state)done_list.append(done)state = next_stateepisode_return += rewardreturn_list.append(episode_return)gail.learn(expert_s, expert_a, state_list, action_list, next_state_list, done_list)if (i + 1) % 10 == 0:pbar.set_postfix({'return': '%.3f' % np.mean(return_list[-10:])})pbar.update(1)    iteration_list = list(range(len(return_list)))
plt.plot(iteration_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('GAIL on {}'.format(env_name))
plt.show()

基于“动手学强化学习”的知识点（二）：第 15 章模仿学习（gym版本＞= 0.26）

第 15 章模仿学习（gym版本 ＞ 0.26） 摘要摘要本系列知识点讲解基于动手学强化学习中的内容进行详细的疑难点分析！具体内容请阅读动手学强化学习！ 对应动手学强化学习——模仿学习 # -*- coding: utf-8 -*-import gy…...

编程日记 2026/2/23 14:48:22

2025-03-17 Unity 网络基础1——网络基本概念

文章目录 1 网络1.1 局域网1.2 以太网1.3 城域网1.4 广域网1.5 互联网（因特网）1.6 万维网1.7 小结 2 IP 地址2.1 IP 地址2.2 端口号2.3 Mac 地址2.4 小结 3 客户端与服务端3.1 客户端3.2 服务端3.3 网络游戏中的客户端与服务端 1 网络在没有网络之前…...

编程日记 2026/2/25 5:14:12

springboot441-基于SpringBoot的校园自助交易系统(源码+数据库+纯前后端分离+部署讲解等)

💕💕作者： 爱笑学姐 💕💕个人简介：十年Java，Python美女程序员一枚，精通计算机专业前后端各类框架。 💕💕各类成品Java毕设。javaweb，ssm&#xf…...

编程日记 2026/3/7 5:21:25

浅谈数据分析及数据思维

目录一、数据分析及数据分析思维？1.1 数据分析的本质1.2 数据分析思维的本质1.2.1 拥有数据思维的具体表现1.2.2 如何培养自己的数据思维1.2.2.1 书籍1.2.2.2 借助工具1.2.2.3 刻意练习二、数据分析的价值及必备能力？2.1 数据分析的价值2.1.1 现状分析…...

编程日记 2026/3/5 2:09:38

Hexo主题配置and常用指令

Hexo 主题配置步骤安装Hexo： 安装Node.js和Git。使用npm安装Hexo CLI：npm install -g hexo-cli。创建新的Hexo项目： 执行命令：hexo init <folder>，其中<folder>是你的项目目录名。进入项目文件夹&#…...

编程日记 2026/2/13 20:14:02

自定义uniapp组件，以picker组件为例

编写目的本文说明基于vue3定义uniapp组件的关键点： 1、一般定义在components文件夹创建组件，组件与页面已经没有明确的语法格式区别，所以可以与页面的语法保持一致 ； 2、组件定义后使用该组件的页面不需要引用组件即可使用&am…...

编程日记 2026/3/6 2:23:30

测试工程师指南：基于需求文档构建本地安全知识库的完整实战

需求文档是测试工程师日常工作的核心工具，如何快速检索需求文档中的关键信息（文本、表格、图片等），并将其转化为可供 AI 查询的知识库，是提升工作效率的重要手段。本文将通过对需求文档（docx 格式&#xf…...

编程日记 2025/6/19 20:12:47

IP关联的定义和避免方法

大家好！今天我们来聊一聊一个在运营多个网络账号时会遇到的重要问题——IP关联。对于那些正在运营多个账号或者进行多窗口任务的朋友们，这无疑是一个你必须关注的问题。IP关联，简单来说，就是多个账号在使用相同IP地址的情况下进行…...

编程日记 2026/2/27 11:53:12

浅述WinForm 和 WPF 的前景

在.NET 开发领域，WinForm 和 WPF 都是用于创建桌面应用程序的技术框架，但它们在很多方面存在差异，对于开发者来说，也常常会思考哪个更有前途。一、WinForm 1. 成熟/稳定度： WinForms 是较早的桌面应用程序框架&am…...

编程日记 2026/2/16 2:56:19

CSS3学习教程，从入门到精通，CSS3 属性语法知识点及案例代码（4）

CSS3 属性语法知识点及案例代码一、CSS3 文本属性 1. 颜色相关属性 color：设置文本颜色。text-shadow：设置文本阴影。 2. 字体相关属性 font-family：设置字体系列。font-size：设置字体大小。font-weight：设置字体…...

编程日记 2026/2/21 5:06:17

MyBatis SqlSession 是如何创建的？它与 SqlSessionFactory 有什么关系？

SqlSession 是 MyBatis 中与数据库交互的核心接口，它提供了执行 SQL 语句、管理事务、获取 Mapper 接口代理对象等关键功能。 SqlSession 实例不是直接通过 new 关键字创建的，而是通过 SqlSessionFactory 工厂来创建的。 SqlSessionFactory 负责创建 Sq…...

编程日记 2026/2/27 13:18:03

【操作系统安全】任务4：Windows 系统网络安全实践里常用 DOS 命令

目录一、引言二、网络信息收集类命令 2.1 ipconfig 命令 2.1.1 功能概述 2.1.2 实例与代码 2.2 ping 命令 2.2.1 功能概述 2.2.2 实例与代码 2.3 tracert 命令 2.3.1 功能概述 2.3.2 实例与代码三、网络连接与端口管理类命令 3.1 netstat 命令 3.1.1 功能概述…...

编程日记 2026/2/25 2:35:42

Vue 概念、历史、发展和Vue简介

一、Vue概念官方定义： 渐进式JavaScript 框架，易学易用，性能出色，适用场景丰富的 Web 前端框架。 Vue.js 是一个流行的前端JavaScript框架，由尤雨溪（Evan You）开发并维护。它最初于2014年发…...

编程日记 2026/2/14 22:01:00

【从零开始学习计算机科学】信息安全（二）物理安全

【从零开始学习计算机科学】信息安全（二）物理安全物理安全物理安全的涵义物理安全威胁常见物理安全问题物理安全需求规划物理安全需求设备安全防盗和防毁机房门禁系统机房入侵检测和报警系统防电磁泄漏防窃听设备管理设备维护设备的处置和重复利用设备的转移电源安全电源调整…...

编程日记 2026/3/1 0:22:12

LeetCode hot 100—验证二叉搜索树

题目给你一个二叉树的根节点 root ，判断其是否是一个有效的二叉搜索树。有效二叉搜索树定义如下： 节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。示例示例 1&#…...

编程日记 2026/3/6 7:23:47

【商城实战(39)】Spring Boot 携手微服务，商城架构焕新篇

【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用 uniapp、Element Plus、SpringBoot 搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配&#xf…...

编程日记 2026/2/27 12:57:50

MongoDB 可观测性最佳实践

MongoDB 介绍 MongoDB 是一个高性能、开源的 NoSQL 数据库，它采用灵活的文档数据模型，非常适合处理大规模的分布式数据。MongoDB 的文档存储方式使得数据结构可以随需求变化而变化，提供了极高的灵活性。它支持丰富的查询语言，允许…...

编程日记 2026/3/1 7:24:11

论文阅读笔记——LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

LoRA 论文传统全面微调，对每个任务学习的参数与原始模型相同： m a x Φ ∑ ( x , y ) ∈ Z ∑ t 1 ∣ y ∣ l o g ( P Φ ( y t ∣ x , y < t ) ) 式(1) max_{\Phi}\sum_{(x,y)\in Z}\sum^{|y|}_{t1}log(P_{\Phi}(y_t|x,y<t)) \qquad \text{式(…...

编程日记 2026/3/3 6:01:44

UE5中 Character、PlayerController、PlayerState、GameMode和GameState核心类之间的联动和分工·

1. GameMode 与 GameState 关系描述 GameMode：定义游戏规则和逻辑，控制游戏的开始、进行和结束。GameState：存储和同步全局游戏状态，如得分、时间、胜利条件等。联动方式 GameMode初始化GameState：GameMode在游戏…...

编程日记 2026/3/7 0:27:17

Redis的IO多路复用机制：高效的网络通信设计

在高并发、高性能的应用中，如何有效地管理和处理大量的客户端请求是一个至关重要的问题。Redis作为一个高性能的内存数据存储系统，面对大量并发客户端请求时，需要具备良好的网络通信能力。在Redis的设计中，IO多路复用机制是其核心…...

编程日记 2026/2/16 12:12:15

Ubuntu24.04 启动后突然进入tty，无法进入图形界面

问题描述昨晚在编译 Android AOSP 14 后，进入了登录页面，但出现了无法输入密码的情况，且无法正常关机，只能强制重启。重启后，系统只能进入 TTY 页面，无法进入图形界面。问题排查经过初步排查&#x…...

编程日记 2026/3/6 20:40:55

搭建主从服务器

任务需求客户端通过访问 www.nihao.com 后，能够通过 dns 域名解析，访问到 nginx 服务中由 nfs 共享的首页文件，内容为：Very good, you have successfully set up the system. 各个主机能够实现时间同步，并且都开启防…...

编程日记 2026/3/6 10:03:47

jenkins 配置邮件问题整理

版本：Jenkins 2.492.1 插件： A.jenkins自带的， B.安装功能强大的插件配置流程： 1. jenkins->系统配置->Jenkins Location 此处的”系统管理员邮件地址“，是配置之后发件人的email。 2.配置系统自带的邮件A…...

编程日记 2026/3/2 4:57:40

Scala语言的计算机基础

Scala语言的计算机基础计算机科学是一门极具挑战性和创造力的学科，其中编程语言是连接人类与计算机的桥梁。Scala（特指可扩展语言）作为一种现代编程语言，其设计初衷是为了简化软件开发过程，并结合了面向对象和函数式…...

编程日记 2026/2/15 14:53:14

1. 数据库配置 js import { Sequelize, DataTypes } from sequelize; // 创建一个 Sequelize 实例，连接到 SQLite 数据库。 export const sequelize new Sequelize(test, sa, "123456", { host: localhost, dialect: sqlite, storage: ./blog.db })…...

编程日记 2026/2/23 7:33:58

JVM中常量池和运行时常量池、字符串常量池三者之间的关系

文章目录前言常量池（Constant Pool）运行时常量池（Runtime Constant Pool）字符串常量池（String Literal Pool）运行时常量池和字符串常量池位置变化方法区与永久代和元空间的关系三者之间的关系常量池与运行…...

编程日记 2026/3/6 22:25:40

KV 缓存简介

以下是关于 KV缓存（Key-Value Cache） 的简介，涵盖其定义、原理、作用及优化意义： 1. 什么是KV缓存？ KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成&…...

编程日记 2026/3/5 20:27:29

Mysql篇——SQL优化

本篇将带领各位了解一些常见的sql优化方法，学到就是赚到，一起跟着练习吧~ SQL优化准备工作准备的话我们肯定是需要一张表的，什么表都可以，这里先给出我的表结构（表名：userinfo） 通过sql查看…...

编程日记 2026/3/6 23:18:51

算法基础 -- ARM 体系架构设计专家的算法提升目标

算法提升目标:ARM 体系架构设计专家 1. 位运算优化相关 ARM 知识点：SIMD、NEON、SVE、低功耗优化、加密计算、数据压缩推荐题目： 136. 只出现一次的数字（异或运算）190. 颠倒二进制位（位反转，ARM rbit…...

编程日记 2026/2/27 15:32:17

不同开发语言对字符串的操作

一、字符串的访问 Objective-C: 使用 characterAtIndex: 方法访问字符。 NSString *str "Hello, World!"; unichar character [str characterAtIndex:0]; // 访问第一个字符 H NSLog("%C", character); // 输出: H NSString 内部存储的是 UTF-16 编…...

编程日记 2026/2/16 12:21:55

基于“动手学强化学习”的知识点（二）：第 15 章模仿学习（gym版本＞= 0.26）

第 15 章模仿学习（gym版本＞= 0.26）

摘要

相关文章：

基于“动手学强化学习”的知识点（二）：第 15 章模仿学习（gym版本＞= 0.26）

2025-03-17 Unity 网络基础1——网络基本概念

springboot441-基于SpringBoot的校园自助交易系统(源码+数据库+纯前后端分离+部署讲解等)

浅谈数据分析及数据思维

Hexo主题配置and常用指令

自定义uniapp组件，以picker组件为例

测试工程师指南：基于需求文档构建本地安全知识库的完整实战

IP关联的定义和避免方法

浅述WinForm 和 WPF 的前景

CSS3学习教程，从入门到精通，CSS3 属性语法知识点及案例代码（4）

MyBatis SqlSession 是如何创建的？它与 SqlSessionFactory 有什么关系？

【操作系统安全】任务4：Windows 系统网络安全实践里常用 DOS 命令

Vue 概念、历史、发展和Vue简介

【从零开始学习计算机科学】信息安全（二）物理安全

LeetCode hot 100—验证二叉搜索树

【商城实战(39)】Spring Boot 携手微服务，商城架构焕新篇

MongoDB 可观测性最佳实践

论文阅读笔记——LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

UE5中 Character、PlayerController、PlayerState、GameMode和GameState核心类之间的联动和分工·

Redis的IO多路复用机制：高效的网络通信设计

Ubuntu24.04 启动后突然进入tty，无法进入图形界面

搭建主从服务器

jenkins 配置邮件问题整理

Scala语言的计算机基础

定义模型生成数据表

JVM中常量池和运行时常量池、字符串常量池三者之间的关系

KV 缓存简介

Mysql篇——SQL优化

算法基础 -- ARM 体系架构设计专家的算法提升目标

不同开发语言对字符串的操作

第 15 章 模仿学习（gym版本 ＞= 0.26）

摘要

相关文章：

第 15 章模仿学习（gym版本＞= 0.26）