【博客之星】2024年度个人成长、强化学习算法领域总结
📢在2025年初,非常荣幸能通过审核进入到《2024年度CSDN博客之星总评选》TOP300的年度评选中,排名40。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在CSDN中走过的路,也对这一年来在👉强化学习领域的相关算法和内容进行总结。
【博客之星】2024年度个人成长、强化学习算法领域总结
目录
一、2024这一年的回顾
1.发文数量
2.文章数据
3.博客数据
4.博客成就
5.博客之星评选
二、2024年度强化学习算法总结
1.强化学习的核心改进
2.强化学习的跨领域应用
3.技术集成与生态系统
4.未来展望
5.总结
三、文末愿景
一、2024这一年的回顾
1.发文数量
在这一年的创作中,共发布94篇文章,其中强化学习算法相关文章发布了65篇,将其分为了六个专栏,主要关注于单智能体强化学习算法、多智能体强化学习算法。


在强化学习文章的基础上,总结了强化学习相关算法,建立了GitCode算法库,希望在未来打造成最完备的强化学习算法库,也得到了GitCode官方的支持:
- 单智能体强化学习算法库
- 多智能体强化学习算法库

2.文章数据
强化学习算法相关文章是这个系列的主要文章,得益于大家的支持,每篇文章基本都得到了2000+的阅读量、100+的点赞、评论、收藏。

很多文章也进入了热榜,也十分有幸多次上了综合热榜、领域内容榜(结构与算法、人工智能),多次斩获第一No.1


3.博客数据
截至目前为止,访问量突破了百万大关,博客总排名也进入了前1000名,获得了2W粉丝的支持,感谢这一年来大家的关照。

文章的点赞达到了9420次,内容获得了10620次评论、10865次收藏、代码片获得了7732次分享。

4.博客成就
2024年是十分值得纪念的一年,在这一年中,通过对嵌入式领域、人工智能领域、通信领域的文章的发布,成为了人工智能领域优质创作者;随后时间,通过对强化学习算法系列文章的发布,以成为了 CSDN博客专家。之后扩展到了其他社区,也取得了一定成就,如成为了华为云享专家等。


博客也多次成为了创作者周榜第一No.1,从长沙周榜第一转移到了上海市周榜第一。


5.博客之星评选
今年也是很有幸成功入围2024年博客之星,创作影响力排名榜总分490(满分500),排名第40名。往年只是看着各位大佬互相发招,今年很荣幸获得这个机会,能够和各位大佬互相交流,让我受益匪浅。也希望在接下里的评选中能够得到大家的支持,感谢,感谢!!!
二、2024年度强化学习算法总结
2024年,强化学习(Reinforcement Learning, RL)领域取得了显著的进展,其研究热点涵盖了理论创新、实际应用和技术集成。本文从强化学习的核心改进、跨领域应用以及未来趋势展望等方面,为您通俗解读这一年的重要成果。
1.强化学习的核心改进
-
高效性与稳定性的新突破
- 样本效率:通过结合模型学习(Model-based RL)和基于信任区域优化(TRPO、PPO)的改进,样本效率显著提高,尤其在少样本场景下的性能更为突出。
- 探索机制优化:引入基于智能记忆的探索策略(如Memory Augmented Exploration),使得探索过程更加智能化,减少冗余。
- 长期依赖建模:Transformer架构被广泛用于捕捉复杂任务中的长时依赖关系。
-
离线强化学习的迅速发展
离线RL(Offline RL)技术通过整合大规模的历史数据进行策略优化,突破了传统RL对实时环境交互的依赖。2024年,结合生成对抗网络(GAN)和自监督学习(Self-Supervised Learning)的离线RL算法在医疗、自动驾驶等领域大显身手。
-
多智能体系统的强化学习
多智能体RL(Multi-Agent RL)取得了新的突破,尤其是在多智能体协作与博弈的场景中。结合博弈论的平衡点算法(如Nash-DQN)和通信增强技术,使得智能体之间的协作更加高效。
2.强化学习的跨领域应用
-
工业与工程优化
- 强化学习被用于物流调度、供应链优化等实际问题,显著提高了资源利用率。特斯拉和亚马逊的物流机器人项目广泛采用基于RL的动态路径规划算法。
- 制造业中,RL用于设备维护预测和流程优化,减少了非计划性停机时间。
-
医疗与健康管理
- 在医疗领域,RL被用于个性化治疗方案的推荐,例如癌症治疗中的动态剂量调整。
- 基于RL的健康管理模型通过预测用户行为和健康风险,优化个性化的健康干预措施。
-
游戏与内容生成
- AlphaZero框架的改进被用于游戏AI开发,展现出超越人类的策略水平。
- RL还被用于生成艺术内容和增强虚拟现实体验,为游戏和影视行业注入了新活力。
3.技术集成与生态系统
强化学习与大模型的融合
2024年,强化学习与大规模语言模型(如GPT-4.5)的结合成为研究热点。这种融合实现了从语言到动作的无缝连接,为人机交互、机器人导航等场景带来更多可能。
提出了新型RLHF(Reinforcement Learning with Human Feedback)技术,优化模型输出质量,同时增强用户体验。
强化学习与图神经网络的协同
强化学习与图神经网络(GNN)的结合在大规模网络优化(如社交网络分析、通信网络优化)中表现突出。这种协同方式极大地扩展了RL的应用边界。
4.未来展望
-
更高的样本效率与鲁棒性
未来的强化学习将继续聚焦于提高样本效率和策略的鲁棒性,探索如何在更复杂的环境中实现快速收敛。 -
伦理与安全性问题
随着RL在实际应用中的广泛部署,其安全性和伦理问题日益凸显。未来需要更全面的约束机制和验证方法。 -
普及与工具化
RL工具包的不断完善(如RLlib和TensorFlow Agents),让更多开发者能够快速上手,并将其应用于真实场景。
5.总结
2024年,强化学习领域经历了理论与实践的双重飞跃,其在智能系统开发、生产优化和人类福祉提升方面发挥了重要作用。展望未来,随着技术的持续突破和生态的逐步完善,强化学习将为更多行业赋能,推动智能化社会的加速到来。
三、文末愿景
在最后,作为一名耕耘在算法领域的研究生程序猿,我想用一个经典算法作为2024年的总结,它能够通过结合来时的路与展望终点的路,为我提供一个优质的前进路径。如果我能够规划好未来,或许未来的我能够走向一条次优路径,甚至是走向人生的最优路径。
"""
项目:A*算法代码作者:不去幼儿园时间:2025年1月19日"""
import heapq
import numpy as np
import math
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'SimHei' # Windows系统常用中文字体def heuristic_func(node, goal):# 将当前节点和目标节点组合为一个状态输入神经网络# value = np.linalg.norm(np.array(node) - np.array(goal)) # 欧式距离value = sum(map(lambda x, y: math.fabs(x - y), node, goal)) # 曼哈顿距离return valuedef reconstruct_path(came_from, current):# 从目标节点倒推到起点,返回完整路径path = [current]while current in came_from:current = came_from[current]path.append(current)path.reverse() # 翻转路径使其从起点到终点return pathdef Astar(env, start, goal, function_flag=False):# 初始化开启列表,用优先队列存储待处理节点open_list = []open_list_ = []close_list = []close_list_ = []heapq.heappush(open_list, (0, start)) # 优先级为 f_score,节点为 startopen_list_.append(start)came_from = {} # 记录每个节点的上一个节点g_score = {start: 0} # 记录从起点到当前节点的实际代价f_score = {start: heuristic_func(start, goal) + g_score[start]} # 初始总代价transition_cost = 1 # 状态转移代价GAMA = 0.5step_num = 0while open_list:step_num += 1# 从优先队列中取出代价最低的节点current_tuple = heapq.heappop(open_list)current = current_tuple[1]open_list_.remove(current)close_list.append(current_tuple)close_list_.append(current)if current == goal:# 找到目标,重建路径并返回return reconstruct_path(came_from, current), step_num# 遍历当前节点的所有邻居for neighbor, cost in env.get_neighbors(current, transition_cost):tentative_g_score = g_score.get(current, float('inf')) + cost # 计算临时的 g_scoreif neighbor in close_list_:continueif neighbor not in open_list_:# 如果从当前节点到邻居的路径更短,更新路径信息came_from[neighbor] = currentg_score[neighbor] = tentative_g_score# 计算邻居的 f_score 并加入优先队列f_score[neighbor] = GAMA*tentative_g_score + (1-GAMA)*heuristic_func(neighbor, goal)# if (f_score[neighbor], neighbor) not in open_list:open_list_.append(neighbor)heapq.heappush(open_list, (f_score[neighbor], neighbor))else:if tentative_g_score < g_score.get(neighbor, float('inf')):# 如果从当前节点到邻居的路径更短,更新路径信息came_from[neighbor] = currentg_score[neighbor] = tentative_g_score# 计算邻居的 f_score 并加入优先队列f_score[neighbor] = GAMA * tentative_g_score + (1 - GAMA) * heuristic_func(neighbor, goal)# if (f_score[neighbor], neighbor) not in open_list:open_list_.append(neighbor)heapq.heappush(open_list, (f_score[neighbor], neighbor))return None, step_num # 没有找到路径
在这新的2025年中,也祝愿阅读这篇文章的你们都能找到属于自己人生的最优路径。
所愿皆所得,所念皆所愿,所期皆所念,所念皆星河。
人生之路幸福美满,不留遗憾。
相关文章:
【博客之星】2024年度个人成长、强化学习算法领域总结
📢在2025年初,非常荣幸能通过审核进入到《2024年度CSDN博客之星总评选》TOP300的年度评选中,排名40。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在CSDN中走过…...
HTML5 Canvas实现的跨年烟花源代码
以下是一份基于HTML5 Canvas实现的跨年烟花源代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml">…...
使用通用预训练范式为 3D 基础模型铺平道路
大家读完觉得有帮助记得关注和点赞!!!,本次是英文需要英文功底扎实的阅读。 Abstract In contrast to numerous NLP and 2D vision foundational models, learning a 3D foundational model poses considerably greater challenge…...
SpringMVC (2)
目录 1. RequestMapping 注解介绍 2. RequestMapping 使用 3. RequestMapping与请求方式 3.1 RequestMapping 支持Get和Post类型的请求 3.2 RequestMapping 指定接收某种请求 3.3 GetMapping和PostMapping 4. 传参 4.1 通过查询字符串传参 4.2 在 Body 中传参 4.2.1 …...
【Vim Masterclass 笔记16】S07L32 + L33:同步练习09 —— 掌握 Vim 宏操作的六个典型案例(含点评课内容)
文章目录 S07L32 Exercise 09 - Macros1 训练目标2 操作指令2.1. 打开 macros-practice.txt 文件2.2. 练习1:将旧版 Python 代码转换为新版写法2.3. 练习2:根据列表内容批量创建 Shell 脚本2.4. 练习3:对电话号码作格式化处理2.5. 练习4&…...
爬楼梯问题(Leetcode 第70题)
爬楼梯问题(Leetcode 第70题) 问题描述 假设你正在爬楼梯。每次你可以爬 1 个或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。…...
6.5 正定矩阵
一、正定矩阵 这一节关注的是特征值都是正数的对称矩阵。如果对称使得矩阵很重要,那么这个额外的性质(所有的 λ > 0 \lambda>0 λ>0)会使得它更加的特殊。我们所说的特殊并不表示它稀有,特征值都是正数的对称矩阵几乎…...
verilog笔记1
1. 阻塞赋值 阻塞赋值,顾名思义即在一个 always 块中,后面的语句会受到前语句的影响,具体来说就是在同一个always 中,一条阻塞赋值语句如果没有执行结束,那么该语句后面的语句就不能被执行,即被“阻塞”。也…...
游戏引擎学习第81天
仓库:https://gitee.com/mrxiao_com/2d_game_2 或许我们应该尝试在地面上添加一些绘图 在这段时间的工作中,讨论了如何改进地面渲染的问题。虽然之前并没有专注于渲染部分,因为当时主要的工作重心不在这里,但在实现过程中,发现地…...
git系列之revert回滚
1. Git 使用cherry-pick“摘樱桃” step 1: 本地切到远程分支,对齐要对齐的base分支,举例子 localmap git pull git reset --hard localmap 对应的commit idstep 2: 执行cherry-pick命令 git cherry-pick abc123这样就会将远程…...
监控与调试:性能优化的利器 — ShardingSphere
在分布式数据库系统中,监控和调试是确保系统高效运行的关键。ShardingSphere 提供了多种监控和调试工具,帮助开发者实时跟踪和优化性能,识别瓶颈,进行故障排查,从而提升系统的稳定性和响应速度。本文将介绍如何使用 Sh…...
LLVM - 编译器前端 - 理解BNF(巴科斯-诺尔范式)
一:概述 BNF(Backus-Naur Form,巴科斯-诺尔范式)是一种用于描述上下文无关文法的形式语言,广泛应用于定义编程语言、协议和文件格式的语法规则。 下面是一小段类Pascal编程语言,这个编程语言就可以用BNF描述。用BNF描述编程语言的语法规则之后,就可以根据这个规则生成抽…...
服务化架构 IM 系统之应用 MQ
在微服务化系统中,存在三个最核心的组件,分别是 RPC、注册中心和MQ。 在前面的两篇文章(见《服务化架构 IM 系统之应用 RPC》和《服务化架构 IM 系统之应用注册中心》)中,我们站在应用的视角分析了普适性的 RPC 和 注…...
ELF2开发板(飞凌嵌入式)基本使用的搭建
ELF2开发板(飞凌嵌入式) 开箱包裹内容 打开包装,你可以看到以下物品 一个绿联的usb3.0读卡器、sandisk的32g内存卡(太好了)rk3588 4g32g emmc版本ELF2开发板输出为12v 3A的电源适配器(和ipad的充电器外观好像) 图1 外…...
Appium(四)
一、app页面元素定位 1、通过id定位元素: resrouce-id2、通过ClassName定位:classname3、通过AccessibilityId定位:content-desc4、通过AndroidUiAutomator定位5、通过xpath定位xpath、id、class、accessibility id、android uiautomatorUI AutomatorUI自…...
简单的sql注入 buuctf
lovesql 这道题是一个非常简单的sql注入 也就是万能密码 我们只需要注意在输入用户名的地方使用 ’ 将语句提前终止 并且or一个为真的条件 这样整个语句的结果就为真 这就是万能密码的原理 这样我们就得到了密码 然后我们发现这只是密码 于是查看一下字段数 尝试下注入 这里我…...
Ubuntu 24.04 LTS 空闲硬盘挂载到 文件管理器的 other locations
Ubuntu 24.04 LTS 确认硬盘是否被识别 使用 lsblk 查看信息,其中sda这个盘是我找不到的,途中是挂在好的。 分区和格式化硬盘 如果新硬盘没有分区,你需要先分区并格式化它。假设新硬盘为 /dev/sdb,使用 fdisk 或 parted 对硬盘…...
<电子幽灵>开发笔记:BAT基础笔记(一)
BAT脚本基础笔记(一) 介绍 费曼学习法最重要的部分,即把知识教给一个完全不懂的孩子——或者小白。 为了更好的自我学习,也为了让第一次接触某个知识范畴的同学快速入门,我会把我的学习笔记整理成电子幽灵系列。 提示:作为低代码…...
PiliPalaX ( 第三方安卓哔哩哔哩)
PiliPalaX 是一款哔哩哔哩第三方客户端。使用 Flutter 开发,基于PiliPala原版基础上创作出来的X升级版,目前支持Android、IOS客户端。 应用特色 目前着重移动端(Android、iOS)和Pad端,暂时没有适配桌面端、手表端等 https://pan.quark.cn/s/…...
在亚马逊云科技上高效蒸馏低成本、高精度的Llama 3.1 405B模型(上篇)
在2024年的亚马逊云科技re:Invent全球云计算春晚里,亚马逊云科技CEO - Matt Garman介绍了亚马逊云科技的AI模型托管平台Amazon Bedrock上的模型蒸馏服务Model Distillation,令小李哥印象十分深刻。该功能可自动化地为特定场景的知识创建一个蒸馏模型。它…...
Phi-3-mini-4k-instruct-gguf代码实例:curl调用/health接口与Python集成示例
Phi-3-mini-4k-instruct-gguf代码实例:curl调用/health接口与Python集成示例 1. 模型简介 Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本,特别适合问答、文本改写、摘要整理和简短创作等场景。这个经过优化的版本可以直接…...
Stable Diffusion v1.5 保姆级部署教程:5分钟搞定AI绘画,新手零基础入门
Stable Diffusion v1.5 保姆级部署教程:5分钟搞定AI绘画,新手零基础入门 1. 前言:为什么选择Stable Diffusion v1.5 Stable Diffusion v1.5作为AI图像生成领域的重要里程碑,至今仍是许多开发者和创作者的首选工具。这个版本在保…...
Z-Image-Turbo-rinaiqiao-huiyewunv 结合STM32:嵌入式设备上的轻量级AI视觉原型
Z-Image-Turbo-rinaiqiao-huiyewunv 结合STM32:嵌入式设备上的轻量级AI视觉原型 1. 引言 你有没有想过,给一块小小的单片机装上“眼睛”,让它能看懂周围的世界?比如,让一个智能花盆识别植物是否缺水,或者…...
Unity小白也能搞定的原神桌宠:从PMX模型到可拖拽交互的完整实现(附避坑点)
Unity小白也能搞定的原神桌宠:从PMX模型到可拖拽交互的完整实现(附避坑点) 1. 准备工作与环境搭建 作为一个Unity初学者,想要制作一个原神风格的桌宠,首先需要准备好必要的工具和环境。这个过程可能会让新手感到有些迷…...
协同进化新范式:CMPSO如何通过分而治之破解多目标优化难题
1. 多目标优化的经典困境:当目标开始"打架" 想象你正在设计一款新能源汽车,既要续航里程长(目标1),又要制造成本低(目标2),还得保证百公里加速快(目标3&#x…...
模型轻量化×实时编码×语义理解,SITS2026三大原生能力全解析,企业音视频升级路径已不可逆
第一章:SITS2026分享:AI原生音视频处理 2026奇点智能技术大会(https://ml-summit.org) AI原生音视频处理正从“AI辅助”迈向“AI驱动”的范式跃迁——模型不再仅作为后处理模块嵌入传统管线,而是从采集、编码、传输到渲染的全链路深度耦合。…...
Ubuntu 配置 Claude Code + MiniMax融
先唠两句:参数就像餐厅点单 把API想象成一家餐厅的“后厨系统”。 ? 路径参数/dishes/{dish_id} -> 好比你要点“宫保鸡丁”这道具体的菜,它是菜单(资源路径)的一部分。查询参数/dishes?spicytrue&typeSichuan -> 好比…...
Unity集成Nano-Banana生成模型:游戏开发中的动态资源创建
Unity集成Nano-Banana生成模型:游戏开发中的动态资源创建 最近,游戏开发圈里有个话题挺火的:如何让游戏内容自己“长”出来?想象一下,你的游戏世界能根据玩家的行为,实时生成独一无二的建筑、角色甚至道具…...
Phi-4-reasoning-vision-15B效果展示:手机短信截图→关键信息(时间/金额/对象)精准抽取
Phi-4-reasoning-vision-15B效果展示:手机短信截图→关键信息(时间/金额/对象)精准抽取 1. 模型能力概览 Phi-4-reasoning-vision-15B是微软推出的视觉多模态推理模型,专门针对图像理解和信息提取任务进行了优化。这个模型最令人…...
13.将手写 Agent 主流程迁移为 LangGraph 最小闭环,并接回 FastAPI + session 外壳
目 录前 言开始动手项目结构重构数据State化函数Node化串起Node形成Graph收尾前 言 咱们前面的代码是通过手写Agent工作流程,实现了一个论文RAG问答系统,但是在实际生产环境中不会用这种纯手写工作逻辑项目,更多的是使用现有框架比如LangGra…...
