当前位置：首页 > news >正文

【代码发布】Quantlab4.3：lightGBM应用于全球大类资产的多因子智能策略（代码+数据）

news 2026/2/9 17:01:59

原创文章第566篇，专注“AI量化投资、世界运行的规律、个人成长与财富自由"。

昨天，Quantlab整合Alpha158因子集，为机器学习大类资产配置策略做准备（代码+数据），我们完成了因子集构建，并尝试给数据做了预处理。

今天我们开始引入机器学习——树模型，以lightGBM为主。

代码已经发布。

今天，需要先 pip install lightgbm。

之前我们有分享过类似的文章：

Quantlab3.3代码发布：全新引擎 | 静态花开：年化13.9%，回撤小于15% | lightGBM实现排序学习

今天我们要把lightgbm应用于全球大类资产配置的排序上。

LightGBM 是由微软开发的一个开源机器学习库，它基于决策树算法，特别适用于处理大规模数据集。LightGBM 的核心优势在于其高性能、低内存消耗和高准确率，这些特点使得它在多个领域，包括量化投资，都非常受欢迎。

处理大规模数据：量化投资经常涉及到处理大量的历史交易数据和其他市场数据。LightGBM 能够有效地处理这些数据，并从中学习。
快速模型训练：量化策略需要快速迭代和测试。LightGBM 的训练速度使得研究人员能够快速评估不同策略的效果。
模型解释性：虽然不是 LightGBM 的主要优势，但决策树模型的可解释性可以帮助量化分析师理解模型的决策过程，这对于合规性和策略调整非常重要。

lightGBM有sklearn的接口：

加载内置的房价数据，做回归分析：

"""第三方库导入"""
from lightgbm import LGBMRegressor
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import r2_score, mean_squared_errorfrom sklearn.datasets import fetch_california_housing
data = fetch_california_housing()
"""训练集 验证集构建"""
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2,random_state=42)
"""模型训练"""
model = LGBMRegressor()
model.fit(X_train, y_train)def calc_metrics(model, X, y):y_pred = model.predict(X)mse = mean_squared_error(y, y_pred)r2 = r2_score(y, y_pred)print('r2：',r2,'mse：',mse)print('训练集：')
calc_metrics(model, X_train, y_train)
print("测试集")
calc_metrics(model, X_test, y_test)

训练集和测试集，在默认参数下，均获得不错的拟合：

模型调参，调参后训练集r2达到0.94，测试集也提升至0.85

调参代码如下：

def adj_params():"""模型调参"""params = {'n_estimators': [100, 200, 300, 400],# 'learning_rate': [0.01, 0.03, 0.05, 0.1],'max_depth': [5, 8, 10, 12]}other_params = {'learning_rate': 0.1, 'seed': 42}model_adj = LGBMRegressor(**other_params)# sklearn提供的调参工具，训练集k折交叉验证(消除数据切分产生数据分布不均匀的影响)optimized_param = GridSearchCV(estimator=model_adj, param_grid=params, scoring='r2', cv=5, verbose=1)# 模型训练optimized_param.fit(X_train, y_train)# 对应参数的k折交叉验证平均得分means = optimized_param.cv_results_['mean_test_score']params = optimized_param.cv_results_['params']for mean, param in zip(means, params):print("mean_score: %f,  params: %r" % (mean, param))# 最佳模型参数print('参数的最佳取值：{0}'.format(optimized_param.best_params_))# 最佳参数模型得分print('最佳模型得分:{0}'.format(optimized_param.best_score_))

代码在如下位置：

我们来代入大类资产的因子数据，由于量化投资，使用的价量数据是时序数据，因些不能按照train_test_split这样随机划分，我们需要按时间分成两段。

def train(self, train_func):df = self.dfsplit_date = self.split_datedf_train = df.loc[:split_date]df_val = df.loc[split_date:]fields, names = self.alpha.get_fields_names()train_func(df_train, df_val, feature_cols=names)

总体训练代码如下：

symbols = ['CL',  # 原油'^TNX',  # 美十年期国债'GOLD',  # 黄金'^NDX',  # 纳指100'000300.SH',  # 沪深300'000905.SH',  # 中证500'399006.SZ',  # 创业板指数'000012.SH',  # 国债指数'000832.SH',  # 中证转债指数'HSI',  # 香港恒生'N225',  # 日经225'GDAXI'  # 德国DAX指数
]
m = ModelTrainer(symbols=symbols, alpha=Alpha158())
from models.lightgbm_models import trainm.train(train_func=train)

在未进行数据预处理时，容易出现过拟合的情况：

代码在如下位置：

历史文章：

Quantlab整合Alpha158因子集，为机器学习大类资产配置策略做准备（代码+数据）

【研报复现】年化27.1%，人工智能多因子大类资产配置策略之benchmark

AI量化实验室——2024量化投资的星辰大海

【代码发布】Quantlab4.3：lightGBM应用于全球大类资产的多因子智能策略（代码+数据）

原创文章第566篇，专注“AI量化投资、世界运行的规律、个人成长与财富自由"。昨天，Quantlab整合Alpha158因子集，为机器学习大类资产配置策略做准备（代码数据），我们完成了因子集构建，并尝试…...

编程日记 2024/6/21 15:05:30

【毕业设计】Django 校园二手交易平台（有源码＋mysql数据）

此项目有完整实现源码，有需要请联系博主 Django 校园二手交易平台开发项目项目选择动机本项目旨在开发一个基于Django的校园二手交易平台，为大学生提供一个安全便捷的二手物品买卖平台。该平台将提供用户注册和认证、物品发布和搜索、交易信息管理等…...

编程日记 2024/6/21 15:02:27

文章自动生成器，在线AI写作工具

随着人工智能AI技术的发展，AI技术被应用到越来越多的场景。对于需要创作内容的同学来说，AI写作-文章内容自动生成器是一个非常好的辅助工具。AI写作工具可以提升我们的创作效率，快速的生成文章，然后在根据需求进行调整修改即可。下…...

编程日记 2024/6/21 15:00:24

Matlab初识：什么是Matlab？它的历史、发展和应用领域

目录一、什么是Matlab？ 二、Matlab的历史与发展三、Matlab的应用领域四、安装和启动Matlab 五、界面介绍六、第一个Matlab程序七、总结一、什么是Matlab？ Matlab 是由 MathWorks 公司开发的一款用于数值计算、可视化以及编程的高级技术计算…...

编程日记 2024/6/21 14:59:23

大模型之-Seq2Seq介绍

大模型之-Seq2Seq介绍 1. Seq2Seq 模型概述 Seq2Seq（Sequence to Sequence）模型是一种用于处理序列数据的深度学习模型，常用于机器翻译、文本摘要和对话系统等任务。它的核心思想是将一个输入序列转换成一个输出序列。 Seq2Seq模型由两个主…...

编程日记 2024/6/21 14:57:20

NSSCTF-Web题目12

目录 [SWPUCTF 2021 新生赛]finalrce 1、题目 2、知识点 3、思路 [UUCTF 2022 新生赛]ez_rce 1、题目 2、知识点 3、思路 [羊城杯 2020]easycon 1、题目 2、知识点 3、思路 [SWPUCTF 2021 新生赛]finalrce 1、题目 2、知识点命令执行，tee命令 3、思路…...

编程日记 2024/6/21 14:53:13

22、架构-资源与调度

1、资源与调度调度是容器编排系统最核心的功能之一，“编排”一词本身便包含“调度”的含义。调度是指为新创建的Pod找到一个最恰当的宿主机节点来运行它，这个过程成功与否、结果恰当与否，关键取决于容器编排系统是如何管理与分配集群节点…...

编程日记 2024/6/21 14:52:11

mac 常用工具命令集合

Iterm2 Command T：新建标签 Command W：关闭当前标签 Command ← →：在标签之间切换 Control U：清除当前行 Control A：跳转到行首 Control E：跳转到行尾 Command F：查找 Command …...

编程日记 2024/6/21 14:51:10

服务器雪崩的应对策略之----限流

限流是一种控制流量的技术，旨在防止系统在高并发请求下被压垮。通过限流，可以确保系统在负载高峰期依然能保持稳定运行。常见的限流策略包括令牌桶算法、漏桶算法、计数器算法和滑动窗口算法。常见的限流方法 1. 令牌桶算法 (Token Bucket Algorithm)2…...

编程日记 2024/6/21 14:50:08

Python12 列表推导式

1.什么是列表推导式 Python的列表推导式（list comprehension）是一种简洁的构建列表（list）的方法，它可以从一个现有的列表中根据某种指定的规则快速创建一个新列表。这种方法不仅代码更加简洁，执行效率也很…...

编程日记 2024/6/21 14:47:04

效果场景中有三个立方体,三种颜色.点击变成红色,再点恢复自身原有颜色代码 import ./style.css import * as THREE from three import { OrbitControls } from three/examples/jsm/controls/OrbitControls.js import { log } from three/examples/jsm/nodes/Nodes.js//…...

编程日记 2024/6/21 14:46:03

Ubuntu 20.04安装显卡驱动、CUDA和cuDNN（2024.06最新）

一、安装显卡驱动 1.1 查看显卡型号 lspci | grep -i nvidia我们发现输出的信息中有Device 2230，可以根据这个信息查询显卡型号查询网址：https://admin.pci-ids.ucw.cz/mods/PC/10de?actionhelp?helppci 输入后点击Jump查询我们发现显卡型号为RTX …...

编程日记 2024/6/21 14:45:02

二叉树的这五种遍历方法你们都会了吗？

说在前面 🎈二叉树大家应该都很熟了吧，那二叉树的这五种遍历方式你们都会了吗？ 以这一二叉树为例子，我们来看看不同遍历方式返回的结果都是怎样的。前序遍历前序遍历的顺序是：首先访问根节点，然后递归地…...

编程日记 2024/6/21 14:42:59

使用模数转换器的比例电阻测量基础知识

A/D 转换器是比率式的，也就是说，它们的结果与输入电压与参考电压的比值成正比。这可用于简化电阻测量。测量电阻的标准方法是让电流通过电阻并测量其压降 （见图 1）。然后，欧姆定律(V I x R) 可用于计算电压和电流的…...

编程日记 2024/6/21 14:41:57

(C++语言的设计和演化) C++的设计理念

文章目录前言📖C 语言设计规则📐规则和原理📐一般性规则📐设计支持规则📐语言的技术性规则📐低级程序设计支持规则 📖标准化（扩充评判准则）📐它精确吗&#…...

编程日记 2024/6/21 14:40:56

AI音乐：创新引擎还是创意终结者？

✨作者主页： Mr.Zwq✔️个人简介：一个正在努力学技术的Python领域创作者，擅长爬虫，逆向，全栈方向，专注基础和实战分享，欢迎咨询！ 您的点赞、关注、收藏、评论，是对我最大…...

编程日记 2024/6/21 14:39:54

20240621每日后端---------如何优化项目中的10000个if-else 语句？

如何优化 10000 个 if-else 语句？有没有好的解决方案？ 额，本身问题就很奇怪，怎么可能有这种代码。。。世界你让我陌生，但是我们还是假象着看看能不能解决一下。解决方案1：策略模式使用策略模式确实可以…...

编程日记 2024/6/21 14:38:53

【STM32】时钟树系统

1.时钟树简介 1.1五个时钟源 LSI是低速内部时钟，RC振荡器，频率为32kHz左右。供独立看门狗和自动唤醒单元使用。 LSE是低速外部时钟，接频率为32.768kHz的石英晶体。这个主要是RTC的时钟源。 HSE是高速外部时钟，可接石英*/陶瓷谐振…...

编程日记 2024/6/21 14:37:52

docker换源

文章目录前言1. 查找可用的镜像源2. 配置 Docker 镜像源3. 重启 Docker 服务4. 查看dock info是否修改成功5. 验证镜像源是否更换成功注意事项前言在pull镜像时遇到如下报错： ┌──(root㉿kali)-[/home/longl] └─# docker pull hello-world Using default …...

编程日记 2024/6/21 14:36:50

百度在线分销商城小程序源码系统分销+会员组+新用户福利前后端分离带完整的安装代码包以及搭建部署教程

系统概述百度在线分销商城小程序源码系统是一款集分销、会员组管理和新用户福利于一体的前后端分离的系统。它采用先进的技术架构，确保系统的稳定性、高效性和安全性。该系统的前端基于小程序开发，为用户提供了便捷的购物体验和交互界面。用户可以通过…...

编程日记 2024/6/21 14:35:49

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目：3442. 奇偶频次间的最大差值 I 思路 ：哈希，时间复杂度0(n)。用哈希表来记录每个字符串中字符的分布情况，哈希表这里用数组即可实现。 C版本： class Solution { public:int maxDifference(string s) {int a[26]…...

编程新知 2026/2/7 23:18:31

《Qt C++ 与 OpenCV：解锁视频播放程序设计的奥秘》

引言：探索视频播放程序设计之旅在当今数字化时代，多媒体应用已渗透到我们生活的方方面面，从日常的视频娱乐到专业的视频监控、视频会议系统，视频播放程序作为多媒体应用的核心组成部分，扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上，用户都期望…...

编程新知 2026/2/7 13:17:38

.Net框架，除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

编程新知 2026/2/1 19:26:16

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/12/5 20:57:13

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中，部分节点存储的数据量或访问量远高于其他节点，导致这些节点负载过高，影响整体性能。数据倾斜的主要表现部分节点内存使用率远高于其他节…...

编程新知 2026/1/27 19:28:11

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2026/2/4 18:09:49

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/12/3 10:52:37

C# 表达式和运算符(求值顺序)

求值顺序表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生变化。例如，已知表达式3*52，依照子表达式的求值顺序，有两种可能的结果，如图9-3所示。如果乘法先执行，结果是17。如果5…...

编程新知 2026/1/31 13:13:28

Vue3中的computer和watch

computed的写法在页面中 <div>{{ calcNumber }}</div>script中写法1 常用 import { computed, ref } from vue; let price ref(100);const priceAdd () > { //函数方法 price 1price.value ; }//计算属性 let calcNumber computed(() > {return ${p…...

编程新知 2025/11/8 20:34:42

GAN模式奔溃的探讨论文综述（一）

简介简介：今天带来一篇关于GAN的，对于模式奔溃的一个探讨的一个问题，帮助大家更好的解决训练中遇到的一个难题。论文题目：An in-depth review and analysis of mode collapse in GAN 期刊：Machine Learning 链接：...

编程新知 2026/2/8 17:40:01

【代码发布】Quantlab4.3：lightGBM应用于全球大类资产的多因子智能策略（代码+数据）

相关文章：

【代码发布】Quantlab4.3：lightGBM应用于全球大类资产的多因子智能策略（代码+数据）

【毕业设计】Django 校园二手交易平台（有源码＋mysql数据）

文章自动生成器，在线AI写作工具

Matlab初识：什么是Matlab？它的历史、发展和应用领域

大模型之-Seq2Seq介绍

NSSCTF-Web题目12

22、架构-资源与调度

mac 常用工具命令集合

服务器雪崩的应对策略之----限流

Python12 列表推导式

threejs 光影投射-与场景进行交互(六)

Ubuntu 20.04安装显卡驱动、CUDA和cuDNN（2024.06最新）

二叉树的这五种遍历方法你们都会了吗？

使用模数转换器的比例电阻测量基础知识

(C++语言的设计和演化) C++的设计理念

AI音乐：创新引擎还是创意终结者？

20240621每日后端---------如何优化项目中的10000个if-else 语句？

【STM32】时钟树系统

docker换源

百度在线分销商城小程序源码系统分销+会员组+新用户福利前后端分离带完整的安装代码包以及搭建部署教程

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

《Qt C++ 与 OpenCV：解锁视频播放程序设计的奥秘》

.Net框架，除了EF还有很多很多......

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Redis数据倾斜问题解决

如何理解 IP 数据报中的 TTL？

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

C# 表达式和运算符(求值顺序)

Vue3中的computer和watch

GAN模式奔溃的探讨论文综述（一）