基于金融新闻的大型语言模型强化学习在投资组合管理中的应用
“Financial News-Driven LLM Reinforcement Learning for Portfolio Management”
论文地址:https://arxiv.org/pdf/2411.11059
摘要
本研究探索了如何通过将大语言模型(LLM)支持的情感分析融入强化学习(RL)中,以实现金融交易动态策略的优化。针对苹果公司股票(AAPL)和ING Corporate Leaders Trust Series B基金(LEXCX)的投资组合进行了实验验证。结果显示,加入了情感分析的RL模型在资产净值和累计收益方面均表现更优。尤其是在基金投资组合测试中,该增强模型的表现也超过了采用买入并持有策略的LEXCX。这些发现表明,引入定性市场情绪指标能够提升决策效率,有助于缩小纯量化与质化金融交易策略间的差异。
简介
强化学习(RL)在金融交易领域日益受到关注,因其能够通过序列决策优化交易策略,但在考量如市场情绪等定性因素方面存在不足。本研究致力于通过将情感分析与RL相结合来弥补这一局限,运用大型语言模型(LLMs)从金融新闻中提取情感信息,并将其转化为适合RL模型处理的结构化数据。目的在于验证情感分析可以提升RL算法在交易和投资组合管理中的效能。首先开发了一个基于苹果公司(AAPL)股票的基线RL交易算法,并与集成了情感输入的版本进行了对比分析。接着,研究扩展到包含ING Corporate Leaders Trust Series B(LEXCX)在内的多元化投资组合,比较了结合情感分析的RL模型相对于传统RL模型以及原始LEXCX投资组合的表现差异。
01相关研究
强化学习(RL)在金融交易中展现出强大的能力,特别适用于动态市场条件下的策略优化,并已在单一股票交易和多元化投资组合管理方面取得了成功。诸如深度Q学习和策略梯度等方法已被用于模拟实际交易环境,但这些方法大多仅依赖于价格和成交量数据,未能充分利用市场信号和情绪变化。通过量化来自新闻、社交媒体及分析师报告中的情绪信息,情绪分析可以增强交易策略的有效性,有助于预测短期价格波动并反映市场波动性。利用GPT和BERT等大型语言模型(LLMs),情绪分析的准确性得到了显著提升,能够有效提取与金融相关的特定情境下的情绪信息。然而,目前在学术文献中鲜有研究将基于LLM的情绪分析整合进RL模型中应用于投资组合管理。本研究旨在填补这一研究空白,探索如何通过情绪分析提升RL模型在投资决策中的表现。
02方法
交易强化学习算法
算法目标:
强化学习(RL)交易算法旨在平衡灵活性、优化奖励和控制交易成本,以模拟真实的交易决策过程。
环境兼容性:
使用自定义环境设计,与OpenAI Gym兼容。该环境明确区分了动作空间和观察空间。
动作空间定义:
- 动作类型:采用0到2的标量表示,其中小于1代表买入操作,1至2之间为卖出操作,等于1则是持有。
- 动作量:通过一个0到0.5的标量来指定,表示交易的比例。
- 动态调整机制:一旦选定动作,算法根据当前账户余额和持股情况计算买卖数量,以此动态调整市场暴露度。
奖励结构组成:
- 利润奖励:基于账户余额的变化给予奖励,鼓励盈利行为。
- 稳定性惩罚:为了维持账户余额的稳定,减少波动带来的风险。
- 交易成本惩罚:模拟实际交易中的费用,抑制不必要的频繁交易。
这种综合奖励结构的设计,促进了算法代理学习到既能实现盈利又注重稳定,并且能最小化成本的负责任交易策略。
结合情感分析
将情感分析整合进强化学习算法中,让交易代理能够考量市场情绪,从而增强决策过程中的定性分析层面。情感数据源自金融新闻,并被量化为[-1,1]区间内的数值,然后与传统金融指标一同纳入观察空间。根据情感分数调整交易行为:正面情绪促使买入量增加,负面情绪则使卖出量上升,调整幅度为情感分数的0.1倍。此外,奖励函数也进行了相应调整,新增了情感对齐奖励,如果市场情绪与价格变动趋势一致,代理将获得额外奖励;而在市场高波动期间,这种奖励会相应减少。此机制鼓励代理在受情绪驱动的市场环境中执行与当前情绪相符的交易策略,以提升盈利能力和对市场情绪的敏感度。
项目组合管理的扩展
算法应用扩展:
强化学习(RL)算法被扩展应用于投资组合管理,需同时考虑个别资产的情绪状态和市场整体条件,以优化整个投资组合的净值。
观察空间设计:
采用矩阵形式。
内容:
- 价格数据:包括每项资产最近五个时间步的开盘价、最高价、最低价、收盘价及成交量,并经过归一化处理。
- 账户信息:涵盖当前持仓量、账户余额及成本基础。
- 情绪数据:每个股票的情绪评分,范围在[-1,1]之间。
动作空间操作:
- 动作值域设定为0到2,允许对每个资产独立执行“买入”或“卖出”操作。
- 情绪数据影响决策过程,正面情绪增加买入倾向,负面情绪则促使卖出量增大。
奖励函数组成:
- 主要奖励:基于投资组合净值的变化情况给予奖励。
- 情绪一致性奖励:鼓励与情绪信号及价格趋势一致的交易行为,增强投资决策的准确性。
- 波动性调整:在市场高波动期间,减少情绪因素的影响权重,以应对不确定性。
目标导向:
多部分奖励结构旨在促进最大化投资组合净值的同时,考虑到情绪分析带来的洞察力以及实际交易中的成本考量。这种方法确保了不仅追求收益最大化,还能有效管理风险。
03实验
数据预处理
数据预处理阶段涉及收集定量股市数据和定性情绪数据,应用于苹果公司(AAPL)单只股票交易及ING Corporate Leaders Trust Series B(LEXCX)的投资组合交易。对于AAPL的交易模型,获取了其历史日交易数据,包括开盘价、最高价、最低价、收盘价及成交量;而针对LEXCX的投资组合则收集了该基金内各股票的相关数据。所有数据通过Yahoo Finance API从2023年11月16日到2024年11月10日间被收集,并分别保存为独立的CSV文件。此外,利用Finnhub API获取每日相关新闻,并借助OpenAI的大型语言模型生成每日情绪评分,这些评分被分类为五种情绪类别:极度负面、负面、中性、正面和极度正面。之后,将价格数据与每日情绪评分依据日期进行合并,任何缺失的情绪值使用中性评分填补,最终形成供强化学习(RL)模型使用的输入数据集。此数据集整合了定量的价格信息与定性的情绪分析,从而增强了RL代理对市场的响应能力和决策质量。
实验设计
实验设计旨在评估强化学习(RL)代理在模拟股票交易环境中的表现,通过两种设置进行测试:单一股票交易模型(以苹果公司AAPL为样本)和包含情感分析的投资组合交易模型(基于ING Corporate Leaders Trust Series B,即LEXCX)。成功标准包括考察净值、账户余额以及多轮次累计利润,并对比了整合情感分析前后的效果差异。在投资组合实验中,将结果与实际LEXCX投资组合的表现进行了基线比较,两者使用相同的初始投资额。此外,研究还评估了RL算法相对于传统的买入并持有策略,在整体上的有效性。这种方法不仅验证了RL算法的优化能力,还展示了情感分析对提升交易决策质量的潜在价值。
个股投资实验
创建了一个基于OpenAI Gym的自定义环境,用于模拟苹果公司(AAPL)股票的交易情境,目标是最大化净资产。初始化过程中,该环境加载了AAPL的历史日交易数据,观察空间涵盖了开盘价、最高价、最低价、收盘价及成交量,还包括账户余额、成本基础和净资产等信息。动作空间设计为二维连续形式,允许代理选择买入、卖出或持有操作,并确定交易的数量,以便灵活调整投资规模。
奖励机制旨在鼓励盈利同时保持稳定,不仅考虑净资产的增长,还对过度波动进行惩罚,并在每次交易时收取小额费用以抑制高频交易行为。模型采用了近端策略优化(PPO)算法进行训练,历经20,000个时间步,评估阶段则包括100个回合,每回合持续2,000个时间步,期间记录最终净资产、账户余额和累计利润,通过计算平均表现来衡量模型的稳健性。这种方法确保了模型不仅能追求高收益,还能有效管理风险。
投资组合实验
实验将单一股票交易扩展到多元化投资组合,重点放在ING Corporate Leaders Trust Series B (LEXCX)上,并整合了情感分析。环境设置使得RL代理能够对LEXCX中的每只股票独立执行买入、持有或卖出操作,观察空间包括每只股票过去五天的交易数据以及账户相关的指标。RL代理能够访问包含价格和情绪信息的观察空间,其行动空间允许针对每只股票进行灵活操作,并依据市场状况及情绪变化动态调整持仓。
奖励机制旨在促进投资组合的稳定增长,减少不必要的频繁交易,并通过额外奖励来鼓励当情绪与实际价格趋势一致时的操作。为了评估RL代理相对于被动投资策略的优势,实验设置了基准比较,通过对比LEXCX组合的实际表现,评价主动管理带来的增值潜力。RL模型利用近端策略优化(PPO)进行训练,共经历20,000个时间步,随后在100个回合中进行评估,每个回合持续2,000个时间步,期间收集关键绩效指标以检验策略的有效性和适应性。这种方法不仅验证了策略的潜在收益,还展示了其在不同市场条件下的灵活性和响应能力。
结果
实验结果分为两大部分:一是针对单一股票(苹果公司AAPL)的交易实验,二是基于投资组合(ING Corporate Leaders Trust Series B)的交易实验。在每一部分中,均对比分析了未整合情感数据的RL模型与整合了情感数据的增强型RL模型。评估的关键指标涵盖了净值、累计利润及余额,并在多个回合和时间步上进行了考察。在投资组合实验环节,还特别将RL模型的表现与LEXCX投资组合的实际表现进行了对比分析。通过可视化手段展示了这些模型适应市场动态变化的能力,以及利用情感数据优化决策过程的有效性。这一方法不仅突显了情感分析在提升交易策略方面的潜力,也验证了模型在不同场景下的实际应用效果。
个股投资
无情感分析的RL模型在100个评估回合中,平均净值达到了$10,825.41,平均利润为10,825.41,平均利润为$825.41,这表明其在单一股票交易中的有效性。该模型在单一回合内的净值、余额和利润表现稳定,体现了资本的有效利用。此外,无情感分析的RL代理的净值和利润分布较为集中,显示了其决策的稳健性和可靠性。
加入情感分析后,RL模型的平均净值提升至$11,259.51,平均利润为$1,259.51,显示出利用定性数据的优势。情感增强型RL代理不仅在单个回合中表现更加出色,而且能够更精准地与市场情绪同步,从而实现更高的累计收益。值得注意的是,情感增强型RL代理的净值和利润分布中位数显著提高,进一步证实了情感数据在优化交易策略方面的价值。
表1总结了三种场景下的平均利润和净值,显示出RL代理在整合情感数据后的优越表现。
投资组合
无情感分析的RL模型在100个评估回合中,平均净值为$13,952.29,平均利润为$3,952.29,表现稳定。在单个回合内,该模型能够持续增加净值,并维持稳定的账户余额和累计利润。通过观察净值和利润的箱形图可以发现,所有评估回合中的中位数与平均值相当接近,进一步证实了其稳定性。
加入情感数据的RL模型平均净值为$14,201.94,平均利润为$4,201.94,显示出情感数据的价值。情感增强型RL模型在单个回合内的表现更为突出,显示出更强的盈利能力。其净值和利润分布不仅中位数更高,而且表明利用情感数据有助于优化交易决策。与实际的LEXCX投资组合相比,RL代理的表现更加优越,尤其是情感增强型模型,展现了其在动态投资管理方面的潜力。
表2总结了三种场景下的平均利润和净值,强调RL代理的优越表现。
04讨论
强化学习(RL)在金融交易领域表现卓越,尤其是在结合了情感分析的情况下,能够显著改善交易成效。针对苹果公司(AAPL)的单股实验显示,RL代理在应对市场变化时表现稳定,而情感分析进一步提升了其平均净值和利润。在投资组合实验中,情感增强型RL模型的表现超越了实际的LEXCX投资组合,体现了主动管理策略的优势。通过整合定量与定性数据,情感增强型RL模型能更精准地捕捉市场趋势并适应变动。
研究揭示了市场情绪对资产价格及其波动的影响,表明情感数据有助于RL代理理解更广泛的市场动态。尽管初步结果令人鼓舞,但实验主要基于历史数据,并未完全模拟真实市场的复杂条件。未来的研究需要考虑如滑点和交易成本等因素。目前的情感分析依赖于综合情感评分,后续可以探索更为精细的情感提取技术。此外,未来的工作还可以将研究扩展到更大、更多样化的投资组合上,以验证情感驱动交易策略的广泛适用性和有效性。
05总结
本研究探索了强化学习(RL)在金融交易中的应用,分别通过苹果公司(AAPL)单股和ING Corporate Leaders Trust Series B(LEXCX)投资组合进行实验。研究发现,当整合金融新闻中的情感分析时,RL模型的交易表现显著优于仅使用定量数据的模型,证明了定性市场信号的重要性。
在针对AAPL的实验中,情感增强型RL模型实现了更高的净值和累计利润,展示了情感数据在提升交易准确性方面的价值。而在投资组合实验里,情感增强型模型不仅超越了不含情感分析的RL模型,还超过了实际的LEXCX投资组合,体现了其适应性和盈利能力。特别是结合了情感分析的RL代理,持续展现出超越被动投资策略的能力,显示了动态管理投资组合的巨大潜力。
研究指出了未来工作的几个方向,包括改进当前依赖于聚合新闻数据的情感分析,建议引入实时社交媒体的情感分析来丰富数据源。此外,未来的探索还可以集中在超参数优化、迁移学习以及评估模型在不同市场周期中的稳定性。本研究强调了将RL与情感分析结合在金融交易中的变革性潜力,为投资者提供了优化交易策略的强大工具。
相关文章:

基于金融新闻的大型语言模型强化学习在投资组合管理中的应用
“Financial News-Driven LLM Reinforcement Learning for Portfolio Management” 论文地址:https://arxiv.org/pdf/2411.11059 摘要 本研究探索了如何通过将大语言模型(LLM)支持的情感分析融入强化学习(RL)中&#…...

脚本运行禁止:npm 无法加载文件,因为在此系统上禁止运行脚本
问题与处理策略 1、问题描述 npm install -D tailwindcss执行上述指令,报如下错误 npm : 无法加载文件 D:\nodejs\npm.ps1,因为在此系统上禁止运行脚本。 有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_…...

借DeepSeek-R1东风,开启创业新机遇
DeepSeek-R1的崛起 DeepSeek-R1的推出引发了广泛关注,在AI领域引起了一阵旋风。作为新一代的智能模型,它在多项任务中表现出了卓越的能力。普通人可以借助这个强大的工具,开启属于自己的创业之路,抓住时代带来的机遇。 内容创作…...

C# lock使用详解
总目录 前言 在 C# 多线程编程中,lock 关键字是一种非常重要的同步机制,用于确保同一时间只有一个线程可以访问特定的代码块,从而避免多个线程同时操作共享资源时可能出现的数据竞争和不一致问题。以下是关于 lock 关键字的详细使用介绍。 一…...

简易CPU设计入门:控制总线的剩余信号(四)
项目代码下载 请大家首先准备好本项目所用的源代码。如果已经下载了,那就不用重复下载了。如果还没有下载,那么,请大家点击下方链接,来了解下载本项目的CPU源代码的方法。 CSDN文章:下载本项目代码 上述链接为本项目…...

使用 lock4j-redis-template-spring-boot-starter 实现 Redis 分布式锁
在分布式系统中,多个服务实例可能同时访问和修改共享资源,从而导致数据不一致的问题。为了解决这个问题,分布式锁成为了关键技术之一。本文将介绍如何使用 lock4j-redis-template-spring-boot-starter 来实现 Redis 分布式锁,从而…...

22_解析XML配置文件_List列表
解析XML文件 需要先 1.【加载XML文件】 而 【加载XML】文件有两种方式 【第一种 —— 使用Unity资源系统加载文件】 TextAsset xml Resources.Load<TextAsset>(filePath); XmlDocument doc new XmlDocument(); doc.LoadXml(xml.text); 【第二种 —— 在C#文件IO…...

编译器gcc/g++ --【Linux基础开发工具】
文章目录 一、背景知识二、gcc编译选项1、预处理(进行宏替换)2、编译(生成汇编)3、汇编(生成机器可识别代码)4、链接(生成可执行文件或库文件) 三、动态链接和静态链接四、静态库和动态库1、动静态库2、编译…...

58.界面参数传递给Command C#例子 WPF例子
界面参数的传递,界面参数是如何从前台传送到后台的。 param 参数是从界面传递到命令的。这个过程通常涉及以下几个步骤: 数据绑定:界面元素(如按钮)的 Command 属性绑定到视图模型中的 RelayCommand 实例。同时&#x…...

games101-(5/6)
光栅化 投影完成之后,视图区域被确定在从[-1,1]的单位矩阵中,下一步就是光栅化 长宽比:ratio 垂直的可视角度:fild-of-view 可以看到的y 轴的范围,角度越小 越接近正交投影 屏幕坐标系 、 将多边形转化成像素 显示…...

人工智能在计算机视觉中的应用与创新发展研究
一、引言 1.1 研究背景与意义 1.1.1 研究背景 在当今数字化与智能化飞速发展的时代,人工智能已成为推动各领域变革的核心力量,而计算机视觉作为人工智能领域中极具活力与潜力的重要分支,正发挥着日益关键的作用。计算机视觉旨在赋予计算机…...

1-2 飞机大战游戏场景
前言: 根据前面的项目框架,搭建游戏的运行场景...... 1.0 框架预览 基于该框架首先实现游戏的运行场景 2.0 图片文件 创建图片文件,本次项目使用easyx作为图形库文件,在easyx中想要显示图片,需要有一张图片和图片的掩码…...

Mac Electron 应用签名(signature)和公证(notarization)
在MacOS 10.14.5之后,如果应用没有在苹果官方平台进行公证notarization(我们可以理解为安装包需要审核,来判断是否存在病毒),那么就不能被安装。当然现在很多人的解决方案都是使用sudo spctl --master-disable,取消验证模式&#…...

Sklearn 中的逻辑回归
逻辑回归的数学模型 基本模型 逻辑回归主要用于处理二分类问题。二分类问题对于模型的输出包含 0 和 1,是一个不连续的值。分类问题的结果一般不能由线性函数求出。这里就需要一个特别的函数来求解,这里引入一个新的函数 Sigmoid 函数,也成…...

【阅读笔记】New Edge Diected Interpolation,NEDI算法,待续
一、概述 由Li等提出的新的边缘指导插值(New Edge—Di-ected Interpolation,NEDI)算法是一种具有良好边缘保持效果的新算法,它利用低分辨率图像与高分辨率图像的局部协方差问的几何对偶性来对高分辨率图像进行自适应插值。 2001年Xin Li和M.T. Orchard…...

编程题-最长的回文子串(中等)
题目: 给你一个字符串 s,找到 s 中最长的回文子串。 示例 1: 输入:s "babad" 输出:"bab" 解释:"aba" 同样是符合题意的答案。示例 2: 输入:s &…...

Versal - 基础3(AXI NoC 专题+仿真+QoS)
目录 1. 简介 2. 示例 2.1 示例说明 2.2 创建项目 2.2.1 平台信息 2.2.2 AXI NoC Automation 2.2.3 创建时钟和复位 2.3 配置 NoC 2.4 配置 AXI Traffic 2.5 配置 Memory Size 2.6 Validate BD 2.7 添加观察信号 2.8 运行仿真 2.9 查看结果 2.9.1 整体波形 2.9…...

知识库建设对提升团队协作与创新能力的影响分析
内容概要 在当今快速变革的商业环境中,知识库建设的重要性愈发凸显。它不仅是信息存储的载体,更是推动组织内部沟通与协作的基石。通过系统整理与管理企业知识,团队成员能够便捷地访问相关信息,使得协作过程更为流畅,…...

Java 实现Excel转HTML、或HTML转Excel
Excel是一种电子表格格式,广泛用于数据处理和分析,而HTM则是一种用于创建网页的标记语言。虽然两者在用途上存在差异,但有时我们需要将数据从一种格式转换为另一种格式,以便更好地利用和展示数据。本文将介绍如何通过 Java 实现 E…...

stack 和 queue容器的介绍和使用
1.stack的介绍 1.1stack容器的介绍 stack容器的基本特征和功能我们在数据结构篇就已经详细介绍了,还不了解的uu, 可以移步去看这篇博客哟: 数据结构-栈数据结构-队列 简单回顾一下,重要的概念其实就是后进先出,栈在…...

云计算与虚拟化技术讲解视频分享
互联网各领域资料分享专区(不定期更新): Sheet 前言 由于内容较多,且不便于排版,为避免资源失效,请用手机点击链接进行保存,若链接生效请及时反馈,谢谢~ 正文 链接如下(为避免资源失效&#x…...

python flask 使用 redis写一个例子
下面是一个使用Flask和Redis的简单例子: from flask import Flask from redis import Redisapp Flask(__name__) redis Redis(hostlocalhost, port6379)app.route(/) def hello():# 写入到Redisredis.set(name, Flask Redis Example)# 从Redis中读取数据name re…...

深入解析 Linux 内核内存管理核心:mm/memory.c
在 Linux 内核的众多组件中,内存管理模块是系统性能和稳定性的关键。mm/memory.c 文件作为内存管理的核心实现,承载着页面故障处理、页面表管理、内存区域映射与取消映射等重要功能。本文将深入探讨 mm/memory.c 的设计思想、关键机制以及其在内核中的作用,帮助读者更好地理…...

跟我学C++中级篇——64位的处理
一、计算机的发展 计算机从二进制为基础开始描述整个世界,但正如现实世界一样,十进制为主的世界也会有万千百概念。所以在实际的应用中,会出现32位和64位的计算机系统。当然,前面还有过16位、8位和4位等,以后还可以会…...

指针的介绍2后
1.二级指针 1.1二级指针的介绍 二级指针是指向指针的指针 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h>int main() {int a 100;int* pa &a;int** ppa &pa;printf("a %d\n", a);printf("&a(pa) %p\n", pa);prin…...

Linux 学习笔记__Day3
十八、设置虚拟机的静态IP 1、VMware的三种网络模式 安装VMware Workstation Pro之后,会在Windows系统中虚拟出两个虚拟网卡,如下: VMware提供了三种网络模式,分别是:桥接模式(Bridged)、NAT…...

Ubuntu x64下交叉编译ffmpeg、sdl2到目标架构为aarch64架构的系统(生成ffmpeg、ffprobe、ffplay)
一、编译SDL2-2.0.9 (1), ./configure --prefix/home/z/Desktop/sdl2 --enable-sharedyes --enable-nasmno --enable-audiono --enable-ossno --enable-alsano --enable-alsa-sharedno --enable-pulseaudiono --enable-pulseaudio-sharedno …...

【时时三省】(C语言基础)文件的随机读写
山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 fseek 根据文件指针的位置和偏移量来定位文件指针 示例: 这个输出的就是ade seek_cur的意思是从当前偏移量 2就是从a往后偏移两个就是d 偏移量 SEEK_CUR…...

HPO3:提升模型性能的高效超参数优化工具
引言 在当今快速发展的数据科学和机器学习领域中,超参数优化(Hyperparameter Optimization, HPO)是构建高性能模型不可或缺的一环。为了简化这一复杂过程,恒通网络科技团队推出了HPO3模块——一个专为Python开发者设计的强大库&a…...

【Docker】Docker入门了解
文章目录 Docker 的核心概念Docker 常用命令示例:构建一个简单的 C 应用容器1. 创建 C 应用2. 创建 Dockerfile3. 构建镜像4. 运行容器 Docker 优势学习 Docker 的下一步 **一、Docker 是什么?****为什么 C 开发者需要 Docker?** **二、核心概…...