当前位置：首页 > news >正文

基于金融新闻的大型语言模型强化学习在投资组合管理中的应用

news 2026/5/16 16:50:15

“Financial News-Driven LLM Reinforcement Learning for Portfolio Management”

论文地址：https://arxiv.org/pdf/2411.11059

摘要

本研究探索了如何通过将大语言模型（LLM）支持的情感分析融入强化学习（RL）中，以实现金融交易动态策略的优化。针对苹果公司股票（AAPL）和ING Corporate Leaders Trust Series B基金（LEXCX）的投资组合进行了实验验证。结果显示，加入了情感分析的RL模型在资产净值和累计收益方面均表现更优。尤其是在基金投资组合测试中，该增强模型的表现也超过了采用买入并持有策略的LEXCX。这些发现表明，引入定性市场情绪指标能够提升决策效率，有助于缩小纯量化与质化金融交易策略间的差异。

简介

强化学习（RL）在金融交易领域日益受到关注，因其能够通过序列决策优化交易策略，但在考量如市场情绪等定性因素方面存在不足。本研究致力于通过将情感分析与RL相结合来弥补这一局限，运用大型语言模型（LLMs）从金融新闻中提取情感信息，并将其转化为适合RL模型处理的结构化数据。目的在于验证情感分析可以提升RL算法在交易和投资组合管理中的效能。首先开发了一个基于苹果公司（AAPL）股票的基线RL交易算法，并与集成了情感输入的版本进行了对比分析。接着，研究扩展到包含ING Corporate Leaders Trust Series B（LEXCX）在内的多元化投资组合，比较了结合情感分析的RL模型相对于传统RL模型以及原始LEXCX投资组合的表现差异。

01相关研究

强化学习（RL）在金融交易中展现出强大的能力，特别适用于动态市场条件下的策略优化，并已在单一股票交易和多元化投资组合管理方面取得了成功。诸如深度Q学习和策略梯度等方法已被用于模拟实际交易环境，但这些方法大多仅依赖于价格和成交量数据，未能充分利用市场信号和情绪变化。通过量化来自新闻、社交媒体及分析师报告中的情绪信息，情绪分析可以增强交易策略的有效性，有助于预测短期价格波动并反映市场波动性。利用GPT和BERT等大型语言模型（LLMs），情绪分析的准确性得到了显著提升，能够有效提取与金融相关的特定情境下的情绪信息。然而，目前在学术文献中鲜有研究将基于LLM的情绪分析整合进RL模型中应用于投资组合管理。本研究旨在填补这一研究空白，探索如何通过情绪分析提升RL模型在投资决策中的表现。

02方法

交易强化学习算法

算法目标：

强化学习（RL）交易算法旨在平衡灵活性、优化奖励和控制交易成本，以模拟真实的交易决策过程。

环境兼容性：

使用自定义环境设计，与OpenAI Gym兼容。该环境明确区分了动作空间和观察空间。

动作空间定义：

动作类型：采用0到2的标量表示，其中小于1代表买入操作，1至2之间为卖出操作，等于1则是持有。
动作量：通过一个0到0.5的标量来指定，表示交易的比例。
动态调整机制：一旦选定动作，算法根据当前账户余额和持股情况计算买卖数量，以此动态调整市场暴露度。

奖励结构组成：

利润奖励：基于账户余额的变化给予奖励，鼓励盈利行为。
稳定性惩罚：为了维持账户余额的稳定，减少波动带来的风险。
交易成本惩罚：模拟实际交易中的费用，抑制不必要的频繁交易。

这种综合奖励结构的设计，促进了算法代理学习到既能实现盈利又注重稳定，并且能最小化成本的负责任交易策略。

结合情感分析

将情感分析整合进强化学习算法中，让交易代理能够考量市场情绪，从而增强决策过程中的定性分析层面。情感数据源自金融新闻，并被量化为[-1,1]区间内的数值，然后与传统金融指标一同纳入观察空间。根据情感分数调整交易行为：正面情绪促使买入量增加，负面情绪则使卖出量上升，调整幅度为情感分数的0.1倍。此外，奖励函数也进行了相应调整，新增了情感对齐奖励，如果市场情绪与价格变动趋势一致，代理将获得额外奖励；而在市场高波动期间，这种奖励会相应减少。此机制鼓励代理在受情绪驱动的市场环境中执行与当前情绪相符的交易策略，以提升盈利能力和对市场情绪的敏感度。

项目组合管理的扩展

算法应用扩展：

强化学习（RL）算法被扩展应用于投资组合管理，需同时考虑个别资产的情绪状态和市场整体条件，以优化整个投资组合的净值。

观察空间设计：

采用矩阵形式。

内容：

价格数据：包括每项资产最近五个时间步的开盘价、最高价、最低价、收盘价及成交量，并经过归一化处理。
账户信息：涵盖当前持仓量、账户余额及成本基础。
情绪数据：每个股票的情绪评分，范围在[-1,1]之间。

动作空间操作：

动作值域设定为0到2，允许对每个资产独立执行“买入”或“卖出”操作。
情绪数据影响决策过程，正面情绪增加买入倾向，负面情绪则促使卖出量增大。

奖励函数组成：

主要奖励：基于投资组合净值的变化情况给予奖励。
情绪一致性奖励：鼓励与情绪信号及价格趋势一致的交易行为，增强投资决策的准确性。
波动性调整：在市场高波动期间，减少情绪因素的影响权重，以应对不确定性。

目标导向：

多部分奖励结构旨在促进最大化投资组合净值的同时，考虑到情绪分析带来的洞察力以及实际交易中的成本考量。这种方法确保了不仅追求收益最大化，还能有效管理风险。

03实验

数据预处理

数据预处理阶段涉及收集定量股市数据和定性情绪数据，应用于苹果公司（AAPL）单只股票交易及ING Corporate Leaders Trust Series B（LEXCX）的投资组合交易。对于AAPL的交易模型，获取了其历史日交易数据，包括开盘价、最高价、最低价、收盘价及成交量；而针对LEXCX的投资组合则收集了该基金内各股票的相关数据。所有数据通过Yahoo Finance API从2023年11月16日到2024年11月10日间被收集，并分别保存为独立的CSV文件。此外，利用Finnhub API获取每日相关新闻，并借助OpenAI的大型语言模型生成每日情绪评分，这些评分被分类为五种情绪类别：极度负面、负面、中性、正面和极度正面。之后，将价格数据与每日情绪评分依据日期进行合并，任何缺失的情绪值使用中性评分填补，最终形成供强化学习（RL）模型使用的输入数据集。此数据集整合了定量的价格信息与定性的情绪分析，从而增强了RL代理对市场的响应能力和决策质量。

实验设计

实验设计旨在评估强化学习（RL）代理在模拟股票交易环境中的表现，通过两种设置进行测试：单一股票交易模型（以苹果公司AAPL为样本）和包含情感分析的投资组合交易模型（基于ING Corporate Leaders Trust Series B，即LEXCX）。成功标准包括考察净值、账户余额以及多轮次累计利润，并对比了整合情感分析前后的效果差异。在投资组合实验中，将结果与实际LEXCX投资组合的表现进行了基线比较，两者使用相同的初始投资额。此外，研究还评估了RL算法相对于传统的买入并持有策略，在整体上的有效性。这种方法不仅验证了RL算法的优化能力，还展示了情感分析对提升交易决策质量的潜在价值。

个股投资实验

创建了一个基于OpenAI Gym的自定义环境，用于模拟苹果公司（AAPL）股票的交易情境，目标是最大化净资产。初始化过程中，该环境加载了AAPL的历史日交易数据，观察空间涵盖了开盘价、最高价、最低价、收盘价及成交量，还包括账户余额、成本基础和净资产等信息。动作空间设计为二维连续形式，允许代理选择买入、卖出或持有操作，并确定交易的数量，以便灵活调整投资规模。

奖励机制旨在鼓励盈利同时保持稳定，不仅考虑净资产的增长，还对过度波动进行惩罚，并在每次交易时收取小额费用以抑制高频交易行为。模型采用了近端策略优化（PPO）算法进行训练，历经20,000个时间步，评估阶段则包括100个回合，每回合持续2,000个时间步，期间记录最终净资产、账户余额和累计利润，通过计算平均表现来衡量模型的稳健性。这种方法确保了模型不仅能追求高收益，还能有效管理风险。

投资组合实验

实验将单一股票交易扩展到多元化投资组合，重点放在ING Corporate Leaders Trust Series B (LEXCX)上，并整合了情感分析。环境设置使得RL代理能够对LEXCX中的每只股票独立执行买入、持有或卖出操作，观察空间包括每只股票过去五天的交易数据以及账户相关的指标。RL代理能够访问包含价格和情绪信息的观察空间，其行动空间允许针对每只股票进行灵活操作，并依据市场状况及情绪变化动态调整持仓。

奖励机制旨在促进投资组合的稳定增长，减少不必要的频繁交易，并通过额外奖励来鼓励当情绪与实际价格趋势一致时的操作。为了评估RL代理相对于被动投资策略的优势，实验设置了基准比较，通过对比LEXCX组合的实际表现，评价主动管理带来的增值潜力。RL模型利用近端策略优化（PPO）进行训练，共经历20,000个时间步，随后在100个回合中进行评估，每个回合持续2,000个时间步，期间收集关键绩效指标以检验策略的有效性和适应性。这种方法不仅验证了策略的潜在收益，还展示了其在不同市场条件下的灵活性和响应能力。

结果

实验结果分为两大部分：一是针对单一股票（苹果公司AAPL）的交易实验，二是基于投资组合（ING Corporate Leaders Trust Series B）的交易实验。在每一部分中，均对比分析了未整合情感数据的RL模型与整合了情感数据的增强型RL模型。评估的关键指标涵盖了净值、累计利润及余额，并在多个回合和时间步上进行了考察。在投资组合实验环节，还特别将RL模型的表现与LEXCX投资组合的实际表现进行了对比分析。通过可视化手段展示了这些模型适应市场动态变化的能力，以及利用情感数据优化决策过程的有效性。这一方法不仅突显了情感分析在提升交易策略方面的潜力，也验证了模型在不同场景下的实际应用效果。

个股投资

无情感分析的RL模型在100个评估回合中，平均净值达到了$10,825.41，平均利润为10,825.41，平均利润为$825.41，这表明其在单一股票交易中的有效性。该模型在单一回合内的净值、余额和利润表现稳定，体现了资本的有效利用。此外，无情感分析的RL代理的净值和利润分布较为集中，显示了其决策的稳健性和可靠性。

加入情感分析后，RL模型的平均净值提升至$11,259.51，平均利润为$1,259.51，显示出利用定性数据的优势。情感增强型RL代理不仅在单个回合中表现更加出色，而且能够更精准地与市场情绪同步，从而实现更高的累计收益。值得注意的是，情感增强型RL代理的净值和利润分布中位数显著提高，进一步证实了情感数据在优化交易策略方面的价值。

表1总结了三种场景下的平均利润和净值，显示出RL代理在整合情感数据后的优越表现。

投资组合

无情感分析的RL模型在100个评估回合中，平均净值为$13,952.29，平均利润为$3,952.29，表现稳定。在单个回合内，该模型能够持续增加净值，并维持稳定的账户余额和累计利润。通过观察净值和利润的箱形图可以发现，所有评估回合中的中位数与平均值相当接近，进一步证实了其稳定性。

加入情感数据的RL模型平均净值为$14,201.94，平均利润为$4,201.94，显示出情感数据的价值。情感增强型RL模型在单个回合内的表现更为突出，显示出更强的盈利能力。其净值和利润分布不仅中位数更高，而且表明利用情感数据有助于优化交易决策。与实际的LEXCX投资组合相比，RL代理的表现更加优越，尤其是情感增强型模型，展现了其在动态投资管理方面的潜力。

表2总结了三种场景下的平均利润和净值，强调RL代理的优越表现。

04讨论

强化学习（RL）在金融交易领域表现卓越，尤其是在结合了情感分析的情况下，能够显著改善交易成效。针对苹果公司（AAPL）的单股实验显示，RL代理在应对市场变化时表现稳定，而情感分析进一步提升了其平均净值和利润。在投资组合实验中，情感增强型RL模型的表现超越了实际的LEXCX投资组合，体现了主动管理策略的优势。通过整合定量与定性数据，情感增强型RL模型能更精准地捕捉市场趋势并适应变动。

研究揭示了市场情绪对资产价格及其波动的影响，表明情感数据有助于RL代理理解更广泛的市场动态。尽管初步结果令人鼓舞，但实验主要基于历史数据，并未完全模拟真实市场的复杂条件。未来的研究需要考虑如滑点和交易成本等因素。目前的情感分析依赖于综合情感评分，后续可以探索更为精细的情感提取技术。此外，未来的工作还可以将研究扩展到更大、更多样化的投资组合上，以验证情感驱动交易策略的广泛适用性和有效性。

05总结

本研究探索了强化学习（RL）在金融交易中的应用，分别通过苹果公司（AAPL）单股和ING Corporate Leaders Trust Series B（LEXCX）投资组合进行实验。研究发现，当整合金融新闻中的情感分析时，RL模型的交易表现显著优于仅使用定量数据的模型，证明了定性市场信号的重要性。

在针对AAPL的实验中，情感增强型RL模型实现了更高的净值和累计利润，展示了情感数据在提升交易准确性方面的价值。而在投资组合实验里，情感增强型模型不仅超越了不含情感分析的RL模型，还超过了实际的LEXCX投资组合，体现了其适应性和盈利能力。特别是结合了情感分析的RL代理，持续展现出超越被动投资策略的能力，显示了动态管理投资组合的巨大潜力。

研究指出了未来工作的几个方向，包括改进当前依赖于聚合新闻数据的情感分析，建议引入实时社交媒体的情感分析来丰富数据源。此外，未来的探索还可以集中在超参数优化、迁移学习以及评估模型在不同市场周期中的稳定性。本研究强调了将RL与情感分析结合在金融交易中的变革性潜力，为投资者提供了优化交易策略的强大工具。

基于金融新闻的大型语言模型强化学习在投资组合管理中的应用

相关文章：

基于金融新闻的大型语言模型强化学习在投资组合管理中的应用

脚本运行禁止：npm 无法加载文件，因为在此系统上禁止运行脚本

借DeepSeek-R1东风，开启创业新机遇

C# lock使用详解

简易CPU设计入门：控制总线的剩余信号（四）

使用 lock4j-redis-template-spring-boot-starter 实现 Redis 分布式锁

22_解析XML配置文件_List列表

编译器gcc/g++ --【Linux基础开发工具】

58.界面参数传递给Command C#例子 WPF例子

games101-(5/6)

人工智能在计算机视觉中的应用与创新发展研究

1-2 飞机大战游戏场景

Mac Electron 应用签名（signature）和公证（notarization）

Sklearn 中的逻辑回归

【阅读笔记】New Edge Diected Interpolation，NEDI算法，待续

编程题-最长的回文子串（中等）

Versal - 基础3（AXI NoC 专题+仿真+QoS）

知识库建设对提升团队协作与创新能力的影响分析

Java 实现Excel转HTML、或HTML转Excel

stack 和 queue容器的介绍和使用

FakeLocation深度探索：安卓应用级位置伪装的三层架构解析

小米路由器R3G刷机实战：从官方固件到蜜罐版MT工具箱的保姆级避坑指南

5步掌握Mac视频预览革命：QLVideo让你的Finder变身全能播放器

2026届最火的十大降AI率神器解析与推荐

烟草叶部病害-目标检测数据集（包括VOC格式、YOLO格式）

科技中介机构如何提升服务能力与客户转化率？

DeepMind CEO 访谈：人类离 AGI 只剩 4 年，只差最后 3 块拼图

LaTeX引用中文文献总出乱码？可能是你的.bib文件编码和编译顺序没搞对

信息量模型避坑指南：用ArcGIS做地灾评价，这3个细节错了全盘皆输

WELearn网课助手：5分钟掌握智能学习，告别熬夜刷课