BloombergGPT: 首个金融垂直领域大语言模型
BloombergGPT: 首个金融垂直领域大语言模型
Bloomberg 刚刚发布了一篇研究论文,详细介绍了他们最新的突破性技术 BloombergGPT。BloombergGPT是一个大型生成式人工智能模型,专门使用大量金融数据进行了训练,以支持金融行业自然语言处理 (NLP) 任务。
随着ChatGPT的发布,人工智能取得了长足进步。但金融领域相当复杂且独特的领域,它往往受着严厉的合规监管,对事实正确性要求极高。这就是 BloombergGPT 诞生的原因——它是第一个专门为金融行业设计的大型语言模型。该模型将帮助Bloomberg在内的众多金融企业改进现有的金融 NLP 任务,如情绪分析、命名实体识别、新闻分类和问答等。 此外,Bloomberg计划将来将BloombergGPT嵌入自家终端中,以利用Bloomberg终端上可用的大量数据更好地为客户服务。
本文将对BloombergGPT做一个摘要性解读
文章目录
- 论文摘要
- 数据来源
- 模型效果
- Bloomberg-GPT 的性能指标
- 使用的评估基准
- 用于评估金融任务的模板
- 金融领域任务的表现(通用任务、NER 和情绪分析)
- 使用 BIG-Bench(3 shot)标准进行知识评估
- 知识评估(1 shot 和 5 shot)
- 效果总结
- 总结
论文摘要
NLP 在金融技术领域的应用广泛且复杂,主要应用场景包括情感分析、命名实体识别到问答等。 大语言模型 (LLM) 已被证明可以有效处理上述任务;但是,鲜少没有报道过有专门针对金融领域的文献。本作中,我们展示了 BloombergGPT 这个拥有 500 亿参数的语言模型,它采用大量金融数据训练而来。我们基于 Bloomberg 大量的数据源构建了一个 3630 亿个token数据集,这可能是迄今为止最大的特定领域数据集,并增加了来自通用数据集的 3450 亿个token。我们在标准 LLM 基准、开放金融基准和一套最能准确反映我们预期用途的内部基准上验证了 BloombergGPT。我们的混合数据集训练得到的模型表现出在不牺牲一般 LLM 基准测试性能的情况下,在金融任务上的性能明显优于现有模型。此外,我们还解释了我们的建模选择、训练过程和评估方法。 下一步,我们计划发布训练日志,详细说明我们在训练 BloombergGPT 方面的经验。
数据来源
**十多年来,Bloomberg一直是人工智能、机器学习和金融 NLP 领域的领导者。**他们开发了一种混合方法,将金融数据与通用数据集相结合,从而训练出一个既能在通用 LLM 基准测试中表现出色,同时又能输出一流的金融相关结果的模型。
为了开发 BloombergGPT,机器学习产品和研究小组与 AI 工程团队合作创建了(可能是)迄今为止最大的特定领域数据集。 他们利用Bloomberg现有的数据创建、收集和资源工具,利用其海量的金融数据文档创建了一个由英文金融文件组成的 3630 亿token的综合数据集。 然后,他们使用 3450 亿个token的公共数据集扩充此数据,创建了一个包含超过 7000 亿个token的训练语料库。
数据的年代分布
模型效果
使用上述语料库的一部分,Bloomberg团队训练了一个 500 亿参数的仅包含解码器的因果语言模型。由此产生的模型在现有的特定金融领域 NLP 基准、Bloomberg内部基准以及大量流行通用 NLP 任务基准上得到了验证。BloombergGPT 在金融任务上的表现明显优于现有的类似规模的开放模型,同时在一般 NLP 基准测试中的表现与其他模型持平或更好。
Bloomberg-GPT 的性能指标
使用的评估基准
用于评估金融任务的模板
金融领域任务的表现(通用任务、NER 和情绪分析)
使用 BIG-Bench(3 shot)标准进行知识评估
知识评估(1 shot 和 5 shot)
效果总结
在许多基准测试的数十项任务中,与其他数百亿参数的模型相比,BloombergGPT的表现是最好。此外,在某些情况下,BloombergGPT的性能可以媲美甚至超越更大规模(数千亿参数)的模型。虽然 BloombergGPT 的目标是成为金融领域的一流模型,并且包含了通用训练数据以支持特定领域的训练,但该模型在通用数据上的能力仍然超过类似规模的模型,并且在某些情况下,媲美甚至优于更大规模的模型。
总结
Bloomberg 的首席技术官 Shawn Edwards 看到了新模型的很多价值:“BloombergGPT 将使我们能够处理许多新型应用,同时它为每个应用提供了比自定义模型更高的开箱即用性能 ,从而换取更快的上市时间。”
Bloomberg 机器学习产品和研究团队负责人 Gideon Mann 解释说,机器学习和 NLP 模型的质量取决于你输入的数据。 得益于 Bloomberg 四十多年来精心策划收集的金融数据,他们能够精心创建一个庞大而干净的特定领域数据集,以训练最适合金融用例的 LLM。 他们很高兴使用 BloombergGPT 来改进现有的 NLP 工作流程,同时也想出新的方法来使用这种模型来服务他们的客户。
我个人认为这种模式可能会增加金融 LLM 的价值。 但是,必须注意到这只是同类领域中的第一个模型。 随着我们对金融数据的训练和调优,预计会有更多进步。 所以,我们可以把它看成是第一代硬件,用欣赏和测试的眼光去看待它,用于商用可能还为时过早。
相关文章:

BloombergGPT: 首个金融垂直领域大语言模型
BloombergGPT: 首个金融垂直领域大语言模型 Bloomberg 刚刚发布了一篇研究论文,详细介绍了他们最新的突破性技术 BloombergGPT。BloombergGPT是一个大型生成式人工智能模型,专门使用大量金融数据进行了训练,以支持金融行业自然语言处理 (NLP…...

CMake深度解析:掌握add_custom_command,精通Makefile生成规则
CMake深度解析:掌握add_custom_command,精通Makefile生成规则 1. CMake简介与基础知识1.1 CMake的基本概念(CMake Basic Concepts)1.1.1 项目(Project)1.1.2 目标(Target)1.1.3 命令…...

基于Yolov5目标检测的物体分类识别及定位(二) -- yolov5运行环境搭建及label格式转换
刚开始跟着网上的教程做,把环境安装错了,后来直接用GitHub的官方教程来安装环境。 地址是yolov5官方团队代码及教程,看readme文件就可以。 系列文章: 基于Yolov5目标检测的物体分类识别及定位(一) -- 数据集…...

Office project 2019安装
哈喽,大家好。今天一起学习的是project 2019的安装,Microsoft Office project项目管理工具软件,凝集了许多成熟的项目管理现代理论和方法,可以帮助项目管理者实现时间、资源、成本计划、控制。有兴趣的小伙伴也可以来一起试试手。…...
【leetcode-mysql】1251. 平均售价
题目: Table: Prices ---------------------- | Column Name | Type | ---------------------- | product_id | int | | start_date | date | | end_date | date | | price | int | ---------------------- (product_id,start_date,end_dat…...

Razor代码复用
1.布局(Layout)复用 Layout的使用,就像WebForm的模板页一样,甚至会更加简单,更加方便和明了。 要使用Layout,首先要在模板页相应的位置添加RenderBody()方法: <!DOCTYPE html><html la…...

PRL:上海交大张文涛团队实现量子材料相关突破
来源:上海交通大学 近期,上海交通大学物理与天文学院张文涛研究组利用自行研制的高能量和高时间分辨率角分辨光电子能谱系统对量子材料1T-TiSe₂电子结构进行了超快激光操控研究。利用超快光激发与电荷密度波相有关的相干声子,引起晶格内原子…...

impala中group_concat()函数无法对内容进行order by
描述: 使用的是impala数据库,假设有四笔数据,是无序的,业务上要求将其行转列成一行数据,并且里面的数据要按从小到大排序。 过程: 猜测: 数据库Oracle、Mysql、MSsql等支持group_concat中使…...
MySQL 数据库全局变量中文解释
NameValueauto_increment_incrementAUTO_INCREMENT 字段值的自增长步长值。auto_increment_offsetAUTO_INCREMENT 字段值的初始值。autocommit指示新连接的默认提交模式是否启用。automatic_sp_privileges控制是否在存储过程上创建或更改时自动分配特定权限。back_log在开始拒绝…...

设计模式之~状态模式
状态模式(State),当一个对象的内部状态改变时允许改变其行为,这个对象看起来像是改变了其类。 能够让程序根据不同的外部情况来做出不同的响应,最直接的方法就是在程序中将这些 可能发生的外部情况全部考虑到ÿ…...
【21JavaScript break 和 continue 语句】JavaScript中的break和continue语句:控制循环流程的关键技巧
JavaScript break 和 continue 语句 在JavaScript中,break和continue是两个关键字,用于控制循环结构的执行流程。 break语句 break语句用于中断循环并跳出循环体,使程序执行流程继续到循环之后的下一行代码。 在for循环中使用break for (…...

【SpringBoot】 设置随机数据 用于测试用例
个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ 设置随机数据——常用于测试用例 SpringBoot设…...

chatgpt赋能python:Python如何获取微信聊天记录
Python如何获取微信聊天记录 作为世界上最受欢迎的即时通讯工具之一,微信被大量用户使用。然而,微信聊天记录的备份和管理是一个重要的问题,特别是对于那些需要在工作和个人生活中快速查找重要信息的人来说。 幸运的是,Python编…...
VP记录:Codeforces Round 599 (Div. 2) A~D
传送门:CF 前提提要:无 A题:A. Maximum Square 刚开始的第一个想法是排序然后二分答案.但是一看范围才1000,果断直接使用暴力枚举. 考虑枚举最终的答案,然后记录有多少个 a i ai ai大于此值,然后判断能否构成一个正方形即可. #include <bits/stdc.h> using namespace…...
01-项目介绍
1、特色与亮点 千万级流量的大型分布式系统架构设计。 高性能、高并发、高可用场景解决方案。 2、项目安排 架构搭建,使用前后端分离架构。 功能开发,实现基本的选座排队购票功能。 引入高并发技术,实现高性能抢票。 3、项目收获 学习…...
《Python编程从入门到实践》学习笔记06字典
alien_0{color:green,points:5} print(alien_0[color]) print(alien_0[points])green 5 alien_0{color:green,points:5} new_pointsalien_0[points] print(fyou just earned {new_points} points!)you just earned 5 points! #添加键值对 alien_0{color:green,points:5} prin…...

为什么说程序员和产品经理一定要学一学PMP
要回答为什么说程序员和产品经理一定要学一学PMP?我们得先看一下PMP包含的学习内容。PMP新版考纲备考参考资料绝大多数涉及IT项目的敏捷管理理念。主要来源于PMI推荐的10本参考书: 《敏捷实践指南(Agile Practice Guide)》 《项目…...

LearnOpenGL-高级OpenGL-9.几何着色器
本人初学者,文中定有代码、术语等错误,欢迎指正 文章目录 几何着色器使用几何着色器造几个房子爆破物体法向量可视化 几何着色器 简介 在顶点和片段着色器之间有一个可选的几何着色器几何着色器的输入是一个图元(如点或三角形)的一…...
8.视图和用户管理
目录 视图 基本使用 用户管理 用户 用户信息 创建用户 删除用户...
bootstrapvue上传文件并存储到服务器指定路径及从服务器某路径下载文件
前记 第一次接触上传及下载文件,做个总结。 从浏览器上传本地文件 前端 本处直接将input上传放在了button内实现。主要利用了input的type“file” 实现上传框。其中accept可以限制弹出框可选择的文件类型。可限制多种: :accept"[doc, docx]&qu…...
蓝桥杯 2024 15届国赛 A组 儿童节快乐
P10576 [蓝桥杯 2024 国 A] 儿童节快乐 题目描述 五彩斑斓的气球在蓝天下悠然飘荡,轻快的音乐在耳边持续回荡,小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下,六一来了。 今天是六一儿童节,小蓝老师为了让大家在节…...

【机器视觉】单目测距——运动结构恢复
ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛…...
多模态商品数据接口:融合图像、语音与文字的下一代商品详情体验
一、多模态商品数据接口的技术架构 (一)多模态数据融合引擎 跨模态语义对齐 通过Transformer架构实现图像、语音、文字的语义关联。例如,当用户上传一张“蓝色连衣裙”的图片时,接口可自动提取图像中的颜色(RGB值&…...

MODBUS TCP转CANopen 技术赋能高效协同作业
在现代工业自动化领域,MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步,这两种通讯协议也正在被逐步融合,形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...
C++.OpenGL (10/64)基础光照(Basic Lighting)
基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...
JS设计模式(4):观察者模式
JS设计模式(4):观察者模式 一、引入 在开发中,我们经常会遇到这样的场景:一个对象的状态变化需要自动通知其他对象,比如: 电商平台中,商品库存变化时需要通知所有订阅该商品的用户;新闻网站中࿰…...
LangChain知识库管理后端接口:数据库操作详解—— 构建本地知识库系统的基础《二》
这段 Python 代码是一个完整的 知识库数据库操作模块,用于对本地知识库系统中的知识库进行增删改查(CRUD)操作。它基于 SQLAlchemy ORM 框架 和一个自定义的装饰器 with_session 实现数据库会话管理。 📘 一、整体功能概述 该模块…...

R 语言科研绘图第 55 期 --- 网络图-聚类
在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...
为什么要创建 Vue 实例
核心原因:Vue 需要一个「控制中心」来驱动整个应用 你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为,将它们变成一个活的、可交互的应用**。没有这个实例,你的代码只是一堆静态的 HTML、JavaScript 变量和函数,无法「活」起来。 …...
【Elasticsearch】Elasticsearch 在大数据生态圈的地位 实践经验
Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...