当前位置: 首页 > news >正文

2024年大型语言模型(LLMs)的发展回顾

2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。
在这里插入图片描述

GPT-4的壁垒被打破

去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原始GPT-4的模型,共计70个模型。其中,Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤为突出,它们不仅达到了GPT-4的水平,还引入了新功能,如更长的输入上下文和视频输入能力。

LLMs价格大幅下降

得益于竞争和效率提升,运行顶级托管LLMs的成本在过去一年中大幅下降。OpenAI的最贵模型价格从GPT-3时代的100倍降低到现在的1/100。这种价格下降直接关系到运行提示所消耗的能量,对环境影响的担忧有所减轻。

多模态视觉成为常态,音频和视频开始兴起

2024年,几乎所有重要的模型供应商都发布了多模态模型。这些模型能够处理图像、音频和视频,为用户提供了新的应用方式。

语音和实时摄像头模式让科幻成为现实

语音和实时视频模式的发展尤为引人注目。GPT-4o和Google的Gemini等模型现在可以接受音频输入并输出非常逼真的语音,而不需要单独的TTS或STT模型。

提示驱动的应用生成已成为商品

LLMs在2023年已经能够生成代码,而2024年它们能够生成完整的交互式应用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允许用户直接在界面中使用生成的应用程序。

最佳模型的普遍访问仅持续了几个月

今年初,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型对大多数人免费开放。然而,随着OpenAI推出ChatGPT Pro订阅服务,免费访问最佳模型的时代可能已经结束。

“代理”仍未真正实现

“代理”一词缺乏明确且广泛理解的含义。尽管如此,代理的概念仍然让人感觉“即将到来”,但基于LLMs的代理在实用性上仍存在挑战。

评估(Evals)至关重要

为LLM驱动的系统编写良好的自动化评估是构建有用应用程序的关键技能。拥有强大的评估套件可以帮助你更快地采用新模型,更好地迭代,并构建比竞争对手更可靠和有用的产品特性。

Apple Intelligence不佳,但Apple的MLX库表现出色

Apple的MLX库为在Mac上运行各种MLX兼容模型提供了极好性能。然而,Apple自己的“Apple Intelligence”功能大多令人失望。

推理扩展“推理”模型的崛起

OpenAI的o1模型是这类模型的代表,它们通过在模型内部花费“推理令牌”来思考问题,然后输出最终结果。这种模型为扩展模型性能提供了新的方式。

最佳可用LLM是否在中国以不到600万美元训练而成?

DeepSeek v3是一个拥有685B参数的大型模型,其训练成本仅为5,576,000美元,这是一个非常积极的迹象,表明训练成本可以且应该继续下降。

环境影响有所改善

模型效率的提高导致运行提示的能量使用和环境影响大幅下降。OpenAI的提示费用比GPT-3时代降低了100倍。

环境影响变得更糟

大型科技公司正在花费数十亿美元建设新数据中心,对电网和环境产生实质性影响。这种基础设施建设是否必要,还是一个未知数。

“slop”成为行业术语

“slop”一词被用来描述未经请求且未经审查的AI生成内容。这个概念已经成为讨论现代AI的简洁方式。

合成训练数据效果显著

尽管有关模型崩溃的讨论,但AI实验室越来越多地在训练中使用合成内容,以引导模型朝着正确的方向发展。

LLMs变得更加难以使用

LLMs是复杂的工具,需要深入了解和经验才能充分利用并避免陷阱。随着系统的增多,用户需要了解不同系统的工具和限制。

知识分布极不均匀

大多数人可能听说过ChatGPT,但对其他模型如Claude的了解甚少。这种知识差距对社会发展不利。

LLMs需要更好的批评

LLMs确实值得批评,我们需要讨论这些问题,找到缓解方法,并帮助人们学习如何负责任地使用这些工具。

以上是对2024年LLMs发展的总结,这一年在LLMs领域发生了很多变化,从技术进步到环境影响,再到社会接受度,LLMs正以前所未有的速度发展和影响着我们的世界。

相关文章:

2024年大型语言模型(LLMs)的发展回顾

2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。 GPT-4的壁垒被打破 去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原…...

实现单例模式的五种方式

如何实现一个单例 1、构造器需要私有化 2、提供一个私有的静态变量 3、暴露一个公共的获取单例对象的接口 需要考虑的两个问题 1、是否支持懒加载 2、是否线程安全 1、饿汉式 public class EagerSingleton {private static final EagerSingleton INSTANCE new EagerSi…...

pcl源码分析之计算凸包

文章目录 前言一、应用案例二、源码分析1.ConvexHull类2.reconstruct函数3.performReconstruction 函数4.calculateInputDimension 函数 总结 前言 本文分析一下pcl里凸包的源码。什么是凸包以及怎么求解&#xff0c;可以了解一下概念。 一、应用案例 #include <pcl/surfa…...

在K8S中,Pod请求另一个Pod偶尔出现超市或延迟,如何排查?

在Kubernetes中&#xff0c;当Pod请求另一个Pod时偶尔出现超时或延迟&#xff0c;可能是由于多种原因造成的。以下是一些建立的排查步骤&#xff1a; 1. 检查网络配置和插件&#xff1a; 确认你的kubernetes集群使用了合适的网络插件&#xff08;如Calico、Flannel等&#xf…...

3blue1brow线代笔记

向量 物理&#xff1a;空间中的箭头&#xff0c;长度和方向决定一个向量。只要两者相同&#xff0c;可以任意移动保持不变 计算机&#xff1a;有序的数字列表 &#xff08;数组&#xff09; 数学&#xff1a;向量可以是任何东西&#xff0c;只要保证两个向量相加以及数字与向量…...

【前端系列】优化axios响应拦截器

文章目录 一、前言&#x1f680;&#x1f680;&#x1f680;二、axios响应拦截器&#xff1a;☀️☀️☀️2.1 为什么前端需要响应拦截器element ui的消息组件 一、前言&#x1f680;&#x1f680;&#x1f680; ☀️ 回报不在行动之后&#xff0c;回报在行动之中。 这个系列可…...

SQL使用视图

本文将介绍什么是视图&#xff0c;它们怎样工作&#xff0c;何时使用它们。 1. 视图 视图是虚拟的表。与包含数据的表不一样&#xff0c;视图只包含使用时动态检索数据的查询。 说明&#xff1a;SQLite 的视图 SQLite 仅支持只读视图&#xff0c;所以视图可以创建&#xff…...

在Windows计算机上打开 HEIC 文件的 6 种有效方法

如果您是 iPhone 用户&#xff0c;您可能对 HEIC 照片很熟悉。这种新兴格式是一种非常高效的图片编码器&#xff0c;它以小得多的尺寸提供至少类似 JPEG 的质量。这对于存储容量较小的手机尤其有利。但是&#xff0c;如何在Windows上打开 HEIC 文件&#xff1f; 假设您用 iDev…...

开源数据集成平台白皮书重磅发布《Apache SeaTunnel 2024用户案例合集》!

2025年新年临近&#xff0c;Apache SeaTunnel 社区用户案例精选&#x1f4d8;也跟大家见面啦&#xff01;在过去的时间里&#xff0c;SeaTunnel 社区持续成长&#xff0c;吸引了众多开发者的关注与支持。 为了致谢一路同行的伙伴&#xff0c;也为了激励更多人加入技术共创&…...

C# delegate 委托使用教程

什么是委托&#xff1f; 委托是定义方法签名的引用类型数据类型&#xff0c;可以定义委托的变量&#xff0c;就像其他数据类型一样&#xff0c;可以引用与委托具有相同签名的任何方法。 它允许方法作为参数传递&#xff0c;并允许事件驱动编程。它们提供了一种以类型安全的方…...

《机器学习》——数据标准化(0~1标准化,z标准化)

文章目录 数据标准化一、什么是标准化二、常用标准化0~1标准化z标准化 三、注意事项 数据标准化 一、什么是标准化 数据标准化是一种数据预处理技术&#xff0c;用于将数据按照一定的规则进行变换&#xff0c;使得不同特征或变量具有可比性和一致性。作用 消除量纲影响 在实际…...

如何监控和管理API接口的调用频率和并发量?

使用监控工具 APM&#xff08;应用性能管理&#xff09;工具 功能介绍&#xff1a;APM 工具如 New Relic、AppDynamics 等可以深入监控 API 的性能指标&#xff0c;包括调用频率、并发量、响应时间等。它们通过在应用程序中嵌入代理或使用无侵入式的监测方式&#xff0c;收集和…...

springboot+vue使用EasyCaptcha实现简单验证码

一、实现效果 springboot使用EasyCaptcha实现简单验证码&#xff0c;更多api和用法可以去github上查看EasyCaptcha: Java图形验证码&#xff0c;支持gif、中文、算术等类型&#xff0c;可用于Java Web、JavaSE等项目。 二、实现步骤 1、导入依赖 <!-- easy-captcha --&g…...

“善弈者”也需妙手,Oclean欧可林:差异化不是说说而已

作者 | 曾响铃 文 | 响铃说 俗话说&#xff0c;“牙痛不是病&#xff0c;痛起来要人命”。这话意思大家都知道&#xff0c;牙痛虽不是什么大病&#xff0c;可一旦发作却是极难忍受。 前几日&#xff0c;Oclean欧可林举办了一场AirPump A10氧气啵啵冲牙器新品品鉴会&#xff…...

Lianwei 安全周报|2025.1.2

以下是本周「Lianwei周报」&#xff0c;我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件&#xff0c;保证大家不错过本周的每一个重点&#xff01; 政策/标准/指南最新动态 01 国家数据局等五部门印发《关于促进企业数据资源开发利用的意见》 为充分释放企业…...

吐卡机开发——指令合集—未来之窗行业应用跨平台架构

序号指令10A 09 02 01 01 0D DE20A 09 02 02 01 FD DE30A 09 02 03 01 6D DF40A 09 02 04 01 5D DD50A 09 02 05 01 CD DC60A 09 02 06 01 3D DC70A 09 02 07 01 AD DD80A 09 02 08 01 5D D890A 09 02 09 01 CD D9100A 09 02 10 01 5D D2110A 09 02 11 01 CD D3120A 09 02 12 0…...

C# 设计模式(创建型模式):单例模式

C# 设计模式&#xff08;创建型模式&#xff09;&#xff1a;单例模式 1. 引言 在软件开发中&#xff0c;设计模式是解决常见问题的经典方法。单例模式&#xff08;Singleton Pattern&#xff09;是创建型设计模式中的一种&#xff0c;旨在确保某个类只有一个实例&#xff0c…...

使用WebSocket 获取实时数据

回车发送数据&#xff0c;模拟服务器发送数据 效果图&#xff1a; 源码&#xff1a; <template><div><h1>WebSocket 实时数据</h1><input type"text" v-model"ipt" keyup.enter"sendMessage(ipt)"><div v-if…...

阿里云服务器上安装配置Logtail日志收集客户端

在当今的云计算时代,有效的日志管理对于监控、故障排查和性能优化至关重要。作为阿里云用户,您可以利用阿里云强大的日志服务(SLS)来管理您的日志。而Logtail,作为SLS的核心组件之一,在日志收集和传输中扮演着关键角色。本文将为您详细介绍如何在阿里云服务器上安装和配置…...

Java实现下载excel模板,并实现自定义下拉框

GetMapping("excel/download")ApiOperation(value "模板下载")public void getUserRecordTemplate(HttpServletResponse response, HttpServletRequest request) throws IOException {OutputStream outputStream response.getOutputStream();InputStream…...

零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?

一、核心优势&#xff1a;专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发&#xff0c;是一款收费低廉但功能全面的Windows NAS工具&#xff0c;主打“无学习成本部署” 。与其他NAS软件相比&#xff0c;其优势在于&#xff1a; 无需硬件改造&#xff1a;将任意W…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者&#xff1a;Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位&#xff1a;中南大学地球科学与信息物理学院论文标题&#xff1a;BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接&#xff1a;https://arxiv.…...

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时&#xff0c;需结合业务场景设计数据流转链路&#xff0c;重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点&#xff1a; 一、核心对接场景与目标 商品数据同步 场景&#xff1a;将1688商品信息…...

C++ 基础特性深度解析

目录 引言 一、命名空间&#xff08;namespace&#xff09; C 中的命名空间​ 与 C 语言的对比​ 二、缺省参数​ C 中的缺省参数​ 与 C 语言的对比​ 三、引用&#xff08;reference&#xff09;​ C 中的引用​ 与 C 语言的对比​ 四、inline&#xff08;内联函数…...

12.找到字符串中所有字母异位词

&#x1f9e0; 题目解析 题目描述&#xff1a; 给定两个字符串 s 和 p&#xff0c;找出 s 中所有 p 的字母异位词的起始索引。 返回的答案以数组形式表示。 字母异位词定义&#xff1a; 若两个字符串包含的字符种类和出现次数完全相同&#xff0c;顺序无所谓&#xff0c;则互为…...

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开&#xff0c;首…...

GitHub 趋势日报 (2025年06月06日)

&#x1f4ca; 由 TrendForge 系统生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日报中的项目描述已自动翻译为中文 &#x1f4c8; 今日获星趋势图 今日获星趋势图 590 cognee 551 onlook 399 project-based-learning 348 build-your-own-x 320 ne…...

CppCon 2015 学习:REFLECTION TECHNIQUES IN C++

关于 Reflection&#xff08;反射&#xff09; 这个概念&#xff0c;总结一下&#xff1a; Reflection&#xff08;反射&#xff09;是什么&#xff1f; 反射是对类型的自我检查能力&#xff08;Introspection&#xff09; 可以查看类的成员变量、成员函数等信息。反射允许枚…...

LUA+Reids实现库存秒杀预扣减 记录流水 以及自己的思考

目录 lua脚本 记录流水 记录流水的作用 流水什么时候删除 我们在做库存扣减的时候&#xff0c;显示基于Lua脚本和Redis实现的预扣减 这样可以在秒杀扣减的时候保证操作的原子性和高效性 lua脚本 // ... 已有代码 ...Overridepublic InventoryResponse decrease(Inventor…...