2024年大型语言模型(LLMs)的发展回顾
2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。

GPT-4的壁垒被打破
去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原始GPT-4的模型,共计70个模型。其中,Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤为突出,它们不仅达到了GPT-4的水平,还引入了新功能,如更长的输入上下文和视频输入能力。
LLMs价格大幅下降
得益于竞争和效率提升,运行顶级托管LLMs的成本在过去一年中大幅下降。OpenAI的最贵模型价格从GPT-3时代的100倍降低到现在的1/100。这种价格下降直接关系到运行提示所消耗的能量,对环境影响的担忧有所减轻。
多模态视觉成为常态,音频和视频开始兴起
2024年,几乎所有重要的模型供应商都发布了多模态模型。这些模型能够处理图像、音频和视频,为用户提供了新的应用方式。
语音和实时摄像头模式让科幻成为现实
语音和实时视频模式的发展尤为引人注目。GPT-4o和Google的Gemini等模型现在可以接受音频输入并输出非常逼真的语音,而不需要单独的TTS或STT模型。
提示驱动的应用生成已成为商品
LLMs在2023年已经能够生成代码,而2024年它们能够生成完整的交互式应用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允许用户直接在界面中使用生成的应用程序。
最佳模型的普遍访问仅持续了几个月
今年初,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型对大多数人免费开放。然而,随着OpenAI推出ChatGPT Pro订阅服务,免费访问最佳模型的时代可能已经结束。
“代理”仍未真正实现
“代理”一词缺乏明确且广泛理解的含义。尽管如此,代理的概念仍然让人感觉“即将到来”,但基于LLMs的代理在实用性上仍存在挑战。
评估(Evals)至关重要
为LLM驱动的系统编写良好的自动化评估是构建有用应用程序的关键技能。拥有强大的评估套件可以帮助你更快地采用新模型,更好地迭代,并构建比竞争对手更可靠和有用的产品特性。
Apple Intelligence不佳,但Apple的MLX库表现出色
Apple的MLX库为在Mac上运行各种MLX兼容模型提供了极好性能。然而,Apple自己的“Apple Intelligence”功能大多令人失望。
推理扩展“推理”模型的崛起
OpenAI的o1模型是这类模型的代表,它们通过在模型内部花费“推理令牌”来思考问题,然后输出最终结果。这种模型为扩展模型性能提供了新的方式。
最佳可用LLM是否在中国以不到600万美元训练而成?
DeepSeek v3是一个拥有685B参数的大型模型,其训练成本仅为5,576,000美元,这是一个非常积极的迹象,表明训练成本可以且应该继续下降。
环境影响有所改善
模型效率的提高导致运行提示的能量使用和环境影响大幅下降。OpenAI的提示费用比GPT-3时代降低了100倍。
环境影响变得更糟
大型科技公司正在花费数十亿美元建设新数据中心,对电网和环境产生实质性影响。这种基础设施建设是否必要,还是一个未知数。
“slop”成为行业术语
“slop”一词被用来描述未经请求且未经审查的AI生成内容。这个概念已经成为讨论现代AI的简洁方式。
合成训练数据效果显著
尽管有关模型崩溃的讨论,但AI实验室越来越多地在训练中使用合成内容,以引导模型朝着正确的方向发展。
LLMs变得更加难以使用
LLMs是复杂的工具,需要深入了解和经验才能充分利用并避免陷阱。随着系统的增多,用户需要了解不同系统的工具和限制。
知识分布极不均匀
大多数人可能听说过ChatGPT,但对其他模型如Claude的了解甚少。这种知识差距对社会发展不利。
LLMs需要更好的批评
LLMs确实值得批评,我们需要讨论这些问题,找到缓解方法,并帮助人们学习如何负责任地使用这些工具。
以上是对2024年LLMs发展的总结,这一年在LLMs领域发生了很多变化,从技术进步到环境影响,再到社会接受度,LLMs正以前所未有的速度发展和影响着我们的世界。
相关文章:
2024年大型语言模型(LLMs)的发展回顾
2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。 GPT-4的壁垒被打破 去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原…...
实现单例模式的五种方式
如何实现一个单例 1、构造器需要私有化 2、提供一个私有的静态变量 3、暴露一个公共的获取单例对象的接口 需要考虑的两个问题 1、是否支持懒加载 2、是否线程安全 1、饿汉式 public class EagerSingleton {private static final EagerSingleton INSTANCE new EagerSi…...
pcl源码分析之计算凸包
文章目录 前言一、应用案例二、源码分析1.ConvexHull类2.reconstruct函数3.performReconstruction 函数4.calculateInputDimension 函数 总结 前言 本文分析一下pcl里凸包的源码。什么是凸包以及怎么求解,可以了解一下概念。 一、应用案例 #include <pcl/surfa…...
在K8S中,Pod请求另一个Pod偶尔出现超市或延迟,如何排查?
在Kubernetes中,当Pod请求另一个Pod时偶尔出现超时或延迟,可能是由于多种原因造成的。以下是一些建立的排查步骤: 1. 检查网络配置和插件: 确认你的kubernetes集群使用了合适的网络插件(如Calico、Flannel等…...
3blue1brow线代笔记
向量 物理:空间中的箭头,长度和方向决定一个向量。只要两者相同,可以任意移动保持不变 计算机:有序的数字列表 (数组) 数学:向量可以是任何东西,只要保证两个向量相加以及数字与向量…...
【前端系列】优化axios响应拦截器
文章目录 一、前言🚀🚀🚀二、axios响应拦截器:☀️☀️☀️2.1 为什么前端需要响应拦截器element ui的消息组件 一、前言🚀🚀🚀 ☀️ 回报不在行动之后,回报在行动之中。 这个系列可…...
SQL使用视图
本文将介绍什么是视图,它们怎样工作,何时使用它们。 1. 视图 视图是虚拟的表。与包含数据的表不一样,视图只包含使用时动态检索数据的查询。 说明:SQLite 的视图 SQLite 仅支持只读视图,所以视图可以创建ÿ…...
在Windows计算机上打开 HEIC 文件的 6 种有效方法
如果您是 iPhone 用户,您可能对 HEIC 照片很熟悉。这种新兴格式是一种非常高效的图片编码器,它以小得多的尺寸提供至少类似 JPEG 的质量。这对于存储容量较小的手机尤其有利。但是,如何在Windows上打开 HEIC 文件? 假设您用 iDev…...
开源数据集成平台白皮书重磅发布《Apache SeaTunnel 2024用户案例合集》!
2025年新年临近,Apache SeaTunnel 社区用户案例精选📘也跟大家见面啦!在过去的时间里,SeaTunnel 社区持续成长,吸引了众多开发者的关注与支持。 为了致谢一路同行的伙伴,也为了激励更多人加入技术共创&…...
C# delegate 委托使用教程
什么是委托? 委托是定义方法签名的引用类型数据类型,可以定义委托的变量,就像其他数据类型一样,可以引用与委托具有相同签名的任何方法。 它允许方法作为参数传递,并允许事件驱动编程。它们提供了一种以类型安全的方…...
《机器学习》——数据标准化(0~1标准化,z标准化)
文章目录 数据标准化一、什么是标准化二、常用标准化0~1标准化z标准化 三、注意事项 数据标准化 一、什么是标准化 数据标准化是一种数据预处理技术,用于将数据按照一定的规则进行变换,使得不同特征或变量具有可比性和一致性。作用 消除量纲影响 在实际…...
如何监控和管理API接口的调用频率和并发量?
使用监控工具 APM(应用性能管理)工具 功能介绍:APM 工具如 New Relic、AppDynamics 等可以深入监控 API 的性能指标,包括调用频率、并发量、响应时间等。它们通过在应用程序中嵌入代理或使用无侵入式的监测方式,收集和…...
springboot+vue使用EasyCaptcha实现简单验证码
一、实现效果 springboot使用EasyCaptcha实现简单验证码,更多api和用法可以去github上查看EasyCaptcha: Java图形验证码,支持gif、中文、算术等类型,可用于Java Web、JavaSE等项目。 二、实现步骤 1、导入依赖 <!-- easy-captcha --&g…...
“善弈者”也需妙手,Oclean欧可林:差异化不是说说而已
作者 | 曾响铃 文 | 响铃说 俗话说,“牙痛不是病,痛起来要人命”。这话意思大家都知道,牙痛虽不是什么大病,可一旦发作却是极难忍受。 前几日,Oclean欧可林举办了一场AirPump A10氧气啵啵冲牙器新品品鉴会ÿ…...
Lianwei 安全周报|2025.1.2
以下是本周「Lianwei周报」,我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件,保证大家不错过本周的每一个重点! 政策/标准/指南最新动态 01 国家数据局等五部门印发《关于促进企业数据资源开发利用的意见》 为充分释放企业…...
吐卡机开发——指令合集—未来之窗行业应用跨平台架构
序号指令10A 09 02 01 01 0D DE20A 09 02 02 01 FD DE30A 09 02 03 01 6D DF40A 09 02 04 01 5D DD50A 09 02 05 01 CD DC60A 09 02 06 01 3D DC70A 09 02 07 01 AD DD80A 09 02 08 01 5D D890A 09 02 09 01 CD D9100A 09 02 10 01 5D D2110A 09 02 11 01 CD D3120A 09 02 12 0…...
C# 设计模式(创建型模式):单例模式
C# 设计模式(创建型模式):单例模式 1. 引言 在软件开发中,设计模式是解决常见问题的经典方法。单例模式(Singleton Pattern)是创建型设计模式中的一种,旨在确保某个类只有一个实例,…...
使用WebSocket 获取实时数据
回车发送数据,模拟服务器发送数据 效果图: 源码: <template><div><h1>WebSocket 实时数据</h1><input type"text" v-model"ipt" keyup.enter"sendMessage(ipt)"><div v-if…...
阿里云服务器上安装配置Logtail日志收集客户端
在当今的云计算时代,有效的日志管理对于监控、故障排查和性能优化至关重要。作为阿里云用户,您可以利用阿里云强大的日志服务(SLS)来管理您的日志。而Logtail,作为SLS的核心组件之一,在日志收集和传输中扮演着关键角色。本文将为您详细介绍如何在阿里云服务器上安装和配置…...
Java实现下载excel模板,并实现自定义下拉框
GetMapping("excel/download")ApiOperation(value "模板下载")public void getUserRecordTemplate(HttpServletResponse response, HttpServletRequest request) throws IOException {OutputStream outputStream response.getOutputStream();InputStream…...
tools.simonwillison.net图像处理工具集:从裁剪到优化的完整指南
tools.simonwillison.net图像处理工具集:从裁剪到优化的完整指南 【免费下载链接】tools Assorted useful tools, almost entirely generated using LLMs 项目地址: https://gitcode.com/gh_mirrors/tools23/tools tools.simonwillison.net图像处理工具集是一…...
别再死记硬背了!用Multisim仿真+图解,5分钟搞懂三极管共射放大电路工作原理
用Multisim仿真图解5分钟掌握三极管共射放大电路三极管共射放大电路是电子技术中最基础也最关键的电路之一,但传统教材中复杂的公式推导和静态图解往往让初学者望而生畏。本文将带你用Multisim仿真软件,通过可视化的方式直观理解电路工作原理,…...
自制BLE112串口编程器:基于Bootloader的免调试器烧录方案
1. 项目概述:为BLE112模块打造一款免调试器的RS232编程器在嵌入式开发,特别是早期的蓝牙低功耗(BLE)模块应用中,我们常常会遇到一个棘手的问题:官方开发工具链的依赖和限制。以Silicon Labs(当时…...
华硕笔记本终极性能控制指南:用G-Helper完全替代Armoury Crate
华硕笔记本终极性能控制指南:用G-Helper完全替代Armoury Crate 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zen…...
Gofile批量下载自动化工具:5步实现高效文件管理解决方案
Gofile批量下载自动化工具:5步实现高效文件管理解决方案 【免费下载链接】gofile-downloader Download files from https://gofile.io 项目地址: https://gitcode.com/gh_mirrors/go/gofile-downloader 在当今数字化工作环境中,技术团队经常需要从…...
告别元素变动导致的报错:探索自动化测试脚本的 AI“自愈”能力
前言:一个所有测试人都经历过的噩梦 周三晚上十一点,CI/CD流水线再次亮起红灯。 你打开日志,满屏的NoSuchElementException扑面而来。仔细一看——前端团队在昨天的版本中重构了登录页面的DOM结构,原本的#login-btn变成了#signin-button-v2,30个测试用例因此全军覆没。 …...
ShrinkBox后门攻击:如何让自动驾驶模型“看错”距离,威胁ML-ADAS安全
1. 项目概述在自动驾驶和高级驾驶辅助系统(ADAS)领域,基于机器学习的目标检测模型,如YOLO系列,已成为感知环境、实现碰撞预警的核心组件。这些模型通过实时识别和定位道路上的车辆、行人等目标,为后续的距离…...
我们公司全员把 Cursor 换成了自研的 全开源AtomCode
【引子】这是一篇实录——一位 CTO 用 28 天,用 Claude GLM 双模型调度,造出了一个让全公司放弃 Cursor 的工具。然后我意识到我们正在经历的事情,比"换工具"大得多。【读者承诺】接下来 15 分钟,你会拿到三件东西:一个真实案例(28 天 1,146 commits 是怎么做出来的…...
基于MAX78000与CNN的智能螺栓巡检小车:嵌入式AI实战解析
1. 项目概述与核心思路在轨道交通的日常运维中,螺栓的紧固状态检查是一项繁重且关键的任务。无论是轨道上的紧固螺栓,还是列车转向架、轮对轴承上的关键螺栓,其松动或失效都可能引发严重的安全事故。传统的人工巡检方式不仅效率低下ÿ…...
告别繁琐审核!实测AI Agent如何重塑复杂非结构化票据与合同处理流程?
摘要:在企业数字化转型步入深水区的2026年,处理复杂非结构化票据与合同已成为横亘在财务、法务部门面前的“最后一公里”难题。传统RPA因UI变动易崩溃、主流智能体因缺乏API适配而无法落地,导致大量业务仍依赖低效的人工操作。本文由「企服AI…...
