LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。
Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。
Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。
这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,需要消耗巨大AI算力,只提供给特定用户。
用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。
下面是对官网文章[1]的翻译:
今天,我们宣布推出Claude 3模型系列,并为一系列认知任务设定了新的行业基准。该系列包括三个最先进的模型,按能力升序排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一个连续的模型都提供了越来越强大的性能,允许用户为其特定应用程序选择智能、速度和成本[2]的最佳平衡。
Opus和Sonnet现在可以在claude.ai和Claude API中使用,后者现在在159个国家[3]普遍可用,Haiku将很快推出。
一、Claude 3 模型家族

二、智能新标准
Opus是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科生级专家知识(MMLU)、研究生级专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解力和流利性,引领了一般智力的前沿。
所有Claude 3[4]模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。
以下是Claude 3模型与我们的同行在多个能力基准[1]上的比较:

三、近乎即时的结果
Claude 3模型可以支持实时客户聊天、自动补全和数据提取任务,这些任务的响应必须是即时的。
Haiku是市场上同类智能模型重速度最快、性价比最高的。它可以在不到三秒的时间内阅读一篇包含图表和图形的arXiv(约10k tokens)研究论文。我们预计在推出后性能将进一步提高。
对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus与Claude 2和2.1的速度相似,但智能水平更高。
四、强大的视觉能力
Claude 3模型拥有与其他领先模型想媲美的先进视觉能力。他们可以处理各种视觉格式,包括照片、图表、图表和技术图表。我们特别高兴能为我们的企业客户提供这种新的模式,其中一些客户的知识库有高达50%的信息以PDF、流程图或演示幻灯片等各种格式编码。

五、更少的拒绝
以前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答接近系统安全边界的提示的可能性要小得多。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并更少地拒绝无害的提示。

六、准确性提高
各种规模的企业都依赖我们的模型为客户服务,因此我们的模型输出必须在规模上保持高精度。为了评估这一点,我们使用了一大组复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将反应分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了两倍,同时错误答案的水平也有所降低。
除了产生更值得信赖的回答外,我们很快将在Claude 3模型中启用引用,以便他们就可以在参考材料中指向精确的句子来验证他们的答案。

七、长语境和近乎完美的回忆
Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,这三种模型都能够接受超过100万个tokens的输入,我们可以将其提供给需要增强处理能力的精选客户。
为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量了模型从大量数据中准确回忆信息的能力。我们通过每个提示使用30个随机针/问题对中的一个,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至可以识别出评估本身的局限性,即“针”句子似乎是由人类人工插入到原始文本中的。

八、负责任的设计
我们开发了Claude 3系列模型,使其尽可能值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和CSAM到生物滥用、选举干预和自主复制技能。我们继续开发宪法AI[5]等方法,以提高我们模型的安全性和透明度,并对我们的模型进行了调整,以缓解新模式可能引发的隐私问题。
解决日益复杂的模型中的偏见是一项持续的努力,我们在这个新版本中取得了进展。如模型卡所示,根据问答偏差基准(BBQ)[6],Claude 3比我们以前的模型显示出更少的偏见。我们仍然致力于推进减少偏见的技术,并在我们的模型中促进更大的中立性,确保它们不会偏向任何特定的党派立场。
尽管与以前的模型相比,Claude 3模型家族在生物知识、网络相关知识和自主性的关键指标上有所进步,但根据我们的负责任扩展政策[7],它仍处于人工智能安全级别2(ASL-2)。我们的红团队评估[8](根据我们的白宫承诺和2023年美国行政命令进行)得出的结论是,这些模型目前存在的灾难性风险可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估其接近ASL-3阈值的程度。更多的安全细节可在Claude 3模型卡[4]中获得。
九、更易于使用
Claude 3模型更善于遵循复杂的、多步骤指令。他们特别善于遵守品牌声音和响应准则,并开发用户可以信任的客户体验。此外,Claude 3模型更擅长以JSON等格式生成流行的结构化输出,这使得在自然语言分类和情感分析等用例中指导Claude变得更简单。
十、模型详细信息
Claude 3 Opus是我们最智能的模型,在高度复杂的任务中具有市场上最好的性能。它可以以非凡的流畅度和类人般的理解力浏览开放式提示和看不见的场景。Opus向我们展示了生成人工智能的外部极限。

Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其是对于企业工作负载。与同类模型相比,它以更低的成本提供了强大的性能,并在大规模人工智能部署中实现了高耐久性。

Claude 3 Haiku是我们速度最快、最紧凑的车型,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类互动的无缝人工智能体验。

十一、模型可用性
Opus和Sonnet现在可以在我们的API中使用,该API现在普遍可用,使开发人员能够立即注册并开始使用这些模型,Haiku很快就会推出。Sonnet正在claude.ai上提供免费体验,claude Pro用户可以使用Opus。
Sonnet今天也可以通过Amazon Bedrock和谷歌云的Vertex AI Model Garden进行私人预览,Opus和Haiku很快就会同时推出。
十二、更智能、更快、更安全
我们不认为模型智能已经接近极限,我们计划在未来几个月内频繁发布Claude 3模型系列的更新。我们还很高兴能够发布一系列功能来增强我们模型的功能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)和更高级的代理功能。
当我们突破人工智能能力的极限时,我们同样致力于确保我们的安全防护措施与这些性能的飞跃保持同步。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方法。
我们很高兴看到你用Claude 3创造了什么,希望你能给我们反馈,让Claude成为一个更有用的助手和创造性的伙伴。要开始与Claude合作,请访问anthropic.com/Claude。
参考文献:
[1] https://www.anthropic.com/news/claude-3-family
[2] https://www.anthropic.com/api#pricing
[3] https://www.anthropic.com/supported-countries
[4] https://www.anthropic.com/claude-3-model-card
[5] https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback
[6] https://aclanthology.org/2022.findings-acl.165/
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.anthropic.com/news/red-teaming-language-models-to-reduce-harms-methods-scaling-behaviors-and-lessons-learned
相关文章:
LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型
2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。 Haiku模型更注重效率,能…...
20-Java备忘录模式 ( Memento Pattern )
Java备忘录模式 摘要实现范例 备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象 备忘录模式属于行为型模式 摘要 1. 意图 在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对…...
整合生成型AI战略:从宏观思维到小步实践
“整合生成型AI战略:从宏观思维到小步实践” 在这篇文章中,我们探讨了将生成型AI和大型语言模型融入企业核心业务的战略开发方法。我们的方法基于敏捷开发原则,技术专家和数据科学家需要采纳商业思维,而执行官则需理解生成型AI和…...
个人博客系列-后端项目-用户验证(5)
介绍 创建系统管理app,用于管理系统的用户,角色,权限,登录等功能,项目中将使用django-rest_framework进行用户认证和权限解析。这里将完成用户认证 用户验证 rest_framework.authentication模块中的认证类ÿ…...
css3中nth-child属性作用及用法剖析
hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 标题:CSS3中nth-child属性作用及用法剖析 摘要:CSS3中的nth-child选择器允许我们根据元素位置来定位特定的元素…...
okHttp MediaType MIME格式详解
一、介绍 我们在做数据上传时,经常会用到Okhttp的开源库,okhttp开源库也遵循html提交的MIME数据格式。 所以我们经常会看到applicaiton/json这样的格式在传。 但是如果涉及到其他文件等就需要详细的数据格式,否则服务端无法解析 二、okHt…...
跨境电商三大趋势
跨境电商有着不断发展的三大趋势: 个性化定制:随着消费者需求的不断变化和个性化定制的潮流,跨境电商平台开始提供更多的定制化服务。消费者可以根据自己的需求选择产品的款式、材料和设计,从而获得更加个性化的产品体验。 无界销…...
【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试
【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试 目录 【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试核心概念资源监控生命周期管理Cluster维护安全认证问题排查其他推荐超级课程: Docker快速入门到精通Kubernetes入门到大师通关课这些是我在准备CK...
Mysql数据库-基本表操作
1.表操作 创建表:CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎; field 表示列名 datatype 表示列的类型 character set 字符集,如果没有指定字符集ÿ…...
OceanBase社区版单节点安装搭建(Docker)
OceanBase社区版单节点安装搭建(Docker) 文章目录 OceanBase社区版单节点安装搭建(Docker)一、环境检查及Docker配置1.1 安装docker1.2 配置docker镜像源 二、OB镜像下载三、obd部署单节点数据库四、创建业务租户、数据库、表4.1 …...
Unity 关节:铰链、弹簧、固定、物理材质:摩檫力、 特效:拖尾、
组件-物理-关节:铰链(类似门轴) 自动动作、多少力可以将其断开、 弹簧可以连接另一个刚体(拖动即可) 固定一般是等待一个断裂力,造成四分五裂的效果。 物理材质 设置摩檫力,则可以创造冰面的…...
RIPEMD算法:多功能哈希算法的瑰宝
title: RIPEMD算法:多功能哈希算法的瑰宝 date: 2024/3/10 17:31:17 updated: 2024/3/10 17:31:17 tags: RIPEMD起源算法优势安全风险对比SHA优于MD5应用领域工作原理 一、RIPEMD算法的起源与历程 RIPEMD(RACE Integrity Primitives Evaluation Messag…...
如何学习ChatGPT?从入门到精通(附资料下载)
2023 ChatGPT从入门到精通视频教程(共30课).zip 学习ChatGPT需要涉及多个层面,包括理解其基本原理、掌握相关技术、以及进行实际的项目应用。以下是一些具体的学习步骤和建议: 理解ChatGPT的基本原理: 深入了解ChatGP…...
Linux安装MeterSphere并结合内网穿透实现公网远程访问本地服务
文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…...
【 React 】state和props有什么区别?
1. state 一个组件的显示形态可以由数据状态和外部参数所决定,而数据状态就是state,一般在constructor中初始化 当需要修改里面的值的状态需要通过调用setState来改变,从而达到更新组件内部数据的作用,并且重新调用组件render方法…...
So you think you understand IP fragmentation?
文章目录 前言一、Why care?二、Prevention三、Well-understood?四、Introducing fragquiz五、A novel (?) algorithm六、Reader challenge七、traceroute八、ICMP参考资料 前言 本文来自:https://lwn.net/Articles/960913/ February 7, 2024This article was …...
为什么main方法在Java中代表主线程?
main 方法在 Java 等编程语言中确实代表着程序的入口点,也就是程序开始执行的地方。当我们启动一个 Java 应用程序时,JVM(Java 虚拟机)会首先查找 main 方法,并从那里开始执行程序。 关于为什么 main 方法代表主线程&a…...
腾讯 后端 一面(115min)
> 3.3投递 3.5测评 3.7约面 > 03.07 技术架构团队 一. 面试官介绍部门 二. 自我介绍 三. 拷打项目 1. 为什么、怎么用微服务架构改写 2. token无感刷新 3. ipfs用来干什么 为什么又用了minio 4. 怎么用redis做缓存的,缓…...
Python错题集-8:AttributeError(找不到对应的对象的属性)
1问题描述 AttributeError: AxesSubplot object has no attribute arc 2代码详情 import matplotlib.pyplot as plt# 创建一个新的图形和坐标轴 fig, ax plt.subplots()# 定义弧线的参数 center (0.5, 0.5) # 圆心坐标 (x, y) width 1.0 # 半径 height 0.5 # 半径 ang…...
针对娃哈哈和农夫山泉,AI是如何看待的
娃哈哈和农夫山泉事件是中国饮料行业的两个重要事件。娃哈哈和农夫山泉都是中国知名的饮料品牌,两者之间的竞争一直存在。以下是对这两个事件的介绍: 1. 娃哈哈事件:娃哈哈是中国最大的饮料生产企业之一,也是中国最具影响力的品牌…...
【WiFi帧结构】
文章目录 帧结构MAC头部管理帧 帧结构 Wi-Fi的帧分为三部分组成:MAC头部frame bodyFCS,其中MAC是固定格式的,frame body是可变长度。 MAC头部有frame control,duration,address1,address2,addre…...
拉力测试cuda pytorch 把 4070显卡拉满
import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试,通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小,增大可提高计算复杂度duration: 测试持续时间(秒&…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...
Spring是如何解决Bean的循环依赖:三级缓存机制
1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间互相持有对方引用,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...
代码随想录刷题day30
1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币,另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额,返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带…...
LLMs 系列实操科普(1)
写在前面: 本期内容我们继续 Andrej Karpathy 的《How I use LLMs》讲座内容,原视频时长 ~130 分钟,以实操演示主流的一些 LLMs 的使用,由于涉及到实操,实际上并不适合以文字整理,但还是决定尽量整理一份笔…...
【C++进阶篇】智能指针
C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...
Unity中的transform.up
2025年6月8日,周日下午 在Unity中,transform.up是Transform组件的一个属性,表示游戏对象在世界空间中的“上”方向(Y轴正方向),且会随对象旋转动态变化。以下是关键点解析: 基本定义 transfor…...
