LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。
Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。
Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。
这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,需要消耗巨大AI算力,只提供给特定用户。
用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。
下面是对官网文章[1]的翻译:
今天,我们宣布推出Claude 3模型系列,并为一系列认知任务设定了新的行业基准。该系列包括三个最先进的模型,按能力升序排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一个连续的模型都提供了越来越强大的性能,允许用户为其特定应用程序选择智能、速度和成本[2]的最佳平衡。
Opus和Sonnet现在可以在claude.ai和Claude API中使用,后者现在在159个国家[3]普遍可用,Haiku将很快推出。
一、Claude 3 模型家族

二、智能新标准
Opus是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科生级专家知识(MMLU)、研究生级专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解力和流利性,引领了一般智力的前沿。
所有Claude 3[4]模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。
以下是Claude 3模型与我们的同行在多个能力基准[1]上的比较:

三、近乎即时的结果
Claude 3模型可以支持实时客户聊天、自动补全和数据提取任务,这些任务的响应必须是即时的。
Haiku是市场上同类智能模型重速度最快、性价比最高的。它可以在不到三秒的时间内阅读一篇包含图表和图形的arXiv(约10k tokens)研究论文。我们预计在推出后性能将进一步提高。
对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus与Claude 2和2.1的速度相似,但智能水平更高。
四、强大的视觉能力
Claude 3模型拥有与其他领先模型想媲美的先进视觉能力。他们可以处理各种视觉格式,包括照片、图表、图表和技术图表。我们特别高兴能为我们的企业客户提供这种新的模式,其中一些客户的知识库有高达50%的信息以PDF、流程图或演示幻灯片等各种格式编码。

五、更少的拒绝
以前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答接近系统安全边界的提示的可能性要小得多。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并更少地拒绝无害的提示。

六、准确性提高
各种规模的企业都依赖我们的模型为客户服务,因此我们的模型输出必须在规模上保持高精度。为了评估这一点,我们使用了一大组复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将反应分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了两倍,同时错误答案的水平也有所降低。
除了产生更值得信赖的回答外,我们很快将在Claude 3模型中启用引用,以便他们就可以在参考材料中指向精确的句子来验证他们的答案。

七、长语境和近乎完美的回忆
Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,这三种模型都能够接受超过100万个tokens的输入,我们可以将其提供给需要增强处理能力的精选客户。
为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量了模型从大量数据中准确回忆信息的能力。我们通过每个提示使用30个随机针/问题对中的一个,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至可以识别出评估本身的局限性,即“针”句子似乎是由人类人工插入到原始文本中的。

八、负责任的设计
我们开发了Claude 3系列模型,使其尽可能值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和CSAM到生物滥用、选举干预和自主复制技能。我们继续开发宪法AI[5]等方法,以提高我们模型的安全性和透明度,并对我们的模型进行了调整,以缓解新模式可能引发的隐私问题。
解决日益复杂的模型中的偏见是一项持续的努力,我们在这个新版本中取得了进展。如模型卡所示,根据问答偏差基准(BBQ)[6],Claude 3比我们以前的模型显示出更少的偏见。我们仍然致力于推进减少偏见的技术,并在我们的模型中促进更大的中立性,确保它们不会偏向任何特定的党派立场。
尽管与以前的模型相比,Claude 3模型家族在生物知识、网络相关知识和自主性的关键指标上有所进步,但根据我们的负责任扩展政策[7],它仍处于人工智能安全级别2(ASL-2)。我们的红团队评估[8](根据我们的白宫承诺和2023年美国行政命令进行)得出的结论是,这些模型目前存在的灾难性风险可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估其接近ASL-3阈值的程度。更多的安全细节可在Claude 3模型卡[4]中获得。
九、更易于使用
Claude 3模型更善于遵循复杂的、多步骤指令。他们特别善于遵守品牌声音和响应准则,并开发用户可以信任的客户体验。此外,Claude 3模型更擅长以JSON等格式生成流行的结构化输出,这使得在自然语言分类和情感分析等用例中指导Claude变得更简单。
十、模型详细信息
Claude 3 Opus是我们最智能的模型,在高度复杂的任务中具有市场上最好的性能。它可以以非凡的流畅度和类人般的理解力浏览开放式提示和看不见的场景。Opus向我们展示了生成人工智能的外部极限。

Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其是对于企业工作负载。与同类模型相比,它以更低的成本提供了强大的性能,并在大规模人工智能部署中实现了高耐久性。

Claude 3 Haiku是我们速度最快、最紧凑的车型,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类互动的无缝人工智能体验。

十一、模型可用性
Opus和Sonnet现在可以在我们的API中使用,该API现在普遍可用,使开发人员能够立即注册并开始使用这些模型,Haiku很快就会推出。Sonnet正在claude.ai上提供免费体验,claude Pro用户可以使用Opus。
Sonnet今天也可以通过Amazon Bedrock和谷歌云的Vertex AI Model Garden进行私人预览,Opus和Haiku很快就会同时推出。
十二、更智能、更快、更安全
我们不认为模型智能已经接近极限,我们计划在未来几个月内频繁发布Claude 3模型系列的更新。我们还很高兴能够发布一系列功能来增强我们模型的功能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)和更高级的代理功能。
当我们突破人工智能能力的极限时,我们同样致力于确保我们的安全防护措施与这些性能的飞跃保持同步。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方法。
我们很高兴看到你用Claude 3创造了什么,希望你能给我们反馈,让Claude成为一个更有用的助手和创造性的伙伴。要开始与Claude合作,请访问anthropic.com/Claude。
参考文献:
[1] https://www.anthropic.com/news/claude-3-family
[2] https://www.anthropic.com/api#pricing
[3] https://www.anthropic.com/supported-countries
[4] https://www.anthropic.com/claude-3-model-card
[5] https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback
[6] https://aclanthology.org/2022.findings-acl.165/
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.anthropic.com/news/red-teaming-language-models-to-reduce-harms-methods-scaling-behaviors-and-lessons-learned
相关文章:
LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型
2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。 Haiku模型更注重效率,能…...
20-Java备忘录模式 ( Memento Pattern )
Java备忘录模式 摘要实现范例 备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象 备忘录模式属于行为型模式 摘要 1. 意图 在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对…...
整合生成型AI战略:从宏观思维到小步实践
“整合生成型AI战略:从宏观思维到小步实践” 在这篇文章中,我们探讨了将生成型AI和大型语言模型融入企业核心业务的战略开发方法。我们的方法基于敏捷开发原则,技术专家和数据科学家需要采纳商业思维,而执行官则需理解生成型AI和…...
个人博客系列-后端项目-用户验证(5)
介绍 创建系统管理app,用于管理系统的用户,角色,权限,登录等功能,项目中将使用django-rest_framework进行用户认证和权限解析。这里将完成用户认证 用户验证 rest_framework.authentication模块中的认证类ÿ…...
css3中nth-child属性作用及用法剖析
hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 标题:CSS3中nth-child属性作用及用法剖析 摘要:CSS3中的nth-child选择器允许我们根据元素位置来定位特定的元素…...
okHttp MediaType MIME格式详解
一、介绍 我们在做数据上传时,经常会用到Okhttp的开源库,okhttp开源库也遵循html提交的MIME数据格式。 所以我们经常会看到applicaiton/json这样的格式在传。 但是如果涉及到其他文件等就需要详细的数据格式,否则服务端无法解析 二、okHt…...
跨境电商三大趋势
跨境电商有着不断发展的三大趋势: 个性化定制:随着消费者需求的不断变化和个性化定制的潮流,跨境电商平台开始提供更多的定制化服务。消费者可以根据自己的需求选择产品的款式、材料和设计,从而获得更加个性化的产品体验。 无界销…...
【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试
【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试 目录 【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试核心概念资源监控生命周期管理Cluster维护安全认证问题排查其他推荐超级课程: Docker快速入门到精通Kubernetes入门到大师通关课这些是我在准备CK...
Mysql数据库-基本表操作
1.表操作 创建表:CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎; field 表示列名 datatype 表示列的类型 character set 字符集,如果没有指定字符集ÿ…...
OceanBase社区版单节点安装搭建(Docker)
OceanBase社区版单节点安装搭建(Docker) 文章目录 OceanBase社区版单节点安装搭建(Docker)一、环境检查及Docker配置1.1 安装docker1.2 配置docker镜像源 二、OB镜像下载三、obd部署单节点数据库四、创建业务租户、数据库、表4.1 …...
Unity 关节:铰链、弹簧、固定、物理材质:摩檫力、 特效:拖尾、
组件-物理-关节:铰链(类似门轴) 自动动作、多少力可以将其断开、 弹簧可以连接另一个刚体(拖动即可) 固定一般是等待一个断裂力,造成四分五裂的效果。 物理材质 设置摩檫力,则可以创造冰面的…...
RIPEMD算法:多功能哈希算法的瑰宝
title: RIPEMD算法:多功能哈希算法的瑰宝 date: 2024/3/10 17:31:17 updated: 2024/3/10 17:31:17 tags: RIPEMD起源算法优势安全风险对比SHA优于MD5应用领域工作原理 一、RIPEMD算法的起源与历程 RIPEMD(RACE Integrity Primitives Evaluation Messag…...
如何学习ChatGPT?从入门到精通(附资料下载)
2023 ChatGPT从入门到精通视频教程(共30课).zip 学习ChatGPT需要涉及多个层面,包括理解其基本原理、掌握相关技术、以及进行实际的项目应用。以下是一些具体的学习步骤和建议: 理解ChatGPT的基本原理: 深入了解ChatGP…...
Linux安装MeterSphere并结合内网穿透实现公网远程访问本地服务
文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…...
【 React 】state和props有什么区别?
1. state 一个组件的显示形态可以由数据状态和外部参数所决定,而数据状态就是state,一般在constructor中初始化 当需要修改里面的值的状态需要通过调用setState来改变,从而达到更新组件内部数据的作用,并且重新调用组件render方法…...
So you think you understand IP fragmentation?
文章目录 前言一、Why care?二、Prevention三、Well-understood?四、Introducing fragquiz五、A novel (?) algorithm六、Reader challenge七、traceroute八、ICMP参考资料 前言 本文来自:https://lwn.net/Articles/960913/ February 7, 2024This article was …...
为什么main方法在Java中代表主线程?
main 方法在 Java 等编程语言中确实代表着程序的入口点,也就是程序开始执行的地方。当我们启动一个 Java 应用程序时,JVM(Java 虚拟机)会首先查找 main 方法,并从那里开始执行程序。 关于为什么 main 方法代表主线程&a…...
腾讯 后端 一面(115min)
> 3.3投递 3.5测评 3.7约面 > 03.07 技术架构团队 一. 面试官介绍部门 二. 自我介绍 三. 拷打项目 1. 为什么、怎么用微服务架构改写 2. token无感刷新 3. ipfs用来干什么 为什么又用了minio 4. 怎么用redis做缓存的,缓…...
Python错题集-8:AttributeError(找不到对应的对象的属性)
1问题描述 AttributeError: AxesSubplot object has no attribute arc 2代码详情 import matplotlib.pyplot as plt# 创建一个新的图形和坐标轴 fig, ax plt.subplots()# 定义弧线的参数 center (0.5, 0.5) # 圆心坐标 (x, y) width 1.0 # 半径 height 0.5 # 半径 ang…...
针对娃哈哈和农夫山泉,AI是如何看待的
娃哈哈和农夫山泉事件是中国饮料行业的两个重要事件。娃哈哈和农夫山泉都是中国知名的饮料品牌,两者之间的竞争一直存在。以下是对这两个事件的介绍: 1. 娃哈哈事件:娃哈哈是中国最大的饮料生产企业之一,也是中国最具影响力的品牌…...
多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度
一、引言:多云环境的技术复杂性本质 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时,基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套:跨云网络构建数据…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...
Linux链表操作全解析
Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表?1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...
进程地址空间(比特课总结)
一、进程地址空间 1. 环境变量 1 )⽤户级环境变量与系统级环境变量 全局属性:环境变量具有全局属性,会被⼦进程继承。例如当bash启动⼦进程时,环 境变量会⾃动传递给⼦进程。 本地变量限制:本地变量只在当前进程(ba…...
Cinnamon修改面板小工具图标
Cinnamon开始菜单-CSDN博客 设置模块都是做好的,比GNOME简单得多! 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...
rnn判断string中第一次出现a的下标
# coding:utf8 import torch import torch.nn as nn import numpy as np import random import json""" 基于pytorch的网络编写 实现一个RNN网络完成多分类任务 判断字符 a 第一次出现在字符串中的位置 """class TorchModel(nn.Module):def __in…...
Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信
文章目录 Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket(服务端和客户端都要)2. 绑定本地地址和端口&#x…...
Java + Spring Boot + Mybatis 实现批量插入
在 Java 中使用 Spring Boot 和 MyBatis 实现批量插入可以通过以下步骤完成。这里提供两种常用方法:使用 MyBatis 的 <foreach> 标签和批处理模式(ExecutorType.BATCH)。 方法一:使用 XML 的 <foreach> 标签ÿ…...
【 java 虚拟机知识 第一篇 】
目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...
tomcat入门
1 tomcat 是什么 apache开发的web服务器可以为java web程序提供运行环境tomcat是一款高效,稳定,易于使用的web服务器tomcathttp服务器Servlet服务器 2 tomcat 目录介绍 -bin #存放tomcat的脚本 -conf #存放tomcat的配置文件 ---catalina.policy #to…...
