当前位置: 首页 > news >正文

LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

        2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。

        Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。

        Haiku模型更注重效率,能以3秒时间阅读一份10,000 tokens的论文;Sonnet比之前的Claude 2/2.1版本更智能,适用于知识检索等任务。

       这三个模型目前都支持20万上下文窗口。Anthropic表示,它们也支持100万上下文,需要消耗巨大AI算力,只提供给特定用户。

       用户可免费使用Claude 3 Sonnet模型(https://claude.ai/chats);如果想使用最强大的Opus 版本需要开通会员;Haiku 模型即将推出。

下面是对官网文章[1]的翻译:

       今天,我们宣布推出Claude 3模型系列,并为一系列认知任务设定了新的行业基准。该系列包括三个最先进的模型,按能力升序排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一个连续的模型都提供了越来越强大的性能,允许用户为其特定应用程序选择智能、速度和成本[2]的最佳平衡。

       Opus和Sonnet现在可以在claude.ai和Claude API中使用,后者现在在159个国家[3]普遍可用,Haiku将很快推出。

一、Claude 3 模型家族

二、智能新标准

        Opus是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科生级专家知识(MMLU)、研究生级专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解力和流利性,引领了一般智力的前沿。

       所有Claude 3[4]模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。

       以下是Claude 3模型与我们的同行在多个能力基准[1]上的比较:

三、近乎即时的结果

       Claude 3模型可以支持实时客户聊天、自动补全和数据提取任务,这些任务的响应必须是即时的。

       Haiku是市场上同类智能模型重速度最快、性价比最高的。它可以在不到三秒的时间内阅读一篇包含图表和图形的arXiv(约10k tokens)研究论文。我们预计在推出后性能将进一步提高。

       对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快2倍,智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus与Claude 2和2.1的速度相似,但智能水平更高。

四、强大的视觉能力

       Claude 3模型拥有与其他领先模型想媲美的先进视觉能力。他们可以处理各种视觉格式,包括照片、图表、图表和技术图表。我们特别高兴能为我们的企业客户提供这种新的模式,其中一些客户的知识库有高达50%的信息以PDF、流程图或演示幻灯片等各种格式编码。

五、更少的拒绝

       以前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答接近系统安全边界的提示的可能性要小得多。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并更少地拒绝无害的提示。

六、准确性提高

       各种规模的企业都依赖我们的模型为客户服务,因此我们的模型输出必须在规模上保持高精度。为了评估这一点,我们使用了一大组复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将反应分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了两倍,同时错误答案的水平也有所降低。

       除了产生更值得信赖的回答外,我们很快将在Claude 3模型中启用引用,以便他们就可以在参考材料中指向精确的句子来验证他们的答案。

七、长语境和近乎完美的回忆

       Claude 3系列模型最初将在发布时提供200K上下文窗口。然而,这三种模型都能够接受超过100万个tokens的输入,我们可以将其提供给需要增强处理能力的精选客户。

       为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量了模型从大量数据中准确回忆信息的能力。我们通过每个提示使用30个随机针/问题对中的一个,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至可以识别出评估本身的局限性,即“针”句子似乎是由人类人工插入到原始文本中的。

八、负责任的设计

       我们开发了Claude 3系列模型,使其尽可能值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和CSAM到生物滥用、选举干预和自主复制技能。我们继续开发宪法AI[5]等方法,以提高我们模型的安全性和透明度,并对我们的模型进行了调整,以缓解新模式可能引发的隐私问题。

       解决日益复杂的模型中的偏见是一项持续的努力,我们在这个新版本中取得了进展。如模型卡所示,根据问答偏差基准(BBQ)[6],Claude 3比我们以前的模型显示出更少的偏见。我们仍然致力于推进减少偏见的技术,并在我们的模型中促进更大的中立性,确保它们不会偏向任何特定的党派立场。

       尽管与以前的模型相比,Claude 3模型家族在生物知识、网络相关知识和自主性的关键指标上有所进步,但根据我们的负责任扩展政策[7],它仍处于人工智能安全级别2(ASL-2)。我们的红团队评估[8](根据我们的白宫承诺和2023年美国行政命令进行)得出的结论是,这些模型目前存在的灾难性风险可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估其接近ASL-3阈值的程度。更多的安全细节可在Claude 3模型卡[4]中获得。

九、更易于使用

       Claude 3模型更善于遵循复杂的、多步骤指令。他们特别善于遵守品牌声音和响应准则,并开发用户可以信任的客户体验。此外,Claude 3模型更擅长以JSON等格式生成流行的结构化输出,这使得在自然语言分类和情感分析等用例中指导Claude变得更简单。

十、模型详细信息

       Claude 3 Opus是我们最智能的模型,在高度复杂的任务中具有市场上最好的性能。它可以以非凡的流畅度和类人般的理解力浏览开放式提示和看不见的场景。Opus向我们展示了生成人工智能的外部极限。

       Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其是对于企业工作负载。与同类模型相比,它以更低的成本提供了强大的性能,并在大规模人工智能部署中实现了高耐久性。

       Claude 3 Haiku是我们速度最快、最紧凑的车型,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类互动的无缝人工智能体验。

十一、模型可用性

       Opus和Sonnet现在可以在我们的API中使用,该API现在普遍可用,使开发人员能够立即注册并开始使用这些模型,Haiku很快就会推出。Sonnet正在claude.ai上提供免费体验,claude Pro用户可以使用Opus。

       Sonnet今天也可以通过Amazon Bedrock和谷歌云的Vertex AI Model Garden进行私人预览,Opus和Haiku很快就会同时推出。

十二、更智能、更快、更安全

       我们不认为模型智能已经接近极限,我们计划在未来几个月内频繁发布Claude 3模型系列的更新。我们还很高兴能够发布一系列功能来增强我们模型的功能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(也称为函数调用)、交互式编码(也称为REPL)和更高级的代理功能。

       当我们突破人工智能能力的极限时,我们同样致力于确保我们的安全防护措施与这些性能的飞跃保持同步。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方法。

       我们很高兴看到你用Claude 3创造了什么,希望你能给我们反馈,让Claude成为一个更有用的助手和创造性的伙伴。要开始与Claude合作,请访问anthropic.com/Claude。

参考文献:

[1] https://www.anthropic.com/news/claude-3-family

[2] https://www.anthropic.com/api#pricing

[3] https://www.anthropic.com/supported-countries

[4] https://www.anthropic.com/claude-3-model-card

[5] https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback

[6] https://aclanthology.org/2022.findings-acl.165/

[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy

[8] https://www.anthropic.com/news/red-teaming-language-models-to-reduce-harms-methods-scaling-behaviors-and-lessons-learned

相关文章:

LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。 Haiku模型更注重效率,能…...

20-Java备忘录模式 ( Memento Pattern )

Java备忘录模式 摘要实现范例 备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象 备忘录模式属于行为型模式 摘要 1. 意图 在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对…...

整合生成型AI战略:从宏观思维到小步实践

“整合生成型AI战略:从宏观思维到小步实践” 在这篇文章中,我们探讨了将生成型AI和大型语言模型融入企业核心业务的战略开发方法。我们的方法基于敏捷开发原则,技术专家和数据科学家需要采纳商业思维,而执行官则需理解生成型AI和…...

个人博客系列-后端项目-用户验证(5)

介绍 创建系统管理app,用于管理系统的用户,角色,权限,登录等功能,项目中将使用django-rest_framework进行用户认证和权限解析。这里将完成用户认证 用户验证 rest_framework.authentication模块中的认证类&#xff…...

css3中nth-child属性作用及用法剖析

hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 标题:CSS3中nth-child属性作用及用法剖析 摘要:CSS3中的nth-child选择器允许我们根据元素位置来定位特定的元素…...

okHttp MediaType MIME格式详解

一、介绍 我们在做数据上传时,经常会用到Okhttp的开源库,okhttp开源库也遵循html提交的MIME数据格式。 所以我们经常会看到applicaiton/json这样的格式在传。 但是如果涉及到其他文件等就需要详细的数据格式,否则服务端无法解析 二、okHt…...

跨境电商三大趋势

跨境电商有着不断发展的三大趋势: 个性化定制:随着消费者需求的不断变化和个性化定制的潮流,跨境电商平台开始提供更多的定制化服务。消费者可以根据自己的需求选择产品的款式、材料和设计,从而获得更加个性化的产品体验。 无界销…...

【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试

【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试 目录 【DevOps基础篇之k8s】如何通过Kubernetes CKA认证考试核心概念资源监控生命周期管理Cluster维护安全认证问题排查其他推荐超级课程: Docker快速入门到精通Kubernetes入门到大师通关课这些是我在准备CK...

Mysql数据库-基本表操作

1.表操作 创建表:CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎; field 表示列名 datatype 表示列的类型 character set 字符集,如果没有指定字符集&#xff…...

OceanBase社区版单节点安装搭建(Docker)

OceanBase社区版单节点安装搭建(Docker) 文章目录 OceanBase社区版单节点安装搭建(Docker)一、环境检查及Docker配置1.1 安装docker1.2 配置docker镜像源 二、OB镜像下载三、obd部署单节点数据库四、创建业务租户、数据库、表4.1 …...

Unity 关节:铰链、弹簧、固定、物理材质:摩檫力、 特效:拖尾、

组件-物理-关节:铰链(类似门轴) 自动动作、多少力可以将其断开、 弹簧可以连接另一个刚体(拖动即可) 固定一般是等待一个断裂力,造成四分五裂的效果。 物理材质 设置摩檫力,则可以创造冰面的…...

RIPEMD算法:多功能哈希算法的瑰宝

title: RIPEMD算法:多功能哈希算法的瑰宝 date: 2024/3/10 17:31:17 updated: 2024/3/10 17:31:17 tags: RIPEMD起源算法优势安全风险对比SHA优于MD5应用领域工作原理 一、RIPEMD算法的起源与历程 RIPEMD(RACE Integrity Primitives Evaluation Messag…...

如何学习ChatGPT?从入门到精通(附资料下载)

2023 ChatGPT从入门到精通视频教程(共30课).zip 学习ChatGPT需要涉及多个层面,包括理解其基本原理、掌握相关技术、以及进行实际的项目应用。以下是一些具体的学习步骤和建议: 理解ChatGPT的基本原理: 深入了解ChatGP…...

Linux安装MeterSphere并结合内网穿透实现公网远程访问本地服务

文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…...

【 React 】state和props有什么区别?

1. state 一个组件的显示形态可以由数据状态和外部参数所决定,而数据状态就是state,一般在constructor中初始化 当需要修改里面的值的状态需要通过调用setState来改变,从而达到更新组件内部数据的作用,并且重新调用组件render方法…...

So you think you understand IP fragmentation?

文章目录 前言一、Why care?二、Prevention三、Well-understood?四、Introducing fragquiz五、A novel (?) algorithm六、Reader challenge七、traceroute八、ICMP参考资料 前言 本文来自:https://lwn.net/Articles/960913/ February 7, 2024This article was …...

为什么main方法在Java中代表主线程?

main 方法在 Java 等编程语言中确实代表着程序的入口点,也就是程序开始执行的地方。当我们启动一个 Java 应用程序时,JVM(Java 虚拟机)会首先查找 main 方法,并从那里开始执行程序。 关于为什么 main 方法代表主线程&a…...

腾讯 后端 一面(115min)

> 3.3投递 3.5测评 3.7约面 > 03.07 技术架构团队 一. 面试官介绍部门 二. 自我介绍 三. 拷打项目 1. 为什么、怎么用微服务架构改写 2. token无感刷新 3. ipfs用来干什么 为什么又用了minio 4. 怎么用redis做缓存的,缓…...

Python错题集-8:AttributeError(找不到对应的对象的属性)

1问题描述 AttributeError: AxesSubplot object has no attribute arc 2代码详情 import matplotlib.pyplot as plt# 创建一个新的图形和坐标轴 fig, ax plt.subplots()# 定义弧线的参数 center (0.5, 0.5) # 圆心坐标 (x, y) width 1.0 # 半径 height 0.5 # 半径 ang…...

针对娃哈哈和农夫山泉,AI是如何看待的

娃哈哈和农夫山泉事件是中国饮料行业的两个重要事件。娃哈哈和农夫山泉都是中国知名的饮料品牌,两者之间的竞争一直存在。以下是对这两个事件的介绍: 1. 娃哈哈事件:娃哈哈是中国最大的饮料生产企业之一,也是中国最具影响力的品牌…...

PHP和Node.js哪个更爽?

先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...

什么是库存周转?如何用进销存系统提高库存周转率?

你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...

基础测试工具使用经验

背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...

ArcPy扩展模块的使用(3)

管理工程项目 arcpy.mp模块允许用户管理布局、地图、报表、文件夹连接、视图等工程项目。例如,可以更新、修复或替换图层数据源,修改图层的符号系统,甚至自动在线执行共享要托管在组织中的工程项。 以下代码展示了如何更新图层的数据源&…...

Windows 下端口占用排查与释放全攻略

Windows 下端口占用排查与释放全攻略​ 在开发和运维过程中,经常会遇到端口被占用的问题(如 8080、3306 等常用端口)。本文将详细介绍如何通过命令行和图形化界面快速定位并释放被占用的端口,帮助你高效解决此类问题。​ 一、准…...

高效的后台管理系统——可进行二次开发

随着互联网技术的迅猛发展,企业的数字化管理变得愈加重要。后台管理系统作为数据存储与业务管理的核心,成为了现代企业不可或缺的一部分。今天我们要介绍的是一款名为 若依后台管理框架 的系统,它不仅支持跨平台应用,还能提供丰富…...

C++11 constexpr和字面类型:从入门到精通

文章目录 引言一、constexpr的基本概念与使用1.1 constexpr的定义与作用1.2 constexpr变量1.3 constexpr函数1.4 constexpr在类构造函数中的应用1.5 constexpr的优势 二、字面类型的基本概念与使用2.1 字面类型的定义与作用2.2 字面类型的应用场景2.2.1 常量定义2.2.2 模板参数…...

大模型真的像人一样“思考”和“理解”吗?​

Yann LeCun 新研究的核心探讨:大语言模型(LLM)的“理解”和“思考”方式与人类认知的根本差异。 核心问题:大模型真的像人一样“思考”和“理解”吗? 人类的思考方式: 你的大脑是个超级整理师。面对海量信…...

Springboot 高校报修与互助平台小程序

一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,高校报修与互助平台小程序被用户普遍使用,为…...

华为OD机考- 简单的自动曝光/平均像素

import java.util.Arrays; import java.util.Scanner;public class DemoTest4 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint[] arr Array…...