[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)
目录
- qwen2 发布,在 Ollama 已可用
- Qwen2 模型概览 (基于 Ollama 网站信息)
- 一、模型介绍
- 二、模型参数
- 三、支持语言 (除英语和中文外)
- 四、模型性能
- 五、许可证
- 六、数据支撑:
- 采用语言模型构建通用 AGI
qwen2 发布,在 Ollama 已可用
Qwen2 模型概览 (基于 Ollama 网站信息)
一、模型介绍
- 由阿里巴巴开发的新系列大型语言模型。
- 训练数据涵盖 29 种语言,包括 英语和中文。
- 提供 4 种参数规模: 0.5B、1.5B、7B、72B。
- 7B 和 72B 模型的上下文长度扩展至 128k tokens。
二、模型参数
模型 | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-72B |
---|---|---|---|---|
参数量 | 0.49B | 1.54B | 7.07B | 72.71B |
非嵌入参数量 | 0.35B | 1.31B | 5.98B | 70.21B |
GQA | 支持 | 支持 | 支持 | 支持 |
绑定嵌入 | 支持 | 支持 | 不支持 | 不支持 |
上下文长度 | 32K | 32K | 128K | 128K |
三、支持语言 (除英语和中文外)
- 西欧: 德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
- 东欧和中欧: 俄语、捷克语、波兰语
- 中东: 阿拉伯语、波斯语、希伯来语、土耳其语
- 东亚: 日语、韩语
- 东南亚: 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语
- 南亚: 印地语、孟加拉语、乌尔都语
四、模型性能
- 网站提供了四张图片展示 Qwen2 模型在不同任务上的性能表现,包括:
- 代码生成 (HumanEval)
- 常识推理 (MMLU)
- 阅读理解 (TriviaQA)
- 数学推理 (GSM8K)
五、许可证
- 除 Qwen2 72B (包括指令模型和基础模型) 外,所有模型均采用 Apache 2.0 许可证。
- Qwen2 72B 模型仍使用原始的 Qianwen 许可证。
六、数据支撑:
以上信息均来自 Ollama 网站上关于 Qwen2 模型的介绍页面。
以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:
x jina r 'https://ollama.com/library/qwen2' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据 支撑,用中文'
采用语言模型构建通用 AGI
这篇文章探讨了利用大型语言模型构建通用人工智能 (AGI) 的可能性。
核心观点:
- 语言模型的最终目标是最大化其对自然语言数据的似然性。
- 随着模型规模的扩大,损失函数会不断下降,最终逼近自然语言的香农熵。
- 当损失函数接近香农熵时,语言模型将被迫发展出强大的世界模型,才能进一步提高预测能力。
- 可以利用语言模型的这种世界模型能力,结合目标设定和蒙特卡洛树搜索等技术,构建出能够执行复杂任务的智能体。
文章结构:
- 引言: GPT-3 虽然强大,但并非 AGI。然而,语言模型与其他 AI 系统不同,它能够通过自然语言编码整个世界的知识。
- 世界模型:
- 语言模型通过不断优化预测下一个词的能力,最终会隐式地学习到世界的运作方式。
- 随着模型规模的扩大,其世界模型的准确性和复杂性也会随之提高。
- 构建智能体:
- 世界模型本身并不能构成智能体,还需要设定目标和行动策略。
- 可以通过向语言模型提问的方式,获取其对不同行动方案的预期奖励,并利用蒙特卡洛树搜索等方法选 择最佳行动。
- 智能体的状态和行动都可以用自然语言表示,并通过专门的模块与外部世界进行交互。
- 结论:
- 目前的技术水平尚未达到利用语言模型构建 AGI 的程度,但这是一个值得探索的方向。
- 文章中提出的方法依赖于一些假设,例如更大规模的模型将拥有更强的世界模型能力。
数据支撑:
- 文章引用了 GPT-3 的论文,证明了模型规模与性能之间的正相关关系。
- 文章还提到了其他研究,例如 iGPT 可以将图像转换为文本,以及一些将自然语言转换为代码或命令的技术。
需要进一步探讨的问题:
- 更大规模的语言模型是否真的能够发展出足够强大的世界模型?
- 如何有效地设定目标并引导语言模型的行动?
- 如何确保基于语言模型的 AGI 的安全性?
中文补充:
- 文章中提到的香农熵,是指衡量信息量大小的指标,可以理解为表示某个信息所需的最小比特数。
- 蒙特卡洛树搜索是一种基于随机模拟的搜索算法,常用于围棋等游戏 AI 中。
- 文章中提到的“智能体”,是指能够感知环境、做出决策并执行行动的实体。
总结:
这篇文章为利用语言模型构建 AGI 提供了一个新的思路,但同时也提出了一些需要解决的挑战。随着语言模 型技术的不断发展,相信未来会有更多相关的研究和应用出现。
以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:
x jina r 'https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据支撑,用中文'
更多内容请查阅 : blog-240609
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法
相关文章:
[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)
目录 qwen2 发布,在 Ollama 已可用Qwen2 模型概览 (基于 Ollama 网站信息)一、模型介绍二、模型参数三、支持语言 (除英语和中文外)四、模型性能五、许可证六、数据支撑: 采用语言模型构建通用 AGI qwen2 发布,在 Ollama 已可用 Qwen2 模型概览 (基于 O…...
赶紧收藏!2024 年最常见 20道分布式、微服务面试题(五)
上一篇地址:赶紧收藏!2024 年最常见 20道分布式、微服务面试题(四)-CSDN博客 九、在分布式系统中,如何保证数据一致性? 在分布式系统中保证数据一致性是一个复杂的问题,因为分布式系统由多个独…...

为什么Kubernetes(K8S)弃用Docker:深度解析与未来展望
为什么Kubernetes弃用Docker:深度解析与未来展望 🚀 为什么Kubernetes弃用Docker:深度解析与未来展望摘要引言正文内容(详细介绍)什么是 Kubernetes?什么是 Docker?Kubernetes 和 Docker 的关系…...

软件游戏提示msvcp120.dll丢失的解决方法,总结多种靠谱的解决方法
在电脑使用过程中,我们可能会遇到一些错误提示,其中之一就是“找不到msvcp120.dll”。那么,msvcp120.dll是什么?它对电脑有什么影响?有哪些解决方法?本文将从以下几个方面进行探讨。 一,了解msv…...

使用kafka tools工具连接带有用户名密码的kafka
使用kafka tools工具连接带有用户名密码的kafka 创建kafka连接,配置zookeeper 在Security选择Type类型为SASL Plaintext 在Advanced页面添加如下图红框框住的内容 在JAAS_Config加上如下配置 需要加的配置: org.apache.kafka.common.security.plain.Pla…...

[个人感悟] Java基础问题应该考察哪些问题?
前言 “一切代码无非是数据结构和算法流程的结合体.” 忘了最初是在何处看见这句话了, 这句话, 对于Java基础的考察也是一样. 正如这句话所说, 我们对于基础的考察主要考察, 数据结构, 集合类型结构, 异常类型, 已经代码的调用和语法关键字. 其中数据结构和集合类型结构是重点…...

MySQL-主从复制
1、主从复制的理解 在工作用常见Redis作为缓存与MySQL一起使用。当有请求时,首先会从缓存中进行查找,如果存在就直接取出,否则访问数据库,这样 提升了读取的效率,也减少了对后台数据库的访问压力。Redis的缓存架构时高…...

开发没有尽头,尽力既是完美
最近遇到了一些难题,开发系统总有一些地方没有考虑周全,偏偏用户使用的时候“完美复现”了这个隐藏的Bug...... 讲道理创业一年之久为了生存,我一直都有在做复盘,复盘的核心就是:如何提升营收、把控开发质量࿰…...

【手推公式】如何求SDE的解(附录B)
【手推公式】如何求SDE的解(附录B) 核心思路:不直接求VE和VP的SDE的解xt,而是求xt的期望和方差,从而写出x0到xt的条件分布形式(附录B) 论文:Score-Based Generative Modeling throug…...

STM32F103单片机工程移植到航顺单片机HK32F103注意事项
一、简介 作为国内MCU厂商中前三阵营之一的航顺芯片,建立了世界首创超低功耗7nA物联网、万物互联核心处理器浩瀚天际10X系列平台,接受代理商/设计企业/方案商定制低于自主研发十倍以上成本,接近零风险自主品牌产品,芯片设计完成只…...

Llama模型家族之Stanford NLP ReFT源代码探索 (四)Pyvene论文学习
LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…...
rapidjson 打包过程插入对象
开发过程中遇到一种情况,在打包过程中插入一个字符串(里面是json对象), 官方文档 没看到相关例子,不知道是不是自己粗心没找到。方法RawValue其实是一个通用打包方法,一般情况我们都调用的是String()、Int(…...

NVeloDocx一个基于NVelocity的word模版引擎
NVeloDocx是一个基于NVelocity的Word模版引擎,目前主要是用于E6低代码开发平台供用户轻松制作各种Word报告模版。 有以下优点: 1、完全的NVelocity语法; 2、直接在Word中写NVelocity脚本,使用非常非常方便; 3、完全兼…...

【JavaEE】Spring IoCDI详解
一.基本概念 1.Ioc基本概念 Ioc: Inversion of Control (控制反转), 也就是说 Spring 是⼀个"控制反转"的容器. 什么是控制反转呢? 也就是控制权反转. 什么的控制权发发了反转? 获得依赖对象的过程被反转了也就是说, 当需要某个对象时, 传统开发模式中需要自己通…...
Bean的作用域
singleton : 单例,IOC 容器中只有唯一的 bean 实例。Spring 中的 bean 默认都是单例的,是对单例设计模式的应用。 prototype : 原型,每次获取都会创建一个新的 bean 实例。也就是说,连续 getBean() 两次,得到的是不同…...

卡尔曼滤波器例子
卡尔曼滤波器 卡尔曼滤波器(Kalman Filter)是一种用于线性系统状态估计的递归算法,可以有效地融合传感器数据和系统模型来估计系统的状态。它在机器人学中广泛应用,尤其是位置和速度等状态的估计。通过卡尔曼滤波器,可以有效地估计机器人在二维平面内的真实位置,并减小测…...
Web前端发展路线:深度解析与未来展望
Web前端发展路线:深度解析与未来展望 在数字化时代的浪潮中,Web前端技术日新月异,成为推动互联网行业发展的重要引擎。本文将从四个方面、五个方面、六个方面和七个方面,深入探讨Web前端的发展路线,为您揭示这一领域的…...

Unity3D入门基础知识汇总
1. unity界面 右上边可以切换布局。 左边选择Shaded wireframe,可以看到3D物体的都是由三角形组成的。 2. 物体显示 网格(三角形构成) 材质 3. 资源商店 Windows -> Asset Store 挑出喜欢的资源之后,点击”添加至我的…...

Triton学习笔记
b站链接:合集Triton 从入门到精通 文章目录 算法名词解释:scheduler 任务调度器model instance、inference和requestbatching 一、Triton Inference Server原理1. Overview of Trition2. Design Basics of Trition3. Auxiliary Features of Trition4. A…...

办理公司诉讼记录删除行政处罚记录删除
企业行政处罚记录是可以做到撤销消除的,一直被大多数企业忽略,如果相关诉讼记录得不到及时删除,不仅影响企业招投标,还影响企业的贷款申请,严重的让企业资金链断裂,影响企业长远发展和企业形象。行政处罚是…...
浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)
✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义(Task Definition&…...

边缘计算医疗风险自查APP开发方案
核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

el-switch文字内置
el-switch文字内置 效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

2025盘古石杯决赛【手机取证】
前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来,实在找不到,希望有大佬教一下我。 还有就会议时间,我感觉不是图片时间,因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...
Spring AI 入门:Java 开发者的生成式 AI 实践之路
一、Spring AI 简介 在人工智能技术快速迭代的今天,Spring AI 作为 Spring 生态系统的新生力量,正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务(如 OpenAI、Anthropic)的无缝对接&…...

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战
“🤖手搓TuyaAI语音指令 😍秒变表情包大师,让萌系Otto机器人🔥玩出智能新花样!开整!” 🤖 Otto机器人 → 直接点明主体 手搓TuyaAI语音 → 强调 自主编程/自定义 语音控制(TuyaAI…...
06 Deep learning神经网络编程基础 激活函数 --吴恩达
深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

ArcGIS Pro制作水平横向图例+多级标注
今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作:ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等(ArcGIS出图图例8大技巧),那这次我们看看ArcGIS Pro如何更加快捷的操作。…...

听写流程自动化实践,轻量级教育辅助
随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...
A2A JS SDK 完整教程:快速入门指南
目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库ÿ…...