[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)
目录
- qwen2 发布,在 Ollama 已可用
- Qwen2 模型概览 (基于 Ollama 网站信息)
- 一、模型介绍
- 二、模型参数
- 三、支持语言 (除英语和中文外)
- 四、模型性能
- 五、许可证
- 六、数据支撑:
- 采用语言模型构建通用 AGI
qwen2 发布,在 Ollama 已可用
Qwen2 模型概览 (基于 Ollama 网站信息)
一、模型介绍
- 由阿里巴巴开发的新系列大型语言模型。
- 训练数据涵盖 29 种语言,包括 英语和中文。
- 提供 4 种参数规模: 0.5B、1.5B、7B、72B。
- 7B 和 72B 模型的上下文长度扩展至 128k tokens。
二、模型参数
| 模型 | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-72B |
|---|---|---|---|---|
| 参数量 | 0.49B | 1.54B | 7.07B | 72.71B |
| 非嵌入参数量 | 0.35B | 1.31B | 5.98B | 70.21B |
| GQA | 支持 | 支持 | 支持 | 支持 |
| 绑定嵌入 | 支持 | 支持 | 不支持 | 不支持 |
| 上下文长度 | 32K | 32K | 128K | 128K |
三、支持语言 (除英语和中文外)
- 西欧: 德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
- 东欧和中欧: 俄语、捷克语、波兰语
- 中东: 阿拉伯语、波斯语、希伯来语、土耳其语
- 东亚: 日语、韩语
- 东南亚: 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语
- 南亚: 印地语、孟加拉语、乌尔都语
四、模型性能
- 网站提供了四张图片展示 Qwen2 模型在不同任务上的性能表现,包括:
- 代码生成 (HumanEval)
- 常识推理 (MMLU)
- 阅读理解 (TriviaQA)
- 数学推理 (GSM8K)
五、许可证
- 除 Qwen2 72B (包括指令模型和基础模型) 外,所有模型均采用 Apache 2.0 许可证。
- Qwen2 72B 模型仍使用原始的 Qianwen 许可证。
六、数据支撑:
以上信息均来自 Ollama 网站上关于 Qwen2 模型的介绍页面。
以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:
x jina r 'https://ollama.com/library/qwen2' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据 支撑,用中文'
采用语言模型构建通用 AGI
这篇文章探讨了利用大型语言模型构建通用人工智能 (AGI) 的可能性。
核心观点:
- 语言模型的最终目标是最大化其对自然语言数据的似然性。
- 随着模型规模的扩大,损失函数会不断下降,最终逼近自然语言的香农熵。
- 当损失函数接近香农熵时,语言模型将被迫发展出强大的世界模型,才能进一步提高预测能力。
- 可以利用语言模型的这种世界模型能力,结合目标设定和蒙特卡洛树搜索等技术,构建出能够执行复杂任务的智能体。
文章结构:
- 引言: GPT-3 虽然强大,但并非 AGI。然而,语言模型与其他 AI 系统不同,它能够通过自然语言编码整个世界的知识。
- 世界模型:
- 语言模型通过不断优化预测下一个词的能力,最终会隐式地学习到世界的运作方式。
- 随着模型规模的扩大,其世界模型的准确性和复杂性也会随之提高。
- 构建智能体:
- 世界模型本身并不能构成智能体,还需要设定目标和行动策略。
- 可以通过向语言模型提问的方式,获取其对不同行动方案的预期奖励,并利用蒙特卡洛树搜索等方法选 择最佳行动。
- 智能体的状态和行动都可以用自然语言表示,并通过专门的模块与外部世界进行交互。
- 结论:
- 目前的技术水平尚未达到利用语言模型构建 AGI 的程度,但这是一个值得探索的方向。
- 文章中提出的方法依赖于一些假设,例如更大规模的模型将拥有更强的世界模型能力。
数据支撑:
- 文章引用了 GPT-3 的论文,证明了模型规模与性能之间的正相关关系。
- 文章还提到了其他研究,例如 iGPT 可以将图像转换为文本,以及一些将自然语言转换为代码或命令的技术。
需要进一步探讨的问题:
- 更大规模的语言模型是否真的能够发展出足够强大的世界模型?
- 如何有效地设定目标并引导语言模型的行动?
- 如何确保基于语言模型的 AGI 的安全性?
中文补充:
- 文章中提到的香农熵,是指衡量信息量大小的指标,可以理解为表示某个信息所需的最小比特数。
- 蒙特卡洛树搜索是一种基于随机模拟的搜索算法,常用于围棋等游戏 AI 中。
- 文章中提到的“智能体”,是指能够感知环境、做出决策并执行行动的实体。
总结:
这篇文章为利用语言模型构建 AGI 提供了一个新的思路,但同时也提出了一些需要解决的挑战。随着语言模 型技术的不断发展,相信未来会有更多相关的研究和应用出现。
以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:
x jina r 'https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据支撑,用中文'
更多内容请查阅 : blog-240609
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法
相关文章:
[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)
目录 qwen2 发布,在 Ollama 已可用Qwen2 模型概览 (基于 Ollama 网站信息)一、模型介绍二、模型参数三、支持语言 (除英语和中文外)四、模型性能五、许可证六、数据支撑: 采用语言模型构建通用 AGI qwen2 发布,在 Ollama 已可用 Qwen2 模型概览 (基于 O…...
赶紧收藏!2024 年最常见 20道分布式、微服务面试题(五)
上一篇地址:赶紧收藏!2024 年最常见 20道分布式、微服务面试题(四)-CSDN博客 九、在分布式系统中,如何保证数据一致性? 在分布式系统中保证数据一致性是一个复杂的问题,因为分布式系统由多个独…...
为什么Kubernetes(K8S)弃用Docker:深度解析与未来展望
为什么Kubernetes弃用Docker:深度解析与未来展望 🚀 为什么Kubernetes弃用Docker:深度解析与未来展望摘要引言正文内容(详细介绍)什么是 Kubernetes?什么是 Docker?Kubernetes 和 Docker 的关系…...
软件游戏提示msvcp120.dll丢失的解决方法,总结多种靠谱的解决方法
在电脑使用过程中,我们可能会遇到一些错误提示,其中之一就是“找不到msvcp120.dll”。那么,msvcp120.dll是什么?它对电脑有什么影响?有哪些解决方法?本文将从以下几个方面进行探讨。 一,了解msv…...
使用kafka tools工具连接带有用户名密码的kafka
使用kafka tools工具连接带有用户名密码的kafka 创建kafka连接,配置zookeeper 在Security选择Type类型为SASL Plaintext 在Advanced页面添加如下图红框框住的内容 在JAAS_Config加上如下配置 需要加的配置: org.apache.kafka.common.security.plain.Pla…...
[个人感悟] Java基础问题应该考察哪些问题?
前言 “一切代码无非是数据结构和算法流程的结合体.” 忘了最初是在何处看见这句话了, 这句话, 对于Java基础的考察也是一样. 正如这句话所说, 我们对于基础的考察主要考察, 数据结构, 集合类型结构, 异常类型, 已经代码的调用和语法关键字. 其中数据结构和集合类型结构是重点…...
MySQL-主从复制
1、主从复制的理解 在工作用常见Redis作为缓存与MySQL一起使用。当有请求时,首先会从缓存中进行查找,如果存在就直接取出,否则访问数据库,这样 提升了读取的效率,也减少了对后台数据库的访问压力。Redis的缓存架构时高…...
开发没有尽头,尽力既是完美
最近遇到了一些难题,开发系统总有一些地方没有考虑周全,偏偏用户使用的时候“完美复现”了这个隐藏的Bug...... 讲道理创业一年之久为了生存,我一直都有在做复盘,复盘的核心就是:如何提升营收、把控开发质量࿰…...
【手推公式】如何求SDE的解(附录B)
【手推公式】如何求SDE的解(附录B) 核心思路:不直接求VE和VP的SDE的解xt,而是求xt的期望和方差,从而写出x0到xt的条件分布形式(附录B) 论文:Score-Based Generative Modeling throug…...
STM32F103单片机工程移植到航顺单片机HK32F103注意事项
一、简介 作为国内MCU厂商中前三阵营之一的航顺芯片,建立了世界首创超低功耗7nA物联网、万物互联核心处理器浩瀚天际10X系列平台,接受代理商/设计企业/方案商定制低于自主研发十倍以上成本,接近零风险自主品牌产品,芯片设计完成只…...
Llama模型家族之Stanford NLP ReFT源代码探索 (四)Pyvene论文学习
LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…...
rapidjson 打包过程插入对象
开发过程中遇到一种情况,在打包过程中插入一个字符串(里面是json对象), 官方文档 没看到相关例子,不知道是不是自己粗心没找到。方法RawValue其实是一个通用打包方法,一般情况我们都调用的是String()、Int(…...
NVeloDocx一个基于NVelocity的word模版引擎
NVeloDocx是一个基于NVelocity的Word模版引擎,目前主要是用于E6低代码开发平台供用户轻松制作各种Word报告模版。 有以下优点: 1、完全的NVelocity语法; 2、直接在Word中写NVelocity脚本,使用非常非常方便; 3、完全兼…...
【JavaEE】Spring IoCDI详解
一.基本概念 1.Ioc基本概念 Ioc: Inversion of Control (控制反转), 也就是说 Spring 是⼀个"控制反转"的容器. 什么是控制反转呢? 也就是控制权反转. 什么的控制权发发了反转? 获得依赖对象的过程被反转了也就是说, 当需要某个对象时, 传统开发模式中需要自己通…...
Bean的作用域
singleton : 单例,IOC 容器中只有唯一的 bean 实例。Spring 中的 bean 默认都是单例的,是对单例设计模式的应用。 prototype : 原型,每次获取都会创建一个新的 bean 实例。也就是说,连续 getBean() 两次,得到的是不同…...
卡尔曼滤波器例子
卡尔曼滤波器 卡尔曼滤波器(Kalman Filter)是一种用于线性系统状态估计的递归算法,可以有效地融合传感器数据和系统模型来估计系统的状态。它在机器人学中广泛应用,尤其是位置和速度等状态的估计。通过卡尔曼滤波器,可以有效地估计机器人在二维平面内的真实位置,并减小测…...
Web前端发展路线:深度解析与未来展望
Web前端发展路线:深度解析与未来展望 在数字化时代的浪潮中,Web前端技术日新月异,成为推动互联网行业发展的重要引擎。本文将从四个方面、五个方面、六个方面和七个方面,深入探讨Web前端的发展路线,为您揭示这一领域的…...
Unity3D入门基础知识汇总
1. unity界面 右上边可以切换布局。 左边选择Shaded wireframe,可以看到3D物体的都是由三角形组成的。 2. 物体显示 网格(三角形构成) 材质 3. 资源商店 Windows -> Asset Store 挑出喜欢的资源之后,点击”添加至我的…...
Triton学习笔记
b站链接:合集Triton 从入门到精通 文章目录 算法名词解释:scheduler 任务调度器model instance、inference和requestbatching 一、Triton Inference Server原理1. Overview of Trition2. Design Basics of Trition3. Auxiliary Features of Trition4. A…...
办理公司诉讼记录删除行政处罚记录删除
企业行政处罚记录是可以做到撤销消除的,一直被大多数企业忽略,如果相关诉讼记录得不到及时删除,不仅影响企业招投标,还影响企业的贷款申请,严重的让企业资金链断裂,影响企业长远发展和企业形象。行政处罚是…...
GIL-Free Python并发仅剩最后1%难题:我们用37小时逆向分析PyO3内存模型,找到共享引用计数的终极解法
第一章:GIL-Free Python并发的终极挑战与破局意义Python 的全局解释器锁(GIL)长期被视为多核 CPU 利用率的“天花板”。它确保同一时刻仅有一个线程执行 Python 字节码,虽简化了内存管理与 C 扩展开发,却在 CPU 密集型…...
大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路
大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路 本文系统梳理AI智能体的概念、发展脉络与核心架构,清晰拆解其与传统工作流的本质差异,聚焦智能体三大核心组件(规划能力、记忆系统、工具使用机制)的技术细节…...
bWAPP靶场实战:从SQL注入到XSS的完整通关指南(附详细Payload)
bWAPP靶场实战:从SQL注入到XSS的完整通关指南(附详细Payload) 1. 靶场环境搭建与基础配置 bWAPP(Buggy Web Application)是一款专为网络安全学习设计的漏洞演练平台,包含超过100种常见Web漏洞场景。作为渗透…...
从电网到实验室——10kW大功率电源的Psim仿真实战
基于Psim的Boost型 PFC移相全桥AC-DC电源设计仿真 1、前级电网输入220AC,50Hz,中间级母线电压为600V,后级600V输入,547V输出,电压可调,功率10kW 2、前级基于Boost电路PFC,平均电流控制ÿ…...
Qwen2.5-VL半监督学习效果展示:有限标注下的性能提升
Qwen2.5-VL半监督学习效果展示:有限标注下的性能提升 1. 引言 在AI视觉领域,标注数据一直是制约模型性能的关键因素。传统监督学习需要大量人工标注,成本高、周期长,让很多企业和研究者望而却步。但今天,随着半监督学…...
李慕婉-仙逆-造相Z-Turbo在C语言项目中的集成方案
李慕婉-仙逆-造相Z-Turbo在C语言项目中的集成方案 将AI图像生成能力无缝集成到C语言项目中,为传统应用注入智能创作活力 1. 为什么要在C项目中集成图像生成能力 在当今的软件开发领域,C语言仍然是系统级编程、嵌入式设备和性能敏感应用的首选语言。虽然…...
别再只调PID了!基于STM32C8T6的电磁循迹小车,从硬件滤波到软件算法的抗干扰全攻略
电磁循迹小车的抗干扰实战:从硬件滤波到软件优化的全链路解决方案 当你的电磁循迹小车在实验室里跑得风生水起,一到比赛现场却频频"抽风",这往往不是PID参数调得不够好,而是整个系统的抗干扰设计存在漏洞。本文将带你深…...
【计算机组成原理】1 计算机组成原理学习路线:从晶体管到云架构的知识图谱
1 为什么你需要一张知识图谱 计算机组成原理是计算机科学的核心基石,它研究计算机硬件系统的基本组成原理、逻辑实现及工作机制。对于计算机专业学生或软件开发者而言,理解"代码如何在硬件上运行"不仅是应试需要,更是性能优化、系统…...
欧拉Euler~21.10系统下OpenSSH 9.0升级与安全加固实战指南
1. 环境准备:从零搭建OpenSSH 9.0升级基础 在欧拉Euler~21.10系统上升级OpenSSH,就像给老房子换新门窗——既要保证新功能正常使用,又不能破坏原有结构。我最近刚在测试环境完成这套操作,整个过程踩过几个坑,这里把完整…...
一文搞懂Agent三大核心技术:Function Calling、MCP、A2A,小白也能轻松收藏学习!
本文详细解析了AI Agent的三大核心技术:Function Calling、MCP和A2A。Function Calling使AI能够主动获取外部信息,MCP为工具接入提供了标准化接口,而A2A则实现了多智能体之间的协作。通过这三个技术的演进,AI Agent的能力从点对点…...
