当前位置: 首页 > news >正文

[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)

目录

    • qwen2 发布,在 Ollama 已可用
      • Qwen2 模型概览 (基于 Ollama 网站信息)
        • 一、模型介绍
        • 二、模型参数
        • 三、支持语言 (除英语和中文外)
        • 四、模型性能
        • 五、许可证
        • 六、数据支撑:
    • 采用语言模型构建通用 AGI

qwen2 发布,在 Ollama 已可用

Qwen2 模型概览 (基于 Ollama 网站信息)

一、模型介绍
  • 由阿里巴巴开发的新系列大型语言模型。
  • 训练数据涵盖 29 种语言,包括 英语和中文。
  • 提供 4 种参数规模: 0.5B、1.5B、7B、72B。
  • 7B 和 72B 模型的上下文长度扩展至 128k tokens。
二、模型参数
模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-72B
参数量0.49B1.54B7.07B72.71B
非嵌入参数量0.35B1.31B5.98B70.21B
GQA支持支持支持支持
绑定嵌入支持支持不支持不支持
上下文长度32K32K128K128K
三、支持语言 (除英语和中文外)
  • 西欧: 德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
  • 东欧和中欧: 俄语、捷克语、波兰语
  • 中东: 阿拉伯语、波斯语、希伯来语、土耳其语
  • 东亚: 日语、韩语
  • 东南亚: 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语
  • 南亚: 印地语、孟加拉语、乌尔都语
四、模型性能
  • 网站提供了四张图片展示 Qwen2 模型在不同任务上的性能表现,包括:
    • 代码生成 (HumanEval)
    • 常识推理 (MMLU)
    • 阅读理解 (TriviaQA)
    • 数学推理 (GSM8K)
五、许可证
  • 除 Qwen2 72B (包括指令模型和基础模型) 外,所有模型均采用 Apache 2.0 许可证。
  • Qwen2 72B 模型仍使用原始的 Qianwen 许可证。
六、数据支撑:

以上信息均来自 Ollama 网站上关于 Qwen2 模型的介绍页面。

以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:

x jina r 'https://ollama.com/library/qwen2' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据 支撑,用中文'

采用语言模型构建通用 AGI

这篇文章探讨了利用大型语言模型构建通用人工智能 (AGI) 的可能性。

核心观点:

  • 语言模型的最终目标是最大化其对自然语言数据的似然性。
  • 随着模型规模的扩大,损失函数会不断下降,最终逼近自然语言的香农熵。
  • 当损失函数接近香农熵时,语言模型将被迫发展出强大的世界模型,才能进一步提高预测能力。
  • 可以利用语言模型的这种世界模型能力,结合目标设定和蒙特卡洛树搜索等技术,构建出能够执行复杂任务的智能体。

文章结构:

  1. 引言: GPT-3 虽然强大,但并非 AGI。然而,语言模型与其他 AI 系统不同,它能够通过自然语言编码整个世界的知识。
  2. 世界模型:
    • 语言模型通过不断优化预测下一个词的能力,最终会隐式地学习到世界的运作方式。
    • 随着模型规模的扩大,其世界模型的准确性和复杂性也会随之提高。
  3. 构建智能体:
    • 世界模型本身并不能构成智能体,还需要设定目标和行动策略。
    • 可以通过向语言模型提问的方式,获取其对不同行动方案的预期奖励,并利用蒙特卡洛树搜索等方法选 择最佳行动。
    • 智能体的状态和行动都可以用自然语言表示,并通过专门的模块与外部世界进行交互。
  4. 结论:
    • 目前的技术水平尚未达到利用语言模型构建 AGI 的程度,但这是一个值得探索的方向。
    • 文章中提出的方法依赖于一些假设,例如更大规模的模型将拥有更强的世界模型能力。

数据支撑:

  • 文章引用了 GPT-3 的论文,证明了模型规模与性能之间的正相关关系。
  • 文章还提到了其他研究,例如 iGPT 可以将图像转换为文本,以及一些将自然语言转换为代码或命令的技术。

需要进一步探讨的问题:

  • 更大规模的语言模型是否真的能够发展出足够强大的世界模型?
  • 如何有效地设定目标并引导语言模型的行动?
  • 如何确保基于语言模型的 AGI 的安全性?

中文补充:

  • 文章中提到的香农熵,是指衡量信息量大小的指标,可以理解为表示某个信息所需的最小比特数。
  • 蒙特卡洛树搜索是一种基于随机模拟的搜索算法,常用于围棋等游戏 AI 中。
  • 文章中提到的“智能体”,是指能够感知环境、做出决策并执行行动的实体。

总结:

这篇文章为利用语言模型构建 AGI 提供了一个新的思路,但同时也提出了一些需要解决的挑战。随着语言模 型技术的不断发展,相信未来会有更多相关的研究和应用出现。

以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:

x jina r 'https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据支撑,用中文'

更多内容请查阅 : blog-240609


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

相关文章:

[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)

目录 qwen2 发布,在 Ollama 已可用Qwen2 模型概览 (基于 Ollama 网站信息)一、模型介绍二、模型参数三、支持语言 (除英语和中文外)四、模型性能五、许可证六、数据支撑: 采用语言模型构建通用 AGI qwen2 发布,在 Ollama 已可用 Qwen2 模型概览 (基于 O…...

赶紧收藏!2024 年最常见 20道分布式、微服务面试题(五)

上一篇地址:赶紧收藏!2024 年最常见 20道分布式、微服务面试题(四)-CSDN博客 九、在分布式系统中,如何保证数据一致性? 在分布式系统中保证数据一致性是一个复杂的问题,因为分布式系统由多个独…...

为什么Kubernetes(K8S)弃用Docker:深度解析与未来展望

为什么Kubernetes弃用Docker:深度解析与未来展望 🚀 为什么Kubernetes弃用Docker:深度解析与未来展望摘要引言正文内容(详细介绍)什么是 Kubernetes?什么是 Docker?Kubernetes 和 Docker 的关系…...

软件游戏提示msvcp120.dll丢失的解决方法,总结多种靠谱的解决方法

在电脑使用过程中,我们可能会遇到一些错误提示,其中之一就是“找不到msvcp120.dll”。那么,msvcp120.dll是什么?它对电脑有什么影响?有哪些解决方法?本文将从以下几个方面进行探讨。 一,了解msv…...

使用kafka tools工具连接带有用户名密码的kafka

使用kafka tools工具连接带有用户名密码的kafka 创建kafka连接,配置zookeeper 在Security选择Type类型为SASL Plaintext 在Advanced页面添加如下图红框框住的内容 在JAAS_Config加上如下配置 需要加的配置: org.apache.kafka.common.security.plain.Pla…...

[个人感悟] Java基础问题应该考察哪些问题?

前言 “一切代码无非是数据结构和算法流程的结合体.” 忘了最初是在何处看见这句话了, 这句话, 对于Java基础的考察也是一样. 正如这句话所说, 我们对于基础的考察主要考察, 数据结构, 集合类型结构, 异常类型, 已经代码的调用和语法关键字. 其中数据结构和集合类型结构是重点…...

MySQL-主从复制

1、主从复制的理解 在工作用常见Redis作为缓存与MySQL一起使用。当有请求时,首先会从缓存中进行查找,如果存在就直接取出,否则访问数据库,这样 提升了读取的效率,也减少了对后台数据库的访问压力。Redis的缓存架构时高…...

开发没有尽头,尽力既是完美

最近遇到了一些难题,开发系统总有一些地方没有考虑周全,偏偏用户使用的时候“完美复现”了这个隐藏的Bug...... 讲道理创业一年之久为了生存,我一直都有在做复盘,复盘的核心就是:如何提升营收、把控开发质量&#xff0…...

【手推公式】如何求SDE的解(附录B)

【手推公式】如何求SDE的解(附录B) 核心思路:不直接求VE和VP的SDE的解xt,而是求xt的期望和方差,从而写出x0到xt的条件分布形式(附录B) 论文:Score-Based Generative Modeling throug…...

STM32F103单片机工程移植到航顺单片机HK32F103注意事项

一、简介 作为国内MCU厂商中前三阵营之一的航顺芯片,建立了世界首创超低功耗7nA物联网、万物互联核心处理器浩瀚天际10X系列平台,接受代理商/设计企业/方案商定制低于自主研发十倍以上成本,接近零风险自主品牌产品,芯片设计完成只…...

Llama模型家族之Stanford NLP ReFT源代码探索 (四)Pyvene论文学习

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…...

rapidjson 打包过程插入对象

开发过程中遇到一种情况,在打包过程中插入一个字符串(里面是json对象), 官方文档 没看到相关例子,不知道是不是自己粗心没找到。方法RawValue其实是一个通用打包方法,一般情况我们都调用的是String()、Int(…...

NVeloDocx一个基于NVelocity的word模版引擎

NVeloDocx是一个基于NVelocity的Word模版引擎,目前主要是用于E6低代码开发平台供用户轻松制作各种Word报告模版。 有以下优点: 1、完全的NVelocity语法; 2、直接在Word中写NVelocity脚本,使用非常非常方便; 3、完全兼…...

【JavaEE】Spring IoCDI详解

一.基本概念 1.Ioc基本概念 Ioc: Inversion of Control (控制反转), 也就是说 Spring 是⼀个"控制反转"的容器. 什么是控制反转呢? 也就是控制权反转. 什么的控制权发发了反转? 获得依赖对象的过程被反转了也就是说, 当需要某个对象时, 传统开发模式中需要自己通…...

Bean的作用域

singleton : 单例,IOC 容器中只有唯一的 bean 实例。Spring 中的 bean 默认都是单例的,是对单例设计模式的应用。 prototype : 原型,每次获取都会创建一个新的 bean 实例。也就是说,连续 getBean() 两次,得到的是不同…...

卡尔曼滤波器例子

卡尔曼滤波器 卡尔曼滤波器(Kalman Filter)是一种用于线性系统状态估计的递归算法,可以有效地融合传感器数据和系统模型来估计系统的状态。它在机器人学中广泛应用,尤其是位置和速度等状态的估计。通过卡尔曼滤波器,可以有效地估计机器人在二维平面内的真实位置,并减小测…...

Web前端发展路线:深度解析与未来展望

Web前端发展路线:深度解析与未来展望 在数字化时代的浪潮中,Web前端技术日新月异,成为推动互联网行业发展的重要引擎。本文将从四个方面、五个方面、六个方面和七个方面,深入探讨Web前端的发展路线,为您揭示这一领域的…...

Unity3D入门基础知识汇总

1. unity界面 右上边可以切换布局。 左边选择Shaded wireframe,可以看到3D物体的都是由三角形组成的。 2. 物体显示 网格(三角形构成) 材质 3. 资源商店 Windows -> Asset Store 挑出喜欢的资源之后,点击”添加至我的…...

Triton学习笔记

b站链接:合集Triton 从入门到精通 文章目录 算法名词解释:scheduler 任务调度器model instance、inference和requestbatching 一、Triton Inference Server原理1. Overview of Trition2. Design Basics of Trition3. Auxiliary Features of Trition4. A…...

办理公司诉讼记录删除行政处罚记录删除

企业行政处罚记录是可以做到撤销消除的,一直被大多数企业忽略,如果相关诉讼记录得不到及时删除,不仅影响企业招投标,还影响企业的贷款申请,严重的让企业资金链断裂,影响企业长远发展和企业形象。行政处罚是…...

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码 国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制,因此这个了16进制的数据既可以翻译成为这个机器码,也可以翻译成为这个国标码,所以这个时候很容易会出现这个歧义的情况; 因此,我们的这个国…...

Zustand 状态管理库:极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库,特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端

🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天,数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具,在大规模数据获取中发挥着关键作用。然而,传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时,常出现数据质…...

AspectJ 在 Android 中的完整使用指南

一、环境配置(Gradle 7.0 适配) 1. 项目级 build.gradle // 注意:沪江插件已停更,推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲

文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...

08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险

C#入门系列【类的基本概念】:开启编程世界的奇妙冒险 嘿,各位编程小白探险家!欢迎来到 C# 的奇幻大陆!今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类!别害怕,跟着我,保准让你轻松搞…...

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...

基于PHP的连锁酒店管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的连锁酒店管理系统 一 介绍 连锁酒店管理系统基于原生PHP开发,数据库mysql,前端bootstrap。系统角色分为用户和管理员。 技术栈 phpmysqlbootstrapphpstudyvscode 二 功能 用户 1 注册/登录/注销 2 个人中…...

WebRTC从入门到实践 - 零基础教程

WebRTC从入门到实践 - 零基础教程 目录 WebRTC简介 基础概念 工作原理 开发环境搭建 基础实践 三个实战案例 常见问题解答 1. WebRTC简介 1.1 什么是WebRTC? WebRTC(Web Real-Time Communication)是一个支持网页浏览器进行实时语音…...