当前位置: 首页 > news >正文

QWEN technical report

通义千问-Qwen技术报告细节分享 - 知乎写在前面大家好,我是刘聪NLP。 阿里在很早前就开源了Qwen-7B模型,但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型(原来的7B模型也放出来了),同时还放出了Qwen的技术报告内容。今天特此来给大家分…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/6583926091.introduction

3万亿token,

2.pretraining

2.1 data

去重,精确匹配去重和使用MinHash和LSH模糊去重,过滤低质量的数据,采用了基于规则和基于机器学习的方法的组合,使用多个模型对内容进行评分,包括语言模型、文本质量评分模型以及用于识别有可能含有不合适的内容的模型。构建了一个高达3万亿个token的数据集。

2.2 tokenization

采用字节对编码BPE分词,使用tiktoken。在中文,增加了常用的汉字和词汇以及其它语言中的词汇,遵循llama系列的方法,将数字拆分成单个数字,最终词汇为152k。压缩率:一个汉字能够转成多少token,比如0.52个token,意味着一句话能够转成更少的token。

2.3 architecture

结构基本和llama对齐。

embedding和output project:对于embedding层和lm_head层不进行权重共享,是两个独立的权重。

positional embedding:RoPE

bias:在qkv中添加了偏差,以增强模型外推能力。

Pre-RMSNorm

激活函数:SwiGLU

2.4 training

上下文长度:2048,采用flash attention,AdamW,BFloat16

2.5 experimental results

相关文章:

QWEN technical report

通义千问-Qwen技术报告细节分享 - 知乎写在前面大家好,我是刘聪NLP。 阿里在很早前就开源了Qwen-7B模型,但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型(原来的7B模型也放出来了),同时还放出了Qwen的技术报…...

提升MODBUS-RTU通信数据刷新速度的常用方法

SMART PLC的MODBUS-RTU通信请参考下面文章链接: 【精选】PLC MODBUS通信优化、提高通信效率避免权限冲突(程序+算法描述)-CSDN博客MODBUS通讯非常简单、应用也非常广泛,有些老生常谈的问题,这里不再赘述,感兴趣的可以参看我的其它博文:SMART200PLC MODBUS通讯专题_RXXW…...

PyTorch 与 TensorFlow:机器学习框架之战

深度学习框架是简化人工神经网络 (ANN) 开发的重要工具,并且其发展非常迅速。其中,TensorFlow 和 PyTorch 脱颖而出,各自在不同的机器学习领域占有一席之地。但如何为特定项目确定理想的工具呢?本综合指南[1]旨在阐明它们的优点和…...

超简单理解冒泡排序

1.冒泡排序(Bubble Sort) 较简单排序算法。 它会遍历若干次要排列的数列,每次遍历,会从前往后比较相邻两个数的大小。 如果前者比后者大,就交换他们位置。遍历一次最大元素在数列末尾。重复直到数列有序。 那么遍历需要一个变量控制范围。…...

模拟IC设计工程师成长日记

很多IC设计的新人,不知道进入IC设计行业后会有哪些成长和学习的地方。 很多初入IC设计职场的人也都会比较恐慌,成长进步需要一个时间和经验的积累 今天给大家找了一个叫“模拟IC设计“攻城狮”的成长日记供大家参考. 以模拟IC设计工程师的身份进入职场&a…...

修炼k8s+flink+hdfs+dlink(六:学习namespace,service)

一:什么是namespace? 你可以认为namespaces是你kubernetes集群中的虚拟化集群。在一个Kubernetes集群中可以拥有多个命名空间,它们在逻辑上彼此隔离。 他们可以为您和您的团队提供组织,安全甚至性能方面的帮助! 二&a…...

法语导游就业前景如何?

随着国际交流的日益频繁,旅游业正在迅猛发展。尽管全球讲法语的人数并不算多,但讲法语的国家分布广泛。因此,如何成为一名合法的法语导游,以及法语导游的就业前景如何,成为了法语爱好者比较关注的问题。 我们知道&…...

iOS自动混淆测试处理笔记

1 打开 ipa,导出ipa 路径和配置文件路径会自动填充 2 点击 开始自动混淆测试处理 自动混淆测试是针对 oc 类和oc方法这两个模块进行自动混淆ipa,并ipa安装到设备中运行,通过检测运行ipa包是否崩溃,来对oc类和oc方法进行筛选。如果…...

C51--单片机中断

51单片机是单线程模式,需要用到硬件中断。 一、中断系统 中断系统是为使CPU具有对外界紧急事件的实时处理能力而设置的。 当中央处理器CPU正在处理某件事的时候,外界发生了紧急事件请求,要求CPU暂停当前工作,转而去处理这个紧急…...

Linux中关于glibc包导致的服务器死机或者linux命令无法使用的情况

glibc是gnu发布的libc库,即c运行库。glibc是linux系统中最底层的api,几乎其它任何运行库都会依赖于glibc。glibc除了封装linux操作系统所提供的系统服务外,它本身也提供了许多其它一些必要功能服务的实现。由于 glibc 囊括了几乎所有的 UNIX …...

艾泊宇产品战略:华为手机品牌是如何从低端到高端的

华为在过去一直以几百块钱的低端手机为主,但如今已经可以跟苹果一争高下。 这个转变是华为经过了近二十年的艰苦努力才实现的。 我艾泊宇作为一个亲历者深度研究了华为的成长历程,发现这是一个经典的商业教科书案例。 这里面有很多值得今天中国企业学…...

视频批量AI智剪:提升剪辑效率的秘密方法

随着视频内容的爆炸式增长,剪辑师面临着巨大的工作压力。传统的剪辑方法往往效率低下,无法满足快速、高质量的剪辑需求。为了解决这个问题,视频批量AI智剪技术应运而生,成为提升剪辑效率的秘密方法。 视频批量AI智剪是指利用人工…...

linux环境执行jar脚本

一、前言 平常工作中,我们的开发的项目部署到linux环境,以jar包的方式运行,涉及jar包的启动、停止、查看状态等,我们可以通过脚本的方式进行维护,减少自己敲打一长串的命令少敲一个字母或者多敲一个字母,方…...

特权同学FPGA官方全资料包括电子书下载

特权同学FPGA官方全资料包括电子书下载 特权同学倾情奉献海量FPGA学习资料 链接:http://pan.baidu.com/s/1bptgnKF 下载器安装说明 链接:http://pan.baidu.com/s/1dFNXvrV SF-AT7 USB3.0+LVDS+FPGA开发套件 链接:http://pan.baidu.com/s/1c24bVZa SF-HSC USB3.0+LVDS…...

《动手学深度学习 Pytorch版》 10.4 Bahdanau注意力

10.4.1 模型 Bahdanau 等人提出了一个没有严格单向对齐限制的可微注意力模型。在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现…...

iOS_Crash 四:的捕获和防护

文章目录 1.Crash 捕获1.2.NSException1.2.C异常1.3.Mach异常1.4.Unix 信号 2.Crash 防护2.1.方法未实现2.2.KVC 导致 crash2.3.KVO 导致 crash2.4.集合类导致 crash2.5.其他需要注意场景: 1.Crash 捕获 根据 Crash 的不同来源,分为以下三类&#xff1a…...

spring boot项目运行jar包读取包内resources目录下的文件

spring boot项目运行jar包读取包内resources目录下的文件 摘要码代码相关文章 摘要 Spring Boot 项目打包成 jar 包后,resources 目录下的文件将会被打包到 jar 包中。如果需要在 Spring Boot 项目运行 jar 包后读取 resources 目录下的文件,可以使用 t…...

浙大陈越何钦铭数据结构06-图1 列出连通集

题目 给定一个有N个顶点和E条边的无向图&#xff0c;请用DFS和BFS分别列出其所有的连通集。假设顶点从0到N−1编号。进行搜索时&#xff0c;假设我们总是从编号最小的顶点出发&#xff0c;按编号递增的顺序访问邻接点。 输入格式: 输入第1行给出2个整数N(0<N≤10)和E&…...

C# Winform编程(9)网络编程

网络编程 HTTP网络编程IPAddress IP地址类WebClient类WebRequest类和WebResponse类 WebBrowser网页浏览器控件TCP网络编程TcpClient类TcpListener类NetworkStream类Socket类 HTTP网络编程 IPAddress IP地址类 IPAddress类代表IP地址&#xff0c;可在十进制表示法和实际的整数…...

RabbitMQ中方法channel.basicAck的使用说明

方法channel.basicAck的作用 在RabbitMQ中&#xff0c;channel.basicAck方法用于确认已经接收并处理了消息。 方法的参数说明 public void basicAck(long deliveryTag,boolean multiple) 参数&#xff1a; long deliveryTag 消息的唯一标识。每条消息都有自己的ID号&#x…...

Pixel Aurora Engine实战应用:教育类App像素插画素材自动化生产

Pixel Aurora Engine实战应用&#xff1a;教育类App像素插画素材自动化生产 1. 教育类App的像素素材需求 在当今教育类App开发中&#xff0c;视觉素材的质量直接影响用户体验和学习效果。传统设计流程面临三大痛点&#xff1a; 人力成本高&#xff1a;每个插画需要设计师手动…...

线控转向系统 Carsim和Simulink联合仿真模型。 基于横摆角速度增益不变的变传动比模块。 图中分别为角阶跃工况 和 双移线工况 汽车对应的响应曲线,并且与Carsim自带的机械转向对比图。

线控转向系统 Carsim和Simulink联合仿真模型。 基于横摆角速度增益不变的变传动比模块。 图中分别为角阶跃工况 和 双移线工况 汽车对应的响应曲线&#xff0c;并且与Carsim自带的机械转向对比图。这是一个非常专业的汽车动力学控制仿真需求。要实现线控转向&#xff08;SBW&am…...

电源工程师必看:平均电流模式BUCK双环控制详解(从传递函数到Psim仿真)

电源工程师必看&#xff1a;平均电流模式BUCK双环控制详解&#xff08;从传递函数到Psim仿真&#xff09; 在电力电子领域&#xff0c;BUCK变换器的控制策略一直是工程师们关注的重点。作为一名刚入行的电源工程师&#xff0c;我曾被各种控制模式搞得晕头转向——电压模式、峰值…...

全球工业不间断电源行业市场规模与增长预测

工业不间断电源&#xff08;简称工业UPS&#xff09;&#xff0c;专为严苛工业环境而设计,在复杂工业环境下为关键负荷提供高可靠性、高稳定性、强抗干扰能力的电力保护专。它的核心功能是在市电发生波动、短时断电或其他电力异常情况下&#xff0c;为关键设备提供持续、稳定的…...

Python CGI编程:从历史原理到现代启示

1. CGI技术的前世今生 我第一次接触CGI是在2005年维护一个老旧的图书管理系统时。那时候Apache服务器上跑着一堆Perl脚本&#xff0c;每次修改都要小心翼翼地处理文件权限和环境变量。这种看似"古老"的技术&#xff0c;其实正是现代Web开发的基石。 CGI全称Common Ga…...

阿里云盘Refresh Token扫码获取终极指南:三步实现安全授权

阿里云盘Refresh Token扫码获取终极指南&#xff1a;三步实现安全授权 【免费下载链接】aliyundriver-refresh-token QR Code扫码获取阿里云盘refresh token For Web 项目地址: https://gitcode.com/gh_mirrors/al/aliyundriver-refresh-token 你是否在为阿里云盘API授权…...

Intv_AI_MK11 跨平台开发应用:基于 Qt 框架的桌面智能助手

Intv_AI_MK11 跨平台开发应用&#xff1a;基于 Qt 框架的桌面智能助手 1. 为什么需要跨平台智能助手 在日常工作和学习中&#xff0c;我们经常遇到这样的场景&#xff1a;在Windows上收集的资料&#xff0c;想在Mac上继续编辑&#xff1b;在Linux服务器上开发的代码&#xff…...

网易云无损解析工具:高效解析与资源管理全指南

网易云无损解析工具&#xff1a;高效解析与资源管理全指南 【免费下载链接】Netease_url 网易云无损解析 项目地址: https://gitcode.com/gh_mirrors/ne/Netease_url 在数字音乐收藏领域&#xff0c;用户常面临音质受限、批量下载繁琐、元数据缺失三大核心痛点。网易云无…...

Android OkHtttp 流程分析

文章目录概述核心类执行流程请求发起拦截器链连接池异步任务调度器概述 OkHttp 是一个由 Square 公司开发的高效、简洁的 HTTP 客户端库。 OkHttp 包含一个连接池&#xff0c;可以复用 TCP 连接&#xff0c;避免了多次握手的开销。自动处理 GZip、HTTP 缓存、响应重试。 核心…...

从工业控制到智能家居:手把手教你根据项目需求选对RTOS(ThreadX vs. FreeRTOS实战指南)

从工业控制到智能家居&#xff1a;手把手教你根据项目需求选对RTOS&#xff08;ThreadX vs. FreeRTOS实战指南&#xff09; 在嵌入式系统开发中&#xff0c;选择合适的实时操作系统&#xff08;RTOS&#xff09;往往决定了项目的成败。面对工业控制的高精度需求或智能家居的成本…...