当前位置: 首页 > news >正文

给定计算预算下的最佳LLM模型尺寸与预训练数据量分配

给定计算预算下的最佳LLM模型尺寸与预训练数据量分配
FesianXu 20250304 at Wechat Search Team

前言

如果给定了计算预算 C C C,如何分配LLM的模型尺寸 N N N和训练的数据量 D D D,才能使得模型的效果 L L L最好呢?笔者在此介绍一篇经典的文章讨论这个问题。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢

  • 关键字:最佳计算预算分配
  • 发表信息:NIPS 2022

∇ \nabla 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号:机器学习杂货铺3号店


我们知道在大语言模型(Large Language Model, LLM)中,存在所谓的尺度扩展规律(Scaling Laws) [2],如Fig 1所示,即是:

LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加

fig1_llm_scaling_laws

Fig 1. 大模型中的尺度扩展规律,测试集损失随着模型训练量、训练集数据量、模型参数量的增加而递减(即是模型性能递增)。

我们也知道模型的参数量、模型的训练量和模型的训练数据量都会影响到最终的计算预算(可以用FLOPs计算),因此LLM的性能可以说和计算预算直接挂钩,这也是Fig 1 左图所表示的。我们不禁会有个疑问,给定了模型的计算预算 C C C,我们应该怎么均衡模型参数量 N N N和预训练的Token数量 D D D,才能使得模型的预训练损失 L L L最小化呢?我们期待得到最优的模型参数 N o p t N_{opt} Nopt和最优的预训练Token数量 D o p t D_{opt} Dopt,可以使得预训练损失最小,正如公式(1)所示。

N o p t ( C ) , D o p t ( C ) = arg ⁡ min ⁡ N , D s . t . F L O P s ( N , D ) = C L ( N , D ) (1) N_{opt}(C), D_{opt}(C) = \underset{N, D \ \mathrm{s.t.} \ \mathrm{FLOPs}(N, D) = C}{\arg\min} L(N,D) \tag{1} Nopt(C),Dopt(C)=N,D s.t. FLOPs(N,D)=CargminL(N,D)(1)

作者探索这个规律的方法论也很直接,作者步进遍历了一遍不同的模型尺寸(从70M到16B参数量),也步进遍历了一遍预训练数据Token数量(从5B到400B),最终跑了超过400个组合的数据点,不得不说有算力真的可以为所欲为。从直观上看越大尺寸的模型需要越多训练的Token,当然我们需要研究具体的比例,作者采用了三种不同的方法去找这个比例关系。

固定模型尺寸下的性能分析

这种方法是分别固定住模型尺寸(从70M到10B多个模型尺寸都需要实验),然后观察训练了不同数量的Tokens数量后,在每一个节点时哪一个模型尺寸能够达到最小的训练损失。如Fig 2 左图 所示, 这里有些地方需要解释。首先这里的横坐标是浮点计算量FLOPs,在不同模型尺寸下,相同的FLOPs能训练的Token数量是不同的,因此才会出现Fig 2左图中同一个FLOPs中,大尺寸模型损失比小尺寸模型还大的情况。从Fig 2 左图中,我们能发现在不同的FLOPs下,到达最小损失的模型尺寸是不一样的(不太容易看出来,在左图中是灰色点,它们形成了一个包络线),不同的FLOPs在对应尺寸模型下能够折算成训练过的Token数量,因此能够画出Fig 2 中图和右图,横坐标是FLOPs,纵坐标是达到最小损失(也就是左图的灰色点)时的模型尺寸和过了的Tokens数。换句话说,Fig 2中图和右图就是给定计算预算 C C C下的最佳模型尺寸 N o p t N_{opt} Nopt和训练数据量 D o p t D_{opt} Dopt,我们发现有 N o p t ∝ C a , D o p t ∝ C b N_{opt} \propto C^{a}, D_{opt} \propto C^{b} NoptCa,DoptCb,通过实验可以算出 a = 0.50 , b = 0.50 a = 0.50, b = 0.50 a=0.50,b=0.50

fig2_fix_model_size_vary_tokens_num

Fig 2. 训练曲线包络。左侧展示了我们所有不同的运行情况。我们启动了一系列模型尺寸,从70M到10B,每个模型针对四个不同的余弦循环周期长度。从这些曲线中,我们提取了每 FLOP 最小损失的包络线,我们利用这些点来估计给定计算预算下的最佳模型尺寸(中间)和最佳训练 token 数量(右侧)。绿色显示了基于训练 Gopher(5.76 × 10²³ FLOP)所用 FLOP 数量的最佳模型尺寸和训练 token 数量的预测。

固定计算预算下的性能分析

第一种方法的计算量FLOPs没有固定,在此方法中我们固定计算量 C C C(也就是所谓的IsoFLOP),分析等量计算下的最佳模型参数量 N o p t N_{opt} Nopt。同时,在知道了每个实验固定的计算量,和在此之下的最佳模型参数量后,也就可以反推训练Token数量。实验如Fig 3 左图所示,可以发现在不同的固定计算量下(从 6 × 1 0 18 6 \times 10^{18} 6×1018 3 × 1 0 21 3 \times 10^{21} 3×1021 FLOPs),遍历不同尺寸的模型能够发现在某些尺寸处会存在明显的低谷,这个低谷就是在固定计算预算情况下的最佳模型参数量,由此也能绘制出Fig 3 中图和右图,绘制逻辑如第一种方法所述。不难发现同样有 N o p t ∝ C a , D o p t ∝ C b N_{opt} \propto C^{a}, D_{opt} \propto C^{b} NoptCa,DoptCb这个规律,算出 a = 0.49 , b = 0.51 a=0.49, b=0.51 a=0.49,b=0.51

fig3_isoFLOP_profiles

Fig 3. 等量浮点运算曲线(IsoFLOP Curves):针对不同模型规模,通过调整训练令牌(token)数量,使得最终总浮点运算量(FLOPs)保持恒定,并设置余弦周期长度以匹配目标FLOPs量。研究发现,损失函数会出现一个明显低谷(如左图),这表明在给定FLOPs计算预算下,存在一个最优的待训练模型。基于这些低谷位置,我们推算出更大模型的最优参数规模与令牌数量(中图和右图)。图中绿色部分展示了在Gopher模型计算预算下,最优模型的参数与令牌数量估计值。

对参数化损失函数进行拟合

在第1和2中方法中已经积累了很多最小损失 L L L下的 F L O P s ( N o p t , D o p t ) = C FLOPs(N_{opt}, D_{opt}) = C FLOPs(Nopt,Dopt)=C的数据点了,我们不妨把损失拆解为三大部分如公式(2)所示,其中第一项 E E E为不可约损失,也就是自然文本的熵,是不可继续减少的最基础的损失项。第二项为(不完美的)参数量为 N N N的Transformer模型训练过程中产生的损失(因为参数量 N N N总是有限,也就是不完美的,因此总是在理想损失 E E E的基础上有超额损失),第三项则是(不完美的)训练数据量 D D D下(因为训练数据量 D D D不可能是无限的)的产生的超额损失。
L ^ ( N , D ) ≜ E + A N α + B D β (2) \hat{L}(N, D) \triangleq E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} \tag{2} L^(N,D)E+NαA+DβB(2)

作者采用L-BFGS算法去最小化所谓的Huber loss(因为数据点只有400多个,这个loss作者说对离群点比较稳健)去进行估计 ( A , B , E , α , β ) (A,B,E,\alpha,\beta) (A,B,E,α,β),笔者也没细究,读者有兴趣的可以翻阅 [3] 和 [4]。最终估计出来的参数为:
E = 1.69 , A = 406.4 , B = 410.7 , α = 0.34 , β = 0.28 (3) E=1.69, A=406.4, B=410.7, \alpha=0.34, \beta=0.28 \tag{3} E=1.69,A=406.4,B=410.7,α=0.34,β=0.28(3)
在LLM Scaling Law的论文 [2] 中提出了一个估算: F L O P s ( N , D ) ≈ 6 N D FLOPs(N, D) \approx 6ND FLOPs(N,D)6ND,借此可以将公式(2)进行变形,得到公式(4)

N o p t ( C ) = G ( C 6 ) a , D o p t ( C ) = G − 1 ( C 6 ) b , 其中 G = ( α A β B ) 1 α + β , a = β α + β , b = α α + β (4) \begin{aligned} N_{\mathrm{opt}}(C) &= G \left( \frac{C}{6} \right)^a, \\ % 公式1,\mathrm{opt}正体下标 D_{\mathrm{opt}}(C) &= G^{-1} \left( \frac{C}{6} \right)^b, \\ % 公式2,G的逆 \text{其中}\quad % 用\text添加中文注释,\quad增加间距 G &= \left( \frac{\alpha A}{\beta B} \right)^{\frac{1}{\alpha + \beta}}, \\ % G的定义(注意分数指数) a &= \frac{\beta}{\alpha + \beta}, \\ % a的定义(β在分子) b &= \frac{\alpha}{\alpha + \beta} % b的定义(α在分子) \end{aligned} \tag{4} Nopt(C)Dopt(C)其中Gab=G(6C)a,=G1(6C)b,=(βBαA)α+β1,=α+ββ,=α+βα(4)

作者算得 a = 0.46 , b = 0.54 a=0.46, b=0.54 a=0.46,b=0.54,具体过程请自行参考原文。

给定计算量下的最优设计

Fig 4是将以上三种预测方法绘制成计算量——最佳模型尺寸估计曲线图,其中那贴上了一些之前工作的估计 [2] 和一些模型的对比,如Gopher(280B参数量)、GPT-3(175B参数量)和Megatron-NLG (530B)参数量。从图中能发现:

  1. 方法1和方法2估计出来的曲线基本上贴合,方法3估计出的模型尺寸在计算预算小的时候和前两者基本贴合,但在大计算预算下会偏小些,不过也不会差距特别大。
  2. 主流的大模型,如Gopher、GPT3等在对应的计算预算下,模型尺寸明显偏大,基本上是贴着 [2] 的曲线走的。

为了证明本文提出的估计方法更佳准确,作者在方法1和2中对齐Gopher的计算预算(大概是 5.76 × 1 0 23 5.76\times10^{23} 5.76×1023 FLOPs),找到了最佳模型尺寸,约是70B,作者将这个训练出来的模型称之为Chinchilla,需要将这个模型的性能和Gopher进行公平对比。注意到在方法1和2中,从Fig 2和Fig 3的右图中可以找出给定预算下的最佳训练Token数量,对于Chinchilla来说是1.4-1.5T左右,因此 D o p t / N o p t ≈ 20 D_{opt}/N_{opt} \approx 20 Dopt/Nopt20

fig4_optimal_size_tokens_prediction

Fig 4. 预测结果叠加对比:我们将三种不同方法的预测结果与Kaplan等人 [2] 的推算进行叠加对比。研究发现,所有方法均表明,当前大型模型的参数规模应显著缩小,并因此需要比现有实践更长的训练时间。

作者在相当多语言下游任务的基准上进行了测试,都发现Chinchilla对比Gopher存在普遍优势,在一些任务中甚至超过了Megatron-NLG 530B模型。这些实验过于冗长,笔者就不展示细节了。

笔者读后感

这篇论文的意义在于告诉我们,在给定了计算预算下,是存在一个最优的模型尺寸和训练数据量的,他们存在一个比例( D o p t ≈ 20 N o p t D_{opt} \approx 20 N_{opt} Dopt20Nopt),越大的模型就需要越多数据进行训练,才能发挥出模型最优的性能。这篇论文的发表时间比较早,是2022年,现在已经有很多工作证实了在推理中进行复杂策略可以有效提高模型性能 [5,6],并且这些推理策略同样也存在Scaling Law。这意味着计算预算不仅可以花在预训练上,而且可以花在推理时的Scaling,这也是这篇文章没有考虑到的点。当然,在 [6] 中作者也承认,推理时的Scaling并非是万能的,而是:

推理时计算与预训练计算并非一对一“可互换”。对于模型能力范围内的简单和中等难度问题,或者在推理(实时性)要求较低的情况下,测试时计算可以轻松弥补额外的预训练。然而,对于超出基础模型能力范围的具有挑战性的问题,或者在推理(实时性)要求较高的情况下,预训练可能更有效于提升性能。

也就是说预训练的地位并不是通过推理时的Scaling就可以替代的,预训练中分配一定量的计算预算对于全方面提高LLM的性能是必须的。结合了模型训练、模型推理的更为综合的最优配比,应该是值得去研究的。

Reference

[1]. Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas et al. “Training compute-optimal large language models.” arXiv preprint arXiv:2203.15556 (2022).

[2]. Kaplan, Jared, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. “Scaling laws for neural language models.” arXiv preprint arXiv:2001.08361 (2020).

[3]. J. Nocedal. Updating Quasi-Newton Matrices with Limited Storage. Mathematics of Computation, 35(151):773–782, 1980. ISSN 0025-5718. doi: 10.2307/2006193. URL https://www.jstor.org/stable/2006193 aka L-BFGS

[4]. P. J. Huber. Robust Estimation of a Location Parameter. The Annals of Mathematical Statistics, 35 (1):73–101, Mar. 1964. ISSN 0003-4851, 2168-8990. doi: 10.1214/aoms/1177703732. URL
https://projecteuclid.org/journals/annals-of-mathematical-statistics/volume-35/issue-1/Robust-Estimation-of-a-Location-Parameter/10.1214/aoms/1177703732.full. aka Huber loss

[5]. https://fesianxu.github.io/2025/03/02/test-time-scaling-laws-20250302/, 《大模型推理时的尺度扩展定律》

[6]. Snell, Charlie, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. “Scaling llm test-time compute optimally can be more effective than scaling model parameters.” arXiv preprint arXiv:2408.03314 (2024).

相关文章:

给定计算预算下的最佳LLM模型尺寸与预训练数据量分配

给定计算预算下的最佳LLM模型尺寸与预训练数据量分配 FesianXu 20250304 at Wechat Search Team 前言 如果给定了计算预算 C C C,如何分配LLM的模型尺寸 N N N和训练的数据量 D D D,才能使得模型的效果 L L L最好呢?笔者在此介绍一篇经典的文…...

H5DS编辑器是如何让企业快速构建动态页面

H5DS编辑器核心亮点: 1.拖拽式操作,小白友好:无需设计与代码基础!通过简单拖拽元素、调整文字和动画,即可生成交互式H5页面。内置海量模板和素材库,支持自定义设计风格,轻松适配企业品牌需求。…...

面试题汇总(一)

熙牛医疗面经 1.平衡二叉树的概念 平衡二叉树是一种二叉搜索树,他的左右两个字数的高度差绝对值不超过1,并且左右两个子树都是一颗平衡二叉树,通过左旋,右旋,左右双旋,右左双旋,来保持平衡&…...

论坛系统测试报告

目录 一、项目背景二、论坛系统测试用例思维导图三、论坛系统测试3.1界面测试3.2登陆测试3.3主页测试3.4个人中心测试 四、自动化测试脚本4.1配置驱动4.2创建浏览器类4.3功能测试4.3.1登陆测试4.3.2注册测试4.3.3主页测试4.3.4帖子编辑4.3.5运行主代码 五、BUG分析六、测试总结…...

算法比赛中处理输入和输出

在算法比赛中,不推荐使用 Scanner 和 System.out.println()。Scanner 线程安全,有大量同步操作,读取输入时每次都要解析数据类型,处理大数据量时性能开销大、效率低,易使程序超时间限制。System.out.println() 每次调用…...

llama.cpp: GGUF格式及模型量化参数介绍

GGUF格式介绍 GGUF(GPT-Generated Unified Format)是推理框架llama.cpp 中使用的一种专为大语言模型设计的二进制文件格式,旨在实现模型的快速加载和保存,同时易于读取。GGUF格式的特点: 单文件部署:模型…...

PGlite:浏览器中运行的PostgreSQL

PGlite 是一款基于 WebAssembly(WASM)构建的轻量级 PostgreSQL 数据库引擎,旨在简化开发者在浏览器、Node.js、Bun 或 Deno 环境中运行 PostgreSQL。PGlite 无需复杂的安装或配置,特别适合开发测试、本地化应用及快速原型设计。 一…...

【C++】vector(上):vector的常用接口介绍

文章目录 前言一、vector的介绍二、vector的常用接口介绍1.vector类对象的常见构造2.vector iterator 的使用3.vector类对象的容量操作3.1 size、capacity 和 empty的使用3.2 reserve的使用3.3 resize的使用 4.vector类对象的访问(包含data:返回底层数组…...

【算法】二分查找(上)

目录 一、写好二分查找的四个步骤 二、在排序数组中查找元素的第一个和最后一个位置 三、搜索插入位置 四、x的平方根 通过上篇文章【手撕二分查找】,我们知道了二分查找的【四要素】:初始值、循环条件、mid的计算方式、左右边界更新语句。 循环条件…...

【人工智能】GPT-4 vs DeepSeek-R1:谁主导了2025年的AI技术竞争?

前言 2025年,人工智能技术将迎来更加激烈的竞争。随着OpenAI的GPT-4和中国初创公司DeepSeek的DeepSeek-R1在全球范围内崭露头角,AI技术的竞争格局开始发生变化。这篇文章将详细对比这两款AI模型,从技术背景、应用领域、性能、成本效益等多个方…...

linux nginx 安装后,发现SSL模块未安装,如何处理?

?? 主页: ?? 感谢各位大佬 点赞?? 收藏 留言?? 加关注! ?? 收录于专栏:运维工程师 文章目录 前言SSL模块安装 前言 nginx 安装后,发现SSL模块未安装,如果不需要配置SSL域名,就无关紧要。但是很多时候客户后…...

蓝桥杯 - 每日打卡(类斐波那契循环数)

题目: 解题思路: 假设输入数值为number 分析题目,如果想要解决这个问题,我们需要实现两个方法,第一个检查number是否是类斐波那契,第二个是模拟1e7 - 0的过程,因为是求最大的,那么我们从1e7开始…...

深入探索C++17文件系统库:std::filesystem全面解析

前言 在C编程中,文件系统操作是许多应用程序的基础功能之一。无论是读写文件、创建目录,还是遍历文件系统,文件系统操作几乎无处不在。然而,在C17之前,标准库并没有提供一个统一、高效且易用的文件系统操作接口。开发…...

LLM | 论文精读 | GIS Copilot : 面向空间分析的自主GIS代理

论文标题:GIS Copilot: Towards an Autonomous GIS Agent for Spatial Analysis 作者:Temitope Akinboyewa,Zhenlong Li,Huan Ning,M. Naser Lessani等 来源:arXiv DOI:10.48550/arXiv.2411.…...

Unity 适用Canvas 为任一渲染模式的UI 拖拽

RectTransformUtility-ScreenPointToWorldPointInRectangle - Unity 脚本 API 将一个屏幕空间点转换为世界空间中位于给定RectTransform 平面上的一个位置。 实现 获取平面位置。 parentRT transform.parent as RectTransform; 继承IPointerDownHandler 和IDragHandler …...

基于遗传算法的无人机三维路径规划仿真步骤详解

基于遗传算法的无人机三维路径规划仿真步骤详解 一、问题定义 目标:在三维空间内,寻找从起点到终点的最优路径,需满足: 避障:避开所有障碍物。路径最短:总飞行距离尽可能短。平滑性:转折角度不宜过大,降低机动能耗。输入: 三维地图(含障碍物,如立方体、圆柱体)。起…...

windows下使用Hyper+wsl实现ubuntu下git的平替

文章目录 前言一、安装Hyper、wsl1. 安装Hyper2. 安装wsl 二、配置Hyper三、安装并使用git总结 前言 众所周知,Ubuntu下安装git只需执行sudo apt install git即可使用默认终端拉取代码,但是Windows上使用git既没有linux便捷,又没有MacOS优雅…...

基于Java+SpringCloud+Vue的前后端分离的房产销售平台

基于JavaSpringCloudVue的前后端分离的房产销售平台 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接&#x…...

以影像技术重构智能座舱体验,开启驾乘互动新纪元

在汽车智能化浪潮席卷全球的今天,座舱体验早已突破传统驾驶功能的边界,成为车企竞争的核心赛道。美摄科技凭借其在图像处理与AI算法领域的深厚积累,推出全链路智能汽车图像及视频处理方案,以创新技术重新定义车载影像系统&#xf…...

deepseek在pycharm 中的配置和简单应用

对于最常用的调试python脚本开发环境pycharm,如何接入deepseek是我们窥探ai代码编写的第一步,熟悉起来总没坏处。 1、官网安装pycharm社区版(免费),如果需要安装专业版,需要另外找破解码。 2、安装Ollama…...

LLM大型语言模型(一)

1. 什么是 LLM? LLM(大型语言模型)是一种神经网络,专门用于理解、生成并对人类文本作出响应。这些模型是深度神经网络,通常训练于海量文本数据上,有时甚至覆盖了整个互联网的公开文本。 LLM 中的 “大” …...

尚庭公寓项目记录

数据库准备 保留图像时,保存图像地址就可以数据表不是越多越好,可以用中间表来实现俩个表之间的联立这样方便查数据但是却带来性能问题而减少表的jion但是提高性能,以冗余来换去性能采用MySQL,InnoDB存储引擎物理删除和逻辑删除逻…...

飞算JavaAI编程工具集成到idea中

AI插件介绍 飞算AI的插件下载地址,里边也有安装步骤: JavaAI 以上图是不是看着很牛的样子,一下成为高手确实说的太夸张了点, 一键生成后端JavaWeb项目还是挺方便的。 飞算JavaAI插件安装 Idea->>file->>setting-&…...

【每日八股】计算机网络篇(二):TCP 和 UDP

目录 TCP 的头部结构?TCP 如何保证可靠传输?1. 确认应答机制2. 超时重传3. 数据排序与去重4. 流量控制5. 拥塞控制6. 校验和 TCP 的三次握手?第一次握手第二次握手第三次握手 TCP 为什么要三次握手?问题一:防止历史连接…...

课程《MIT Introduction to Deep Learning》

在Youtubu上,MIT Introduction to Deep Learning (2024) | 6.S191 共8节课: (1) MIT Introduction to Deep Learning (2024) | 6.S191 (2) MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention (3) MIT 6.S191: Convolutional Neural N…...

GCC RISCV 后端 -- C语言语法分析过程

在 GCC 编译一个 C 源代码时,先会通过宏处理,形成 一个叫转译单元(translation_unit),接着进行语法分析,C 的语法分析入口是 static void c_parser_translation_unit(c_parser *parser); 接着就通过类似递…...

UI组件库及antd

什么是UI组件库及antd安装 随着商业化的趋势,企业级产品中需求多且功能复杂,且变动和并发频繁,常常需要设计者与开发者快速做出响应,同时这类产品中有很多类似的页面及组件,可以通过抽象得到一些稳定且高复用性的内容…...

Windows下使用ShiftMediaProject方法编译FFmpeg

Windows SDK 8.1版本不支持dxva vp9! 需要10.0.17134.0!或者把config编译选项去掉 1.下载源码 https://github.com/ShiftMediaProject 2.创建ShiftMediaProject文件夹 把下载好的源码放入source 3.进入SMP执行 project_get_dependencies.bat 自动下载ffmepg依赖项…...

【计算机网络入门】TCP拥塞控制

目录 1. TCP拥塞控制和TCP流量控制的区别 2. 检测到拥塞该怎么办 2.1 如何判断网络拥塞? 3. 慢开始算法 拥塞避免算法 4.快重传事件->快恢复算法 5. 总结 1. TCP拥塞控制和TCP流量控制的区别 TCP流量控制是控制端对端的数据发送量。是局部的概念。 TCP拥…...

无人机遥控器无线传输技术解析!

一、主流无线传输方式 无线电遥控系统(2.4GHz/5.8GHz频段) 频段特性:2.4GHz频段穿透力强、覆盖距离远(可达2公里以上),适合控制信号传输;5.8GHz频段带宽更高,适用于高清视频流&…...