Kronecker分解(K-FAC):让自然梯度在深度学习中飞起来
Kronecker分解(K-FAC):让自然梯度在深度学习中飞起来
在深度学习的优化中,自然梯度下降(Natural Gradient Descent)是一个强大的工具,它利用Fisher信息矩阵(FIM)调整梯度方向,让参数更新更高效。然而,Fisher信息矩阵的计算复杂度是个大难题——对于参数量巨大的神经网络,直接计算和求逆几乎是不可能的。这时,Kronecker分解(Kronecker-Factored Approximate Curvature,简称K-FAC)登场了。它通过巧妙的近似,让自然梯度在深度学习中变得实用。今天,我们就来聊聊K-FAC的原理、优势,以及参数正交性如何给它加分。
Fisher信息矩阵的挑战
Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 衡量了模型输出对参数 ( θ \theta θ ) 的敏感度,在自然梯度下降中的更新公式是:
θ t + 1 = θ t − η I ( θ ) − 1 ∂ L ∂ θ \theta_{t+1} = \theta_t - \eta I(\theta)^{-1} \frac{\partial L}{\partial \theta} θt+1=θt−ηI(θ)−1∂θ∂L
这里,( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 是Fisher信息矩阵的逆,起到“校正”梯度的作用。但问题来了:
- 存储复杂度:如果模型有 ( n n n ) 个参数,( I ( θ ) I(\theta) I(θ) ) 是一个 ( n × n n \times n n×n ) 的矩阵,需要 ( O ( n 2 ) O(n^2) O(n2) ) 的存储空间。
- 计算复杂度:求逆需要 ( O ( n 3 ) O(n^3) O(n3)) 的时间复杂度。
对于一个有百万参数的神经网络,( n 2 n^2 n2 ) 和 ( n 3 n^3 n3 ) 是天文数字,直接计算完全不现实。K-FAC的出现,就是要解决这个“卡脖子”的问题。
什么是Kronecker分解(K-FAC)?
K-FAC是一种近似方法,全称是“Kronecker-Factored Approximate Curvature”。它的核心思想是利用神经网络的层级结构,将Fisher信息矩阵分解成小块矩阵,然后用Kronecker乘积(一种特殊的矩阵乘法)来近似表示。这样,既降低了计算成本,又保留了自然梯度的大部分优势。
通俗比喻
想象你在整理一个巨大的仓库(Fisher信息矩阵),里面堆满了杂乱的货物(参数间的关系)。直接搬运整个仓库太费力,而K-FAC就像把仓库分成几个小隔间(每一层网络一个),每个隔间用两个简单清单(小矩阵)描述货物分布。这样,你不用搬整个仓库,只需处理小隔间,就能大致知道货物的布局。
K-FAC的原理
1. 分层近似
神经网络通常是分层的,每一层有自己的权重(例如 ( W l W_l Wl ))。K-FAC假设Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 对不同层之间的参数交叉项近似为零,只关注每层内部的参数关系。这样,( I ( θ ) I(\theta) I(θ) ) 变成一个块对角矩阵(block-diagonal matrix),每个块对应一层:
I ( θ ) ≈ diag ( I 1 , I 2 , … , I L ) I(\theta) \approx \text{diag}(I_1, I_2, \dots, I_L) I(θ)≈diag(I1,I2,…,IL)
其中 ( I l I_l Il ) 是第 ( l l l ) 层的Fisher信息矩阵。
2. Kronecker分解
对于每一层 ( l l l ),权重 ( W l W_l Wl ) 是一个矩阵(比如 ( m × n m \times n m×n ))。对应的Fisher信息矩阵 ( I l I_l Il ) 本来是一个 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 的大矩阵,直接计算很麻烦。K-FAC观察到,神经网络的梯度可以分解为输入和输出的贡献,于是近似为:
I l ≈ A l ⊗ G l I_l \approx A_l \otimes G_l Il≈Al⊗Gl
- ( A l A_l Al ):输入激活的协方差矩阵(大小 ( m × m m \times m m×m )),表示前一层输出的统计特性。
- ( G l G_l Gl ):梯度相对于输出的协方差矩阵(大小 ( n × n n \times n n×n )),表示当前层输出的统计特性。
- ( ⊗ \otimes ⊗ ):Kronecker乘积,将两个小矩阵“组合”成一个大矩阵。后文有解释。
3. 高效求逆
Kronecker乘积有个妙处:如果 ( I l = A l ⊗ G l I_l = A_l \otimes G_l Il=Al⊗Gl ),其逆可以通过小矩阵的逆计算:
I l − 1 = A l − 1 ⊗ G l − 1 I_l^{-1} = A_l^{-1} \otimes G_l^{-1} Il−1=Al−1⊗Gl−1
- ( A l A_l Al ) 是 ( m × m m \times m m×m ),求逆是 ( O ( m 3 ) O(m^3) O(m3) )。
- ( G l G_l Gl ) 是 ( n × n n \times n n×n ),求逆是 ( O ( n 3 ) O(n^3) O(n3) )。
相比直接求 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 矩阵的 ( O ( ( m n ) 3 ) O((mn)^3) O((mn)3) ),K-FAC把复杂度降到了 ( O ( m 3 + n 3 ) O(m^3 + n^3) O(m3+n3) ),通常 ( m m m ) 和 ( n n n ) 远小于 ( m ⋅ n m \cdot n m⋅n ),节省巨大。
K-FAC的数学细节
假设第 ( l l l ) 层的输出为 ( a l = W l h l − 1 a_l = W_l h_{l-1} al=Wlhl−1 )(( h l − 1 h_{l-1} hl−1 ) 是前一层激活),损失为 ( L L L )。Fisher信息矩阵的精确定义是:
I l = E [ vec ( ∂ L ∂ a l h l − 1 T ) vec ( ∂ L ∂ a l h l − 1 T ) T ] I_l = E\left[ \text{vec}\left( \frac{\partial L}{\partial a_l} h_{l-1}^T \right) \text{vec}\left( \frac{\partial L}{\partial a_l} h_{l-1}^T \right)^T \right] Il=E[vec(∂al∂Lhl−1T)vec(∂al∂Lhl−1T)T]
K-FAC近似为:
I l ≈ E [ h l − 1 h l − 1 T ] ⊗ E [ ∂ L ∂ a l ∂ L ∂ a l T ] = A l ⊗ G l I_l \approx E\left[ h_{l-1} h_{l-1}^T \right] \otimes E\left[ \frac{\partial L}{\partial a_l} \frac{\partial L}{\partial a_l}^T \right] = A_l \otimes G_l Il≈E[hl−1hl−1T]⊗E[∂al∂L∂al∂LT]=Al⊗Gl
- ( A l = E [ h l − 1 h l − 1 T ] A_l = E[h_{l-1} h_{l-1}^T] Al=E[hl−1hl−1T] ):输入协方差。
- ( G l = E [ ∂ L ∂ a l ∂ L ∂ a l T ] G_l = E\left[ \frac{\partial L}{\partial a_l} \frac{\partial L}{\partial a_l}^T \right] Gl=E[∂al∂L∂al∂LT] ):输出梯度协方差。
自然梯度更新变成:
vec ( Δ W l ) = ( A l − 1 ⊗ G l − 1 ) vec ( ∂ L ∂ W l ) \text{vec}(\Delta W_l) = (A_l^{-1} \otimes G_l^{-1}) \text{vec}\left( \frac{\partial L}{\partial W_l} \right) vec(ΔWl)=(Al−1⊗Gl−1)vec(∂Wl∂L)
实际中,( A l A_l Al ) 和 ( G l G_l Gl ) 通过小批量数据的平均值估计,动态更新。
K-FAC的优势
1. 计算效率
从 ( O ( n 3 ) O(n^3) O(n3) ) 降到 ( O ( m 3 + n 3 ) O(m^3 + n^3) O(m3+n3) ),K-FAC让自然梯度在大型网络中可行。例如,一个隐藏层有 1000 个神经元,普通方法需要处理百万级矩阵,而K-FAC只需处理千级矩阵。
2. 保留曲率信息
虽然是近似,K-FAC依然捕捉了每层参数的局部曲率,帮助模型更快收敛,尤其在损失函数表面复杂时。
3. 并行性
每一层的 ( A l A_l Al ) 和 ( G l G_l Gl ) 可以独立计算,非常适合GPU并行加速。
参数正交性如何助力K-FAC?
参数正交性是指Fisher信息矩阵的非对角元素 ( I i j = 0 I_{ij} = 0 Iij=0 )(( i ≠ j i \neq j i=j )),意味着参数间信息独立。K-FAC天然假设层间正交(块对角结构),但层内参数的正交性也能进一步简化计算。
1. 更接近对角形式
如果模型设计时让权重尽量正交(比如通过正交初始化,( W l W l T = I W_l W_l^T = I WlWlT=I )),( A l A_l Al ) 和 ( G l G_l Gl ) 的非对角元素会减小,( I l I_l Il ) 更接近对角矩阵。求逆时计算量进一步降低,甚至可以用简单的逐元素除法近似。
2. 提高稳定性
正交参数减少梯度方向的耦合,自然梯度更新更稳定,避免震荡。例如,卷积网络中正交卷积核可以增强K-FAC的效果。
3. 实际应用
在RNN或Transformer中,正交初始化(如Hennig的正交矩阵)结合K-FAC,能显著提升训练速度和性能。
K-FAC的应用场景
- 深度神经网络:K-FAC在DNN优化中加速收敛,常用于图像分类任务。
- 强化学习:如ACKTR算法,结合K-FAC改进策略优化。
- 生成模型:变分自编码器(VAE)中,K-FAC优化变分参数。
总结
Kronecker分解(K-FAC)通过分层和Kronecker乘积,将Fisher信息矩阵的计算复杂度从“天文数字”降到可接受范围,让自然梯度下降在深度学习中大放异彩。它不仅高效,还保留了曲率信息,适合现代大规模模型。参数正交性则是它的好帮手,通过减少参数间干扰,让K-FAC更简单、更稳定。下次训练网络时,不妨试试K-FAC,也许会带来惊喜!
补充:解释Kronecker乘积
详细解释Kronecker乘积(Kronecker Product)的含义,以及为什么K-FAC观察到神经网络的梯度可以分解为输入和输出的贡献,从而将其近似为 ( I l ≈ A l ⊗ G l I_l \approx A_l \otimes G_l Il≈Al⊗Gl )。
什么是Kronecker乘积?
Kronecker乘积是一种特殊的矩阵运算,用符号 ( ⊗ \otimes ⊗ ) 表示。它可以将两个较小的矩阵“组合”成一个更大的矩阵。具体来说,假设有两个矩阵:
- ( A A A ) 是 ( m × m m \times m m×m ) 的矩阵。
- ( G G G ) 是 ( n × n n \times n n×n ) 的矩阵。
它们的Kronecker乘积 ( A ⊗ G A \otimes G A⊗G ) 是一个 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 的矩阵,定义为:
A ⊗ G = [ a 11 G a 12 G ⋯ a 1 m G a 21 G a 22 G ⋯ a 2 m G ⋮ ⋮ ⋱ ⋮ a m 1 G a m 2 G ⋯ a m m G ] A \otimes G = \begin{bmatrix} a_{11} G & a_{12} G & \cdots & a_{1m} G \\ a_{21} G & a_{22} G & \cdots & a_{2m} G \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} G & a_{m2} G & \cdots & a_{mm} G \end{bmatrix} A⊗G= a11Ga21G⋮am1Ga12Ga22G⋮am2G⋯⋯⋱⋯a1mGa2mG⋮ammG
其中,( a i j a_{ij} aij ) 是 ( A A A ) 的第 ( i i i ) 行第 ( j j j ) 列元素,( G G G ) 是整个 ( n × n n \times n n×n ) 矩阵。也就是说,( A A A ) 的每个元素 ( a i j a_{ij} aij ) 都被放大为一个 ( n × n n \times n n×n ) 的块矩阵 ( a i j G a_{ij} G aijG )。
通俗解释
想象你在做一个拼图,( A A A ) 是一个 ( m × m m \times m m×m ) 的模板,告诉你每个位置的重要性(比如协方差);( G G G ) 是一个 ( n × n n \times n n×n ) 的小图案。Kronecker乘积就像把 ( G G G ) 这个图案按照 ( A A A ) 的模板放大排列,形成一个更大的拼图,最终大小是 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) )。
例子
假设 ( A = [ 1 2 3 4 ] A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} A=[1324] )(2×2),( G = [ 0 1 1 0 ] G = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} G=[0110] )(2×2),则:
A ⊗ G = [ 1 ⋅ [ 0 1 1 0 ] 2 ⋅ [ 0 1 1 0 ] 3 ⋅ [ 0 1 1 0 ] 4 ⋅ [ 0 1 1 0 ] ] A \otimes G = \begin{bmatrix} 1 \cdot \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} & 2 \cdot \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} \\ 3 \cdot \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} & 4 \cdot \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} \end{bmatrix} A⊗G= 1⋅[0110]3⋅[0110]2⋅[0110]4⋅[0110]
= [ 0 1 0 2 1 0 2 0 0 3 0 4 3 0 4 0 ] = \begin{bmatrix} 0 & 1 & 0 & 2 \\ 1 & 0 & 2 & 0 \\ 0 & 3 & 0 & 4 \\ 3 & 0 & 4 & 0 \end{bmatrix} = 0103103002042040
结果是一个 4×4 矩阵(( 2 ⋅ 2 × 2 ⋅ 2 2 \cdot 2 \times 2 \cdot 2 2⋅2×2⋅2 ))。
K-FAC为何用Kronecker乘积近似?
现在我们来看K-FAC为什么观察到神经网络的梯度可以分解为输入和输出的贡献,并用 ( I l ≈ A l ⊗ G l I_l \approx A_l \otimes G_l Il≈Al⊗Gl ) 来近似Fisher信息矩阵。
背景:Fisher信息矩阵的定义
对于第 ( l l l ) 层的权重 ( W l W_l Wl )(一个 ( m × n m \times n m×n ) 矩阵),Fisher信息矩阵 ( I l I_l Il ) 是关于 ( W l W_l Wl ) 的二阶统计量。假设输出为 ( a l = W l h l − 1 a_l = W_l h_{l-1} al=Wlhl−1 )(( h l − 1 h_{l-1} hl−1 ) 是前一层激活),损失为 ( L L L ),精确的Fisher信息矩阵是:
I l = E [ vec ( ∂ L ∂ a l h l − 1 T ) vec ( ∂ L ∂ a l h l − 1 T ) T ] I_l = E\left[ \text{vec}\left( \frac{\partial L}{\partial a_l} h_{l-1}^T \right) \text{vec}\left( \frac{\partial L}{\partial a_l} h_{l-1}^T \right)^T \right] Il=E[vec(∂al∂Lhl−1T)vec(∂al∂Lhl−1T)T]
这里:
- ( ∂ L ∂ a l \frac{\partial L}{\partial a_l} ∂al∂L ) 是损失对输出的梯度(大小为 ( n × 1 n \times 1 n×1 ))。
- ( h l − 1 h_{l-1} hl−1 ) 是输入激活(大小为 ( m × 1 m \times 1 m×1 ))。
- ( ∂ L ∂ a l h l − 1 T \frac{\partial L}{\partial a_l} h_{l-1}^T ∂al∂Lhl−1T ) 是 ( W l W_l Wl ) 的梯度(( m × n m \times n m×n ) 矩阵)。
- ( vec ( ⋅ ) \text{vec}(\cdot) vec(⋅) ) 将矩阵拉成向量,( I l I_l Il ) 是 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 的。
直接计算这个期望需要存储和操作一个巨大矩阵,复杂度为 ( O ( ( m n ) 2 ) O((mn)^2) O((mn)2) )。
K-FAC的观察:梯度分解
K-FAC注意到,神经网络的梯度 ( ∂ L ∂ W l = ∂ L ∂ a l h l − 1 T \frac{\partial L}{\partial W_l} = \frac{\partial L}{\partial a_l} h_{l-1}^T ∂Wl∂L=∂al∂Lhl−1T ) 天然具有“输入”和“输出”的分离结构:
- 输入贡献:( h l − 1 h_{l-1} hl−1 ) 是前一层的激活,决定了梯度的“空间结构”。
- 输出贡献:( ∂ L ∂ a l \frac{\partial L}{\partial a_l} ∂al∂L ) 是当前层的输出梯度,决定了梯度的“强度”。
这两个部分是外积(outer product)的形式,提示我们可以分别统计它们的特性,而不是直接算整个大矩阵的协方差。
分解为输入和输出的协方差
K-FAC假设梯度的期望可以近似分解为输入和输出的独立统计量:
I l ≈ E [ h l − 1 h l − 1 T ] ⊗ E [ ∂ L ∂ a l ∂ L ∂ a l T ] I_l \approx E\left[ h_{l-1} h_{l-1}^T \right] \otimes E\left[ \frac{\partial L}{\partial a_l} \frac{\partial L}{\partial a_l}^T \right] Il≈E[hl−1hl−1T]⊗E[∂al∂L∂al∂LT]
- ( A l = E [ h l − 1 h l − 1 T ] A_l = E[h_{l-1} h_{l-1}^T] Al=E[hl−1hl−1T] ):输入激活的协方差矩阵(( m × m m \times m m×m )),捕捉了 ( h l − 1 h_{l-1} hl−1 ) 的统计特性。
- ( G l = E [ ∂ L ∂ a l ∂ L ∂ a l T ] G_l = E\left[ \frac{\partial L}{\partial a_l} \frac{\partial L}{\partial a_l}^T \right] Gl=E[∂al∂L∂al∂LT] ):输出梯度的协方差矩阵(( n × n n \times n n×n )),捕捉了后续层反馈的统计特性。
为什么用Kronecker乘积 ( ⊗ \otimes ⊗ )?因为梯度 ( ∂ L ∂ W l \frac{\partial L}{\partial W_l} ∂Wl∂L ) 是一个矩阵,其向量化形式 ( vec ( ∂ L ∂ W l ) \text{vec}(\frac{\partial L}{\partial W_l}) vec(∂Wl∂L) ) 的协方差天然可以用输入和输出的外积结构表示。Kronecker乘积正好能将 ( A l A_l Al ) 和 ( G l G_l Gl ) “组合”成一个 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 的矩阵,与 ( I l I_l Il ) 的维度一致。
为什么这个近似合理?
-
结构假设:
- 神经网络的分层设计让输入 ( h l − 1 h_{l-1} hl−1 ) 和输出梯度 ( ∂ L ∂ a l \frac{\partial L}{\partial a_l} ∂al∂L ) 在统计上相对独立。
- 这种分解假设 ( h l − 1 h_{l-1} hl−1 ) 和 ( ∂ L ∂ a l \frac{\partial L}{\partial a_l} ∂al∂L ) 的相关性主要通过外积体现,忽略了更高阶的交叉项。
-
维度匹配:
- ( A l ⊗ G l A_l \otimes G_l Al⊗Gl ) 生成一个 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 矩阵,与 ( I l I_l Il ) 的维度一致。
- 它保留了输入和输出的主要统计信息,同时简化了计算。
-
经验验证:
- 实验表明,这种近似在实践中效果很好,尤其在全连接层和卷积层中,能捕捉梯度曲率的主要特征。
为什么分解为输入和输出的贡献?
回到K-FAC的观察:神经网络的梯度 ( ∂ L ∂ W l = ∂ L ∂ a l h l − 1 T \frac{\partial L}{\partial W_l} = \frac{\partial L}{\partial a_l} h_{l-1}^T ∂Wl∂L=∂al∂Lhl−1T ) 是一个外积形式,这种结构启发我们分开考虑:
- 输入端(( h l − 1 h_{l-1} hl−1 )):它来自前一层,反映了数据的空间分布(如激活的协方差)。
- 输出端(( ∂ L ∂ a l \frac{\partial L}{\partial a_l} ∂al∂L )):它来自后续层,反映了损失对当前输出的敏感度。
在神经网络中,梯度本质上是“输入”和“输出”交互的结果。K-FAC利用这一点,将Fisher信息矩阵分解为两部分的乘积,而不是直接处理整个权重矩阵的复杂关系。这种分解不仅符合直觉(网络是层层传递的),也大大降低了计算负担。
总结
Kronecker乘积 ( ⊗ \otimes ⊗ ) 是K-FAC的核心工具,它将输入协方差 ( A l A_l Al ) 和输出梯度协方差 ( G l G_l Gl ) 组合成一个大矩阵,近似表示Fisher信息矩阵 ( I l I_l Il )。这种近似的依据是神经网络梯度的外积结构——输入和输出的贡献可以分开统计。K-FAC通过这种方式,把原本难以计算的 ( ( m ⋅ n ) × ( m ⋅ n ) (m \cdot n) \times (m \cdot n) (m⋅n)×(m⋅n) ) 矩阵问题,简化成了两个小矩阵的操作,既高效又实用。
后记
2025年2月24日22点48分于上海,在Grok3大模型辅助下完成。
相关文章:
Kronecker分解(K-FAC):让自然梯度在深度学习中飞起来
Kronecker分解(K-FAC):让自然梯度在深度学习中飞起来 在深度学习的优化中,自然梯度下降(Natural Gradient Descent)是一个强大的工具,它利用Fisher信息矩阵(FIM)调整梯度…...

ArcGIS Pro技巧实战:高效矢量化天地图地表覆盖图
在地理信息系统(GIS)领域,地表覆盖图的矢量化是一项至关重要的任务。天地图作为中国国家级的地理信息服务平台,提供了丰富且详尽的地表覆盖数据。然而,这些数据通常以栅格格式存在,不利于进行空间分析和数据…...
React + TypeScript 数据模型驱动数据字典生成示例
React TypeScript 数据模型驱动数据字典生成示例 引言:数据字典的工程价值 在现代化全栈开发中,数据字典作为业务实体与数据存储的映射桥梁,直接影响系统可维护性与团队协作效率。传统手动维护字典的方式存在同步成本高和版本管理混乱两大痛…...
道可云人工智能每日资讯|深圳将设立人工智能和机器人产业基金
道可云元宇宙每日简报(2025年2月26日)讯,今日元宇宙新鲜事有: 上海青浦发布国际产业协作元宇宙平台 近日,“2025出海企业与跨境专业服务论坛”在上海青浦区徐泾镇举行。论坛上重磅发布三大全球化服务平台,…...
[2024年下半年架构师考试真题之论文]
2024论文真题试题一(架构) 论面向服务的架构设计 Web service 是一种通过互联网协议(如 HTTP)来提供服务的软件系统,它允许不同的应用程序之间进行交互,而无需考虑它们所使用的操作系统、编程语言或硬件平台。其本质是将应用程序的功能以服务的形式暴露出来,使得其他应…...

神经网络 - 激活函数(Sigmoid 型函数)
激活函数在神经元中非常重要的。为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质: (1) 连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数. (2) 激活函数及其导函数要尽可能的简单࿰…...

阿里云 | 快速在网站上增加一个AI助手
创建智能体应用 如上所示,登录阿里云百炼人工智能业务控制台,创建智能体应用,智能体应用是一个agent,即提供个人或者企业的代理或中间件组件应用,对接阿里云大模型公共平台,为个人或者企业用户提供大模型应…...

【操作系统】处理机调度
处理机调度 一、调度的概念、层次1.1 三个层次1.2 七状态模型 二、调度算法的评价指标2.1 CPU利用率2.2 系统吞吐率2.3 周转时间2.4 等待时间2.5 响应时间 三、进程调度(低级调度)的时机3.1 需要进程调度的情况3.2 不能进程调度的情况3.3 闲逛进程 四、进…...

mysql服务层介绍,NOSQL+SQL接口(nosql介绍),语法分析器,预处理器,优化器(优化的必要性,基于成本的优化器),缓存(弊端)
目录 mysql服务层 介绍 服务管理和公共组件 备份 NOSQL,SQL接口 介绍 nosql Parser模块(语法分析器) 介绍 词法分析 语法分析 示例 预处理器 引入 介绍 优化器 介绍 优化的必要性 基于成本的优化器 缓存 介绍 弊端 mysql服务层 介绍 数据库服务层是整个…...

将DeepSeek接入vscode的N种方法
接入deepseek方法一:cline 步骤1:安装 Visual Studio Code 后,左侧导航栏上点击扩展。 步骤2:搜索 cline,找到插件后点击安装。 步骤3:在大模型下拉菜单中找到deep seek,然后下面的输入框输入你在deepseek申请的api key,就可以用了 让deepseek给我写了一首关于天气的…...

【算法与数据结构】Dijkstra算法求单源最短路径问题
目录 Dijkstra算法 算法简介: 该算法的核心思想: 算法特点: 算法示例演示: 算法实现: 邻接矩阵存图 邻接表存图: 时间复杂度分析: Dijkstra算法 算法简介: Dijkstra算法&am…...

.CSV file input into contact of outlook with gibberish. .csv文件导入outlook, 出现乱码
workaround : 清理excel或者csv文件的格式, 使用手动先输入几个常规字, 然后使用格式刷...

StableDiffusion打包 项目迁移 项目分发 0
StableDiffusion项目迁移 0 先看了几个其他人的本地部署文章和视频,对别人的步骤做记录。(写的很潦草,只是注意一下有什么点需要注意) 虽然秋叶大佬有整合包,但是我是为了项目分发学习的,还是想自己配环境…...

关于Postman自动获取token
在使用postman测试联调接口时,可能每个接口都需要使用此接口生成的令牌做Authorization的Bearer Token验证,最直接的办法可能会是一步一步的点击,如下图: 在Authorization中去选择Bearer Token,然后将获取到的token粘贴…...

LSTM长短期记忆网络-原理分析
1 简介 概念 LSTM(Long Short-Term Memory)也称为长短期记忆网络,是一种改进的循环神经网络(RNN),专门设计用于解决传统RNN的梯度消失问题和长程依赖问题。LSTM通过引入门机制和细胞状态,能够更…...

sql server笔记
创建数据库 use master gocreate database stuuuuu//删除数据库if db_id ($$$) is not nullDrop database [$$$] go//新建表USE [studyTest] GOSET ANSI_NULLS ON GOSET QUOTED_IDENTIFIER ON GOCREATE TABLE [dbo].[Table_1]([id] [int] NULL,[name] [varchar](10) NULL ) ON…...

AI Video Composer:基于Qwen2.5-Coder的简易开源视频创作利器
系列篇章💥 No.文章1短视频开源项目MoneyPrinterTurbo:AI副业搞起来,视频制作更轻松!2【FunClip】阿里开源AI视频剪辑神器:全面体验与教程3Tailor:免费开源 AI 视频神器,创作者必备利器4Clappe…...

AI数字人开发,引领科技新潮流
引言 随着人工智能技术的迅猛发展,AI 数字人在影视娱乐、客户服务、教育及医疗等多个领域展现出巨大的潜力。本文旨在为开发者提供一份详细的 AI 数字人系统开发指南,涵盖从基础架构到实现细节的各个方面,包括人物建模、动作生成、语音交互、…...
VoIP之音频3A技术
音频3A技术是改善语音通话质量的三种关键技术的简称,包括声学回声消除(Acoustic Echo Cancellation, AEC)、自动增益控制(Automatic Gain Control, AGC)、自噪声抑制(Automatic Noise Suppression, ANS&…...

[原创]openwebui解决searxng通过接口请求不成功问题
openwebui 对接 searxng 时 无法查询到联网信息,使用bing搜索,每次返回json是正常的 神秘代码: http://172.30.254.200:8080/search?q北京市天气&formatjson&languagezh&time_range&safesearch0&languagezh&locale…...

网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...

React第五十七节 Router中RouterProvider使用详解及注意事项
前言 在 React Router v6.4 中,RouterProvider 是一个核心组件,用于提供基于数据路由(data routers)的新型路由方案。 它替代了传统的 <BrowserRouter>,支持更强大的数据加载和操作功能(如 loader 和…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...
系统设计 --- MongoDB亿级数据查询优化策略
系统设计 --- MongoDB亿级数据查询分表策略 背景Solution --- 分表 背景 使用audit log实现Audi Trail功能 Audit Trail范围: 六个月数据量: 每秒5-7条audi log,共计7千万 – 1亿条数据需要实现全文检索按照时间倒序因为license问题,不能使用ELK只能使用…...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

STM32标准库-DMA直接存储器存取
文章目录 一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA(Direct Memory Access)直接存储器存取 DMA可以提供外设…...

Linux-07 ubuntu 的 chrome 启动不了
文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了,报错如下四、启动不了,解决如下 总结 问题原因 在应用中可以看到chrome,但是打不开(说明:原来的ubuntu系统出问题了,这个是备用的硬盘&a…...
WEB3全栈开发——面试专业技能点P2智能合约开发(Solidity)
一、Solidity合约开发 下面是 Solidity 合约开发 的概念、代码示例及讲解,适合用作学习或写简历项目背景说明。 🧠 一、概念简介:Solidity 合约开发 Solidity 是一种专门为 以太坊(Ethereum)平台编写智能合约的高级编…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...

全志A40i android7.1 调试信息打印串口由uart0改为uart3
一,概述 1. 目的 将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本:2014.07; Kernel版本:Linux-3.10; 二,Uboot 1. sys_config.fex改动 使能uart3(TX:PH00 RX:PH01),并让boo…...