随机矩阵投影长度保持引理及其证明
原论文中的引理 2 \textbf{2} 2
1. \textbf{1. } 1. 引理 1 \textbf{1} 1(前提之一)
1.1. \textbf{1.1. } 1.1. 引理 1 \textbf{1} 1的内容
👉前提: X ∼ N ( 0 , σ ) X\sim{}N(0,\sigma) X∼N(0,σ)即 f ( x ) = 1 2 π σ e – x 2 2 σ 2 f(x)\text{=}\cfrac{1}{\sqrt{2\pi}\sigma}e^{–\frac{x^{2}}{2\sigma^{2}}} f(x)=2πσ1e–2σ2x2,且 ∀ α < 1 2 σ 2 \forall{}\alpha{}\text{<}\cfrac{1}{2\sigma^{2}} ∀α<2σ21
👉结论: E [ e α X 2 ] = 1 1 – 2 α σ 2 \mathrm{E}\left[e^{\alpha{}X^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}} E[eαX2]=1–2ασ21
2. \textbf{2. } 2. 引理 1 \textbf{1} 1的证明
↪ E [ e α X 2 ] = ∫ – ∞ ∞ e α x 2 f ( x ) d x = ∫ – ∞ ∞ e α x 2 ⋅ 1 2 π σ e – x 2 2 σ 2 d x = ∫ – ∞ ∞ 1 2 π σ e – x 2 2 σ 2 ( 1 – 2 α σ 2 ) d x \displaystyle{}\mathrm{E}\left[e^{\alpha{}X^2}\right]\text{=}\int_{–\infty}^{\infty}e^{\alpha{}x^2}f(x)dx\text{=}\int_{–\infty}^{\infty} e^{\alpha x^2} \cdot \frac{1}{\sqrt{2 \pi} \sigma} e^{–\frac{x^2}{2 \sigma^2}} d x\text{=}\int_{–\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma} e^{–\frac{x^2}{2 \sigma^2}\left(1–2 \alpha \sigma^2\right)} d x E[eαX2]=∫–∞∞eαx2f(x)dx=∫–∞∞eαx2⋅2πσ1e–2σ2x2dx=∫–∞∞2πσ1e–2σ2x2(1–2ασ2)dx
↪令 σ ′ = σ 1 – 2 α σ 2 \sigma^{\prime}=\cfrac{\sigma}{\sqrt{1–2 \alpha \sigma^2}} σ′=1–2ασ2σ,其中必定要求 1 – 2 α σ 2 >0 1–2 \alpha \sigma^2\text{>0} 1–2ασ2>0即 α < 1 2 σ 2 \alpha{}\text{<}\cfrac{1}{2\sigma^{2}} α<2σ21
↪ E [ e α X 2 ] = ∫ – ∞ ∞ 1 – 2 α σ 2 2 π σ 1 – 2 α σ 2 e – x 2 2 σ 2 ( 1 – 2 α σ 2 ) d x = 1 1 – 2 α σ 2 ∫ − ∞ ∞ 1 2 π σ ′ e − x 2 2 σ ′ 2 d x \displaystyle{}\mathrm{E}\left[e^{\alpha X^2}\right]\text{=}\int_{–\infty}^{\infty} \cfrac{\sqrt{1–2 \alpha \sigma^2}}{\sqrt{2 \pi} \sigma \sqrt{1–2 \alpha \sigma^2}} e^{–\frac{x^2}{2 \sigma^2}\left(1–2 \alpha \sigma^2\right)} d x\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}}\int_{-\infty}^{\infty} \cfrac{1}{\sqrt{2 \pi} \sigma^{\prime}} e^{-\frac{x^2}{2 \sigma^{\prime 2}}} d x E[eαX2]=∫–∞∞2πσ1–2ασ21–2ασ2e–2σ2x2(1–2ασ2)dx=1–2ασ21∫−∞∞2πσ′1e−2σ′2x2dx
↪考虑到 ∫ − ∞ ∞ 1 2 π σ ′ e − x 2 2 σ ′ 2 d x = 1 \displaystyle{}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi} \sigma^{\prime}} e^{-\frac{x^2}{2 \sigma^{\prime 2}}} d x\text{=}1 ∫−∞∞2πσ′1e−2σ′2x2dx=1,所以 E [ e α X 2 ] = 1 1 – 2 α σ 2 \mathrm{E}\left[e^{\alpha{}X^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}} E[eαX2]=1–2ασ21
2. \textbf{2. } 2. 引理 2 \textbf{2} 2
2.1. \textbf{2.1. } 2.1. 引理 2 \textbf{2} 2的内容
👉前提 1 1 1:设一个随机矩阵 S = ( s i j ) ∈ R t × d S\text{=}(s_{ij})\text{∈}\mathbb{R}^{t\text{×}d} S=(sij)∈Rt×d,每个元素 s i j s_{ij} sij独立同分布于 N ( 0 , 1 ) N(0,1) N(0,1)
👉前提 2 2 2:对任意固定向量 u ∈ R d × 1 u\text{∈}\mathbb{R}^{d\text{×}1} u∈Rd×1(即 u ′ u^{\prime} u′不随机),定义 u ′ = 1 t ( S u ) u^{\prime}\text{=}\cfrac{1}{\sqrt{t}}(Su) u′=t1(Su)
👉:结论 1 1 1: E [ ∥ u ′ ∥ 2 ] = ∥ u ∥ 2 \text{E}\left[\left\|u^{\prime}\right\|^2\right]\text{=}\|u\|^2 E[∥u′∥2]=∥u∥2,即 ∥ u ′ ∥ 2 \left\|u^{\prime}\right\|^2 ∥u′∥2和 ∥ u ∥ 2 \|u\|^2 ∥u∥2在统计学上是相等的
👉结论 2 2 2: Pr [ ∥ u ′ ∥ 2 ∉ ( 1 ± ε ) ∥ u ∥ 2 ] ≤ 2 e – ( ε 2 – ε 3 ) t 4 \text{Pr}\left[\left\|u^{\prime}\right\|^2\notin{}(1\text{±}\varepsilon{})\|u\|^2\right]\text{≤}2e^{–\left(\varepsilon{}^2–\varepsilon{}^3\right)\frac{t}{4}} Pr[∥u′∥2∈/(1±ε)∥u∥2]≤2e–(ε2–ε3)4t,即 ∥ u ′ ∥ 2 \left\|u^{\prime}\right\|^2 ∥u′∥2和 ∥ u ∥ 2 \|u\|^2 ∥u∥2在实际值上偏差极小且可控
2.2. \textbf{2.2. } 2.2. 引理 2 \textbf{2} 2的证明
2.2.1. \textbf{2.2.1. } 2.2.1. 对结论 1 \textbf{1} 1的证明
↪对于 s i j ∼ N ( 0 , 1 ) s_{ij}\sim{}N(0,1) sij∼N(0,1),则有 S ⋅ j u = ∑ i = 1 d s i j u i ∼ N ( 0 , ∥ u ∥ 2 ) \displaystyle{}S_{\cdot{}j}u\text{=}\sum_{i=1}^{d}s_{ij}u_i\sim{}N(0,\|u\|^2) S⋅ju=i=1∑dsijui∼N(0,∥u∥2)
- 均值 E [ S ⋅ j u ] =E [ ∑ i = 1 d s i j u i ] = ∑ i = 1 d u i E [ s i j ] = 0 \displaystyle{}\text{E}\left[S_{\cdot{}j}u\right]\text{=}\text{E}\left[\sum_{i=1}^ds_{ij}u_i\right]\text{=}\sum_{i=1}^du_i\text{E}\left[s_{ij}\right]\text{=}0 E[S⋅ju]=E[i=1∑dsijui]=i=1∑duiE[sij]=0
- 方差 Var [ S ⋅ j u ] =Var [ ∑ i = 1 d s i j u i ] = ∑ i = 1 d Var [ s i j u i ] = ∑ i = 1 d u i 2 Var [ s i j ] = ∑ i = 1 d u i 2 = ∥ u ∥ 2 \displaystyle{}\text{Var}\left[S_{\cdot{}j}u\right]\text{=}\text{Var}\left[\sum_{i=1}^ds_{ij}u_i\right]\text{=}\sum_{i=1}^d\text{Var}[s_{ij}u_i]\text{=}\sum_{i=1}^du_i^2\text{Var}[s_{ij}]\text{=}\sum_{i=1}^du_i^2\text{=}\|u\|^2 Var[S⋅ju]=Var[i=1∑dsijui]=i=1∑dVar[sijui]=i=1∑dui2Var[sij]=i=1∑dui2=∥u∥2
↪正态分布性质 E [ X 2 ] = σ 2 \text{E}[X^2]\text{=}\sigma{}^2 E[X2]=σ2,所以 E [ ( S ⋅ j u ) 2 ] = ∥ u ∥ 2 \text{E}\left[\left(S_{\cdot{}j}u\right)^2\right]\text{=}\|u\|^2 E[(S⋅ju)2]=∥u∥2
↪所以 E [ ∥ S u ∥ 2 ] =E [ ∑ j = 1 t ( S ⋅ j u ) 2 ] = ∑ j = 1 t E [ ( S ⋅ j u ) 2 ] = t ∥ u ∥ 2 \displaystyle{}\text{E}\left[\|Su\|^2\right]\text{=}\text{E}\left[\sum_{j\text{=}1}^t\left(S_{\cdot{}j}u\right)^2\right]\text{=}\sum_{j=1}^t\text{E}\left[\left(S_{\cdot{}j}u\right)^2\right]\text{=}t\|u\|^2 E[∥Su∥2]=E[j=1∑t(S⋅ju)2]=j=1∑tE[(S⋅ju)2]=t∥u∥2
↪根据 u ′ = 1 t ( S u ) u^{\prime}\text{=}\cfrac{1}{\sqrt{t}}(Su) u′=t1(Su),得到 ∥ u ′ ∥ 2 = 1 t ∥ S u ∥ 2 \left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2 ∥u′∥2=t1∥Su∥2
↪所以 E [ ∥ u ′ ∥ 2 ] =E [ 1 t ∥ S u ∥ 2 ] = 1 t E [ ∥ S u ∥ 2 ] = 1 t ( t ∥ u ∥ 2 ) = ∥ u ∥ 2 \displaystyle{}\text{E}\left[\left\|u^{\prime}\right\|^2\right]\text{=}\text{E}\left[\cfrac{1}{t}\|Su\|^2\right]\text{=}\cfrac{1}{t}\text{E}\left[\|Su\|^2\right]\text{=}\cfrac{1}{t}\left(t\|u\|^2\right)\text{=}\|u\|^2 E[∥u′∥2]=E[t1∥Su∥2]=t1E[∥Su∥2]=t1(t∥u∥2)=∥u∥2
2.2.2. \textbf{2.2.2. } 2.2.2. 对结论 2 \textbf{2} 2的证明(正半边)
↪考虑到 S ⋅ j u ∼ N ( 0 , ∥ u ∥ 2 ) \displaystyle{}S_{\cdot{}j}u\sim{}N(0,\|u\|^2) S⋅ju∼N(0,∥u∥2),故将其归一化为 X j = S ⋅ j u ∥ u ∥ ∼ N ( 0 , 1 ) X_j\text{=}\cfrac{S_{\cdot{}j}u}{\|u\|}\sim{}N(0,1) Xj=∥u∥S⋅ju∼N(0,1)
↪由此定义 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2(自由度为 t t t的 χ 2 \chi^2 χ2分布),由此 ∥ u ′ ∥ 2 = 1 t ∥ S u ∥ 2 = 1 t ∑ j = 1 t ( S ⋅ j u ) 2 = ∥ u ∥ 2 1 t ∑ j = 1 t X j 2 = 1 t ∥ u ∥ 2 X \displaystyle{}\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2\text{=}\cfrac{1}{t}\sum_{j=1}^t\left(S_{\cdot{}j}u\right)^2\text{=}\|u\|^2\cfrac{1}{t}\sum_{j=1}^tX_j^2\text{=}\cfrac{1}{t}\|u\|^2X ∥u′∥2=t1∥Su∥2=t1j=1∑t(S⋅ju)2=∥u∥2t1j=1∑tXj2=t1∥u∥2X
↪由此 Pr [ ∥ u ′ ∥ 2 ≥ ( 1 + ε ) ∥ u ∥ 2 ] =Pr [ X ≥ ( 1 + ε ) t ] \text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≥}(1\text{+}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right] Pr[∥u′∥2≥(1+ε)∥u∥2]=Pr[X≥(1+ε)t]
↪考虑马可夫不等式的指数形式: Pr [ X ≥ ( 1 + ε ) t ] =Pr [ e α X ≥ e α ( 1 + ε ) t ] ≤ E [ e α X ] e α ( 1 + ε ) t \text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{=}\text{Pr}\left[e^{\alpha{}X}\text{≥}e^{\alpha{}(1\text{+}\varepsilon{})t}\right]\text{≤}\cfrac{\text{E}\left[e^{\alpha{}X}\right]}{e^{\alpha{}(1\text{+}\varepsilon{})t}} Pr[X≥(1+ε)t]=Pr[eαX≥eα(1+ε)t]≤eα(1+ε)tE[eαX]
- 考虑到 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2,所以 E [ e α X ] =E [ e α ( X 1 2 + X 2 2 + ⋯ + X t 2 ) ] =E [ e α X 1 2 e α X 2 2 ⋯ e α X t 2 ] =E [ ∏ j = 1 t e α X j 2 ] = ∏ j = 1 t E [ e α X j 2 ] \displaystyle{}\text{E}\left[e^{\alpha{}X}\right]\text{=}\text{E}\left[e^{\alpha{}(X^2_1\text{+}X^2_2\text{+}\cdots\text{+}X^2_t)}\right]\text{=}\text{E}\left[e^{\alpha{}X^2_1}e^{\alpha{}X^2_2}\cdots{}e^{\alpha{}X^2_t}\right]\text{=}\text{E}\left[\prod_{j=1}^te^{\alpha{}X^2_j}\right]\text{=}\prod_{j=1}^t\text{E}\left[e^{\alpha{}X_j^2}\right] E[eαX]=E[eα(X12+X22+⋯+Xt2)]=E[eαX12eαX22⋯eαXt2]=E[j=1∏teαXj2]=j=1∏tE[eαXj2]
- 在引理 1 1 1中已经证明 E [ e α X j 2 ] = 1 1 – 2 α σ 2 ( α < 1 2 σ 2 ) \text{E}\left[e^{\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}\sigma^{2}}}(\alpha{}\text{<}\cfrac{1}{2\sigma^{2}}) E[eαXj2]=1–2ασ21(α<2σ21),考虑到此处 σ ( X j ) = 1 \sigma({X_j})\text{=}1 σ(Xj)=1所以 E [ e α X j 2 ] = 1 1 – 2 α ( α < 1 2 ) \text{E}\left[e^{\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1–2\alpha{}}}(\alpha{}\text{<}\cfrac{1}{2}) E[eαXj2]=1–2α1(α<21)
- 所以 E [ e α X ] = ∏ j = 1 t ( 1 1 – 2 α ) = ( 1 1 – 2 α ) t = 1 ( 1 – 2 α ) t 2 \displaystyle{}\text{E}\left[e^{\alpha{}X}\right]\text{=}\prod_{j=1}^t\left(\cfrac{1}{\sqrt{1–2\alpha{}}}\right)\text{=}\left(\cfrac{1}{\sqrt{1–2\alpha{}}}\right)^t\text{=}\cfrac{1}{(1–2\alpha)^{\frac{t}{2}}} E[eαX]=j=1∏t(1–2α1)=(1–2α1)t=(1–2α)2t1
- 代入原式得 Pr [ X ≥ ( 1 + ε ) t ] ≤ E [ e α X ] e α ( 1 + ε ) t = ( 1 – 2 α ) – t 2 e α ( 1 + ε ) t = ( e – 2 ( 1 + ε ) α 1 – 2 α ) t 2 \text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\cfrac{\text{E}\left[e^{\alpha{}X}\right]}{e^{\alpha{}(1\text{+}\varepsilon{})t}}\text{=}\cfrac{{(1–2\alpha)^{–\frac{t}{2}}}}{e^{\alpha{}(1\text{+}\varepsilon{})t}}\text{=}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}} Pr[X≥(1+ε)t]≤eα(1+ε)tE[eαX]=eα(1+ε)t(1–2α)–2t=(1–2αe–2(1+ε)α)2t
↪对于 Pr [ X ≥ ( 1 + ε ) t ] ≤ ( e – 2 ( 1 + ε ) α 1 – 2 α ) t 2 \text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}} Pr[X≥(1+ε)t]≤(1–2αe–2(1+ε)α)2t,有必要在 0 < α < 1 2 0\text{<}\alpha{}\text{<}\cfrac{1}{2} 0<α<21的范围内确定 f ( α ) = ( e – 2 ( 1 + ε ) α 1 – 2 α ) t 2 f(\alpha)\text{=}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}} f(α)=(1–2αe–2(1+ε)α)2t的最小值
对于 ln ( f ( α ) ) = t 2 [ – 2 ( 1 + ε ) α – ln ( 1 – 2 α ) ] \ln(f(\alpha))\text{=}\cfrac{t}{2}[–2(1\text{+}\varepsilon)\alpha–\ln(1–2\alpha)] ln(f(α))=2t[–2(1+ε)α–ln(1–2α)],令 g ( α ) =– 2 ( 1 + ε ) α – ln ( 1 – 2 α ) g(\alpha)\text{=}–2(1\text{+}\varepsilon)\alpha–\ln(1–2\alpha) g(α)=–2(1+ε)α–ln(1–2α),如下图( ε = 3 \varepsilon\text{=}3 ε=3)
![]()
一阶导 d g ( α ) d α = 2 1 – 2 α – 2 ( 1 + ε ) \cfrac{\text{d}g{(\alpha)}}{\text{d}\alpha}\text{=}\cfrac{2}{1–2\alpha}–2(1\text{+}\varepsilon) dαdg(α)=1–2α2–2(1+ε),具有临界点 α ∗ = ε 2 ( 1 + ε ) ∈ ( 0 , 1 2 ) \alpha^*\text{=}\cfrac{\varepsilon}{2(1\text{+}\varepsilon)}\text{∈}\left(0,\cfrac{1}{2}\right) α∗=2(1+ε)ε∈(0,21),故 ε > 0 \varepsilon\text{>}0 ε>0
代入原式即得 Pr [ X ≥ ( 1 + ε ) t ] ≤ ( e – 2 ( 1 + ε ) α 1 – 2 α ) t 2 ≤ ( ( 1 + ε ) e – ε ) t 2 \text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1\text{+}\varepsilon) e^{–\varepsilon}\right)^{\frac{t}{2}} Pr[X≥(1+ε)t]≤(1–2αe–2(1+ε)α)2t≤((1+ε)e–ε)2t
↪进一步对 h ( ε ) = ( ( 1 + ε ) e – ε ) t 2 h(\varepsilon)\text{=}\left((1\text{+}\varepsilon)e^{–\varepsilon}\right)^{\frac{t}{2}} h(ε)=((1+ε)e–ε)2t的分析
- 泰勒展开 ln ( 1 + ε ) = ε – ε 2 2 + ε 3 3 + O ( ε 4 ) \ln{}(1\text{+}\varepsilon)\text{=}\varepsilon–\cfrac{\varepsilon^2}{2}\text{+}\cfrac{\varepsilon^3}{3}\text{+}O\left(\varepsilon^4\right) ln(1+ε)=ε–2ε2+3ε3+O(ε4),则 ln ( 1 + ε ) – ε ≤– ε 2 2 + ε 3 3 ≤– 1 2 ( ε 2 – ε 3 ) \ln(1\text{+}\varepsilon)–\varepsilon\text{≤}–\cfrac{\varepsilon^2}{2}\text{+}\cfrac{\varepsilon^3}{3}\text{≤}–\cfrac{1}{2}\left(\varepsilon^2–\varepsilon^3\right) ln(1+ε)–ε≤–2ε2+3ε3≤–21(ε2–ε3)
- 故在 ln ( h ( ε ) ) = t 2 ( ln ( 1 + ε ) – ε ) ≤– t 4 ( ε 2 – ε 3 ) \ln(h(\varepsilon))\text{=}\cfrac{t}{2}(\ln(1\text{+}\varepsilon)–\varepsilon)\text{≤}–\cfrac{t}{4}\left(\varepsilon^2–\varepsilon^3\right) ln(h(ε))=2t(ln(1+ε)–ε)≤–4t(ε2–ε3),即 h ( ε ) ≤ e – t 4 ( ε 2 – ε 3 ) h(\varepsilon)\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)} h(ε)≤e–4t(ε2–ε3)
↪最后 Pr [ ∥ u ′ ∥ 2 ≥ ( 1 + ε ) ∥ u ∥ 2 ] =Pr [ X ≥ ( 1 + ε ) t ] ≤ ( e – 2 ( 1 + ε ) α 1 – 2 α ) t 2 ≤ ( ( 1 + ε ) e – ε ) t 2 ≤ e – t 4 ( ε 2 – ε 3 ) \text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≥}(1\text{+}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[X\text{≥}(1\text{+}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{–2(1\text{+}\varepsilon)\alpha}}{1–2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1\text{+}\varepsilon) e^{–\varepsilon}\right)^{\frac{t}{2}}\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)} Pr[∥u′∥2≥(1+ε)∥u∥2]=Pr[X≥(1+ε)t]≤(1–2αe–2(1+ε)α)2t≤((1+ε)e–ε)2t≤e–4t(ε2–ε3)
2.2.3. \textbf{2.2.3. } 2.2.3. 对结论 2 \textbf{2} 2的证明(负半边)
↪考虑到 S ⋅ j u ∼ N ( 0 , ∥ u ∥ 2 ) \displaystyle{}S_{\cdot{}j}u\sim{}N(0,\|u\|^2) S⋅ju∼N(0,∥u∥2),故将其归一化为 X j = S ⋅ j u ∥ u ∥ ∼ N ( 0 , 1 ) X_j\text{=}\cfrac{S_{\cdot{}j}u}{\|u\|}\sim{}N(0,1) Xj=∥u∥S⋅ju∼N(0,1)
↪由此定义 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2(自由度为 t t t的 χ 2 \chi^2 χ2分布),由此 ∥ u ′ ∥ 2 = 1 t ∥ S u ∥ 2 = 1 t ∑ j = 1 t ( S ⋅ j u ) 2 = ∥ u ∥ 2 1 t ∑ j = 1 t X j 2 = 1 t ∥ u ∥ 2 X \displaystyle{}\left\|u^{\prime}\right\|^2\text{=}\cfrac{1}{t}\|Su\|^2\text{=}\cfrac{1}{t}\sum_{j=1}^t\left(S_{\cdot{}j}u\right)^2\text{=}\|u\|^2\cfrac{1}{t}\sum_{j=1}^tX_j^2\text{=}\cfrac{1}{t}\|u\|^2X ∥u′∥2=t1∥Su∥2=t1j=1∑t(S⋅ju)2=∥u∥2t1j=1∑tXj2=t1∥u∥2X
↪由此 Pr [ ∥ u ′ ∥ 2 ≤ ( 1 – ε ) ∥ u ∥ 2 ] =Pr [ X ≤ ( 1 – ε ) t ] =Pr [ – X ≥– ( 1 – ε ) t ] \text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≤}(1\text{–}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[X\text{≤}(1\text{–}\varepsilon{})t\right]\text{=}\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right] Pr[∥u′∥2≤(1–ε)∥u∥2]=Pr[X≤(1–ε)t]=Pr[–X≥–(1–ε)t]
↪考虑马可夫不等式的指数形式: Pr [ – X ≥– ( 1 – ε ) t ] =Pr [ e α ( – X ) ≥ e – α ( 1 – ε ) t ] ≤ E [ e – α X ] e – α ( 1 – ε ) t \text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{=}\text{Pr}\left[e^{\alpha{}(–X)}\text{≥}e^{–\alpha{}(1\text{–}\varepsilon{})t}\right]\text{≤}\cfrac{\text{E}\left[e^{–\alpha{}X}\right]}{e^{–\alpha{}(1\text{–}\varepsilon{})t}} Pr[–X≥–(1–ε)t]=Pr[eα(–X)≥e–α(1–ε)t]≤e–α(1–ε)tE[e–αX]
- 考虑到 X = ∑ j = 1 t X j 2 \displaystyle{}X\text{=}\sum_{j=1}^tX_j^2 X=j=1∑tXj2,所以 E [ e – α X ] =E [ e – α ( X 1 2 + X 2 2 + ⋯ + X t 2 ) ] =E [ e – α X 1 2 e – α X 2 2 ⋯ e – α X t 2 ] =E [ ∏ j = 1 t e – α X j 2 ] = ∏ j = 1 t E [ e – α X j 2 ] \displaystyle{}\text{E}\left[e^{–\alpha{}X}\right]\text{=}\text{E}\left[e^{–\alpha{}(X^2_1\text{+}X^2_2\text{+}\cdots\text{+}X^2_t)}\right]\text{=}\text{E}\left[e^{–\alpha{}X^2_1}e^{–\alpha{}X^2_2}\cdots{}e^{–\alpha{}X^2_t}\right]\text{=}\text{E}\left[\prod_{j=1}^te^{–\alpha{}X_j^2}\right]\text{=}\prod_{j=1}^t\text{E}\left[e^{–\alpha{}X_j^2}\right] E[e–αX]=E[e–α(X12+X22+⋯+Xt2)]=E[e–αX12e–αX22⋯e–αXt2]=E[j=1∏te–αXj2]=j=1∏tE[e–αXj2]
- 在引理 1 1 1中已经证明 E [ e – α X j 2 ] = 1 1 + 2 α σ 2 ( α >– 1 2 σ 2 ) \text{E}\left[e^{–\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1\text{+}2\alpha{}\sigma^{2}}}(\alpha{}\text{>}–\cfrac{1}{2\sigma^{2}}) E[e–αXj2]=1+2ασ21(α>–2σ21),考虑到此处 σ ( X j ) = 1 \sigma({X_j})\text{=}1 σ(Xj)=1所以 E [ e – α X j 2 ] = 1 1 + 2 α ( α >– 1 2 ) \text{E}\left[e^{–\alpha{}X_j^{2}}\right]\text{=}\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}(\alpha{}\text{>}–\cfrac{1}{2}) E[e–αXj2]=1+2α1(α>–21)
- 所以 E [ e – α X ] = ∏ j = 1 t ( 1 1 + 2 α ) = ( 1 1 + 2 α ) t = 1 ( 1 + 2 α ) t 2 \displaystyle{}\text{E}\left[e^{–\alpha{}X}\right]\text{=}\prod_{j=1}^t\left(\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}\right)\text{=}\left(\cfrac{1}{\sqrt{1\text{+}2\alpha{}}}\right)^t\text{=}\cfrac{1}{(1\text{+}2\alpha)^{\frac{t}{2}}} E[e–αX]=j=1∏t(1+2α1)=(1+2α1)t=(1+2α)2t1
- 代入原式得 Pr [ – X ≥– ( 1 – ε ) t ] ≤ E [ e – α X ] e – α ( 1 – ε ) t = ( 1 + 2 α ) – t 2 e – α ( 1 – ε ) t = ( e 2 ( 1 – ε ) α 1 + 2 α ) t 2 \text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\cfrac{\text{E}\left[e^{–\alpha{}X}\right]}{e^{–\alpha{}(1–\varepsilon{})t}}\text{=}\cfrac{{(1\text{+}2\alpha)^{–\frac{t}{2}}}}{e^{–\alpha{}(1–\varepsilon{})t}}\text{=}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}} Pr[–X≥–(1–ε)t]≤e–α(1–ε)tE[e–αX]=e–α(1–ε)t(1+2α)–2t=(1+2αe2(1–ε)α)2t
↪对于 Pr [ – X ≥– ( 1 – ε ) t ] ≤ ( e 2 ( 1 – ε ) α 1 + 2 α ) t 2 \text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}} Pr[–X≥–(1–ε)t]≤(1+2αe2(1–ε)α)2t,有必要在 α >– 1 2 \alpha{}\text{>}–\cfrac{1}{2} α>–21的范围内确定 f ( α ) = ( e 2 ( 1 – ε ) α 1 + 2 α ) t 2 f(\alpha)\text{=}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}} f(α)=(1+2αe2(1–ε)α)2t的最小值
- 对于 ln ( f ( α ) ) = t 2 [ 2 ( 1 – ε ) α – ln ( 1 + 2 α ) ] \ln(f(\alpha))\text{=}\cfrac{t}{2}[2(1–\varepsilon)\alpha–\ln(1\text{+}2\alpha)] ln(f(α))=2t[2(1–ε)α–ln(1+2α)],令 g ( α ) = [ 2 ( 1 – ε ) α – ln ( 1 + 2 α ) ] g(\alpha)\text{=}[2(1–\varepsilon)\alpha–\ln(1\text{+}2\alpha)] g(α)=[2(1–ε)α–ln(1+2α)],如下图( ε =– 1 3 \varepsilon\text{=}–\cfrac{1}{3} ε=–31)
- 一阶导 d g ( α ) d α =– 2 1 + 2 α + 2 ( 1 + ε ) \cfrac{\text{d}g{(\alpha)}}{\text{d}\alpha}\text{=}–\cfrac{2}{1\text{+}2\alpha}\text{+}2(1\text{+}\varepsilon) dαdg(α)=–1+2α2+2(1+ε),具有临界点 α ∗ = ε 2 ( 1 – ε ) ∈ ( – 1 2 , +∞ ) \alpha^*\text{=}\cfrac{\varepsilon}{2(1–\varepsilon)}\text{∈}\left(–\cfrac{1}{2},\text{+∞}\right) α∗=2(1–ε)ε∈(–21,+∞),故 – 1 < ε < 1 –1\text{<}\varepsilon\text{<}1 –1<ε<1(由于前提限制故截取为 0 < ε < 1 0\text{<}\varepsilon\text{<}1 0<ε<1)
- 代入原式即得 Pr [ – X ≥– ( 1 – ε ) t ] ≤ ( e 2 ( 1 – ε ) α 1 + 2 α ) t 2 ≤ ( ( 1 – ε ) e ε ) t 2 \text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1–\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}} Pr[–X≥–(1–ε)t]≤(1+2αe2(1–ε)α)2t≤((1–ε)eε)2t
↪进一步对 h ( ε ) = ( ( 1 – ε ) e ε ) t 2 h(\varepsilon)\text{=}\left((1–\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}} h(ε)=((1–ε)eε)2t的分析
- 泰勒展开 ln ( 1 – ε ) =– ε – ε 2 2 – ε 3 3 + O ( ε 4 ) \ln{}(1–\varepsilon)\text{=}–\varepsilon–\cfrac{\varepsilon^2}{2}–\cfrac{\varepsilon^3}{3}\text{+}O\left(\varepsilon^4\right) ln(1–ε)=–ε–2ε2–3ε3+O(ε4),则 ln ( 1 – ε ) + ε ≤– ε 2 2 – ε 3 3 ≤– 1 2 ( ε 2 – ε 3 ) \ln(1–\varepsilon)\text{+}\varepsilon\text{≤}–\cfrac{\varepsilon^2}{2}–\cfrac{\varepsilon^3}{3}\text{≤}–\cfrac{1}{2}\left(\varepsilon^2–\varepsilon^3\right) ln(1–ε)+ε≤–2ε2–3ε3≤–21(ε2–ε3)
- 故在 ln ( h ( ε ) ) = t 2 ( ln ( 1 – ε ) + ε ) ≤– t 4 ( ε 2 – ε 3 ) \ln(h(\varepsilon))\text{=}\cfrac{t}{2}(\ln(1–\varepsilon)\text{+}\varepsilon)\text{≤}–\cfrac{t}{4}\left(\varepsilon^2–\varepsilon^3\right) ln(h(ε))=2t(ln(1–ε)+ε)≤–4t(ε2–ε3),即 h ( ε ) ≤ e – t 4 ( ε 2 – ε 3 ) h(\varepsilon)\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)} h(ε)≤e–4t(ε2–ε3)
↪最后 Pr [ ∥ u ′ ∥ 2 ≤ ( 1 – ε ) ∥ u ∥ 2 ] =Pr [ – X ≥– ( 1 – ε ) t ] ≤ ( e 2 ( 1 – ε ) α 1 + 2 α ) t 2 ≤ ( ( 1 – ε ) e ε ) t 2 ≤ e – t 4 ( ε 2 – ε 3 ) \text{Pr}\left[\left\|u^{\prime}\right\|^2\text{≤}(1\text{–}\varepsilon)\|u\|^2\right]\text{=}\text{Pr}\left[–X\text{≥}–(1\text{–}\varepsilon{})t\right]\text{≤}\left(\cfrac{e^{2(1–\varepsilon)\alpha}}{1\text{+}2\alpha}\right)^{\frac{t}{2}}\text{≤}\left((1–\varepsilon) e^{\varepsilon}\right)^{\frac{t}{2}}\text{≤}e^{–\frac{t}{4}\left(\varepsilon^2–\varepsilon^3\right)} Pr[∥u′∥2≤(1–ε)∥u∥2]=Pr[–X≥–(1–ε)t]≤(1+2αe2(1–ε)α)2t≤((1–ε)eε)2t≤e–4t(ε2–ε3)
相关文章:

随机矩阵投影长度保持引理及其证明
原论文中的引理 2 \textbf{2} 2 1. \textbf{1. } 1. 引理 1 \textbf{1} 1(前提之一) 1.1. \textbf{1.1. } 1.1. 引理 1 \textbf{1} 1的内容 👉前提: X ∼ N ( 0 , σ ) X\sim{}N(0,\sigma) X∼N(0,σ)即 f ( x ) 1 2 π σ e – x 2 2 σ 2 f(x)\text{}…...
深度学习利用数据加载、预处理和增强数据提高模型的性能
深度学习数据预处理是一个关键步骤,旨在提高模型的性能和准确性。 通过数据加载、预处理和增强,可以显著提高深度学习模型的性能和准确性。在实际应用中,需要根据具体的数据和任务来选择合适的预处理和增强技术。 以下将详细论述并举例说明如…...

ESP32服务器和PC客户端的Wi-Fi通信
ESP32客户端-服务器Wi-Fi通信 本指南将向您展示如何设置ESP32板作为服务端,PC作为客户端,通过HTTP通信,以通过Wi-Fi(无需路由器或互联网连接)交换数据。简而言之,您将学习如何使用HTTP请求将一个板的数据发…...

新型人工智能“黑帽”工具:GhostGPT带来的威胁与挑战
生成式人工智能的发展既带来了有益的生产力转型机会,也提供了被恶意利用的机会。 最近,Abnormal Security的研究人员发现了一个专门为网络犯罪创建的无审查AI聊天机器人——GhostGPT,是人工智能用于非法活动的新前沿,可以被用于网…...

Spring MVC (三) —— 实战演练
项目设计 我们会将前端的代码放入 static 包下: 高内聚,低耦合 这是我们在实现项目的设计思想,一个项目里存在很多个模块,每一个模块内部的要求类与类、方法与方法要相互配合紧密联系,这就是高内聚,低耦合…...

媒体新闻发稿要求有哪些?什么类型的稿件更好通过?
为了保证推送信息的内容质量,大型新闻媒体的审稿要求一向较为严格。尤其在商业推广的过程中,不少企业的宣传稿很难发布在这些大型新闻媒体平台上。 媒体新闻发稿要求有哪些?就让我们来了解下哪几类稿件更容易过审。 一、媒体新闻发稿要求有哪…...

【游戏设计原理】82 - 巴斯特原则
巴斯特原则的核心是“对你的玩家好一点”,这一点直击游戏设计的核心——玩家体验。 现代游戏设计不仅要注重挑战性,还要关注玩家的情绪波动与行为反应。当玩家因为过高的难度感到挫败甚至愤怒时,他们往往选择退出游戏,而不是迎接…...

DDD架构实战第六讲总结:领域驱动设计中的聚合
云架构师系列课程之DDD架构实战第六讲总结:领域驱动设计中的聚合 聚合提升了对象系统的粒度,保证了业务逻辑的完整性,减少了错误产生的概率 一、引言 本讲将探讨领域驱动设计(DDD)中的重要概念——聚合。聚合是业务完整性的单元,是一个更大力度的封装。在领域驱动设计中…...

vim如何设置自动缩进
:set autoindent 设置自动缩进 :set noautoindent 取消自动缩进 (vim如何使设置自动缩进永久生效:vim如何使相关设置永久生效-CSDN博客)...

C++入门14——set与map的使用
在本专栏的往期文章中,我们已经学习了STL的部分容器,如vector、list、stack、queue等,这些容器统称为序列式容器,因为其底层是线性序列的数据结构,里面存储的是元素本身。而本篇文章我们要来认识一下关联式容器。 &am…...

单片机内存管理剖析
一、概述 在单片机系统中,内存资源通常是有限的,因此高效的内存管理至关重要。合理地分配和使用内存可以提高系统的性能和稳定性,避免内存泄漏和碎片化问题。单片机的内存主要包括程序存储器(如 Flash)和数据存储器&a…...
【gopher的java学习笔记】Java中Service与Mapper的关系详解
在后端开发中,Java作为一种广泛使用的编程语言,其架构设计和层次划分对于系统的可维护性、可扩展性和性能有着至关重要的影响。特别是在使用MyBatis等持久层框架时,Service层与Mapper层的关系更是值得深入探讨。本文将从Java Web应用程序的角…...
2025美赛B题完整代码+建模过程
问题一 为朱诺市建立一个可持续旅游产业模型。具体要求包括考虑游客数量、总收入,以及为稳定旅游业而实施的措施,明确优化因素和约束条件,并制定额外收入的支出计划,展示这些支出如何反馈到模型中以促进可持续旅游业发展,同时进行敏感性分析,讨论哪些因素最为重要。 为了…...

【MySQL】我在广州学Mysql 系列——MySQL用户管理详解
ℹ️大家好,我是练小杰,本博客是春节前最后一篇了,在此感谢大佬们今年的支持!!🙏🙏 接下来将学习MYSQL用户管理的相关概念以及命令~~ 回顾:👉【MYSQL触发器的使用】 数据…...

Linux-rt下卡死之hrtimer分析
Linux-rt下卡死之hrtimer分析 日志 超时读过程分析 #define readl_poll_timeout(addr, val, cond, delay_us, timeout_us) \readx_poll_timeout(readl, addr, val, cond, delay_us, timeout_us)34 #define readx_poll_timeout(op, addr, val, cond, sleep_us, timeout_us) \…...
【AI日记】25.01.24
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】 AI kaggle 比赛:Forecasting Sticker Sales 读书 书名:法治的细节作者:罗翔 律己 AI:8 小时,良作息:00:30-8:30&…...
React 中hooks之useSyncExternalStore使用总结
1. 基本概念 useSyncExternalStore 是 React 18 引入的一个 Hook,用于订阅外部数据源,确保在并发渲染下数据的一致性。它主要用于: 订阅浏览器 API(如 window.width)订阅第三方状态管理库订阅任何外部数据源 1.1 基…...
C++11新特性之decltype
1.decltype的作用 decltype是C11新增的一个关键字,与auto的功能一样,都是在编译期间推导变量类型的。不了解auto的可以转到——C11新特性之auto。 为什么引入decltype?看过上边那篇博客的读者应该知道auto在有些场景中并不适用,所以引入declt…...

二叉树相关oj题 1. 检查两颗树是否相同。
二叉树相关oj题 检查两颗树是否相同。OJ链接 另一颗树的子树。OJ链接 if(rootnull)易漏掉 会导致空指针异常翻转二叉树。OJ链接...

element tbas增加下拉框
使用Tabs 标签页的label插槽,嵌入Dropdown 下拉菜单,实现Tabs 标签页增加下拉切换功能 Tabs 标签页 tab-click"事件"(这个事件当中到拥有下拉框的tab里时,可以存一下Dropdown 第一个菜单的id,实现点击到拥有…...
Python爬虫实战:研究MechanicalSoup库相关技术
一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

C++初阶-list的底层
目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...

SCAU期末笔记 - 数据分析与数据挖掘题库解析
这门怎么题库答案不全啊日 来简单学一下子来 一、选择题(可多选) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘:专注于发现数据中…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...

面向无人机海岸带生态系统监测的语义分割基准数据集
描述:海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)
本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...

Git 3天2K星标:Datawhale 的 Happy-LLM 项目介绍(附教程)
引言 在人工智能飞速发展的今天,大语言模型(Large Language Models, LLMs)已成为技术领域的焦点。从智能写作到代码生成,LLM 的应用场景不断扩展,深刻改变了我们的工作和生活方式。然而,理解这些模型的内部…...
多模态图像修复系统:基于深度学习的图片修复实现
多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...