拉普拉斯算符 Δ Delta ,, Δ 即,梯度的散度 ∇ ⋅ ∇ nabla·nabla ∇⋅∇
算符 Δ Delta Δ的意义: Δ f ( x 1 , x 2 , . . . , x n ) Delta f(x_1,x_2,...,x_n) Δf(x1,x2,...,xn) 代表了 f f f在点 ( x 1 , . . . , x n ) (x_1,...,x_n) (x1,...,xn)周围的平均取值 与 在点 ( x 1 , . . . , x n ) (x_1,...,x_n) (x1,...,xn)处的取值 的差异。
例如, Δ f ( x 1 , x 2 , . . . , x n ) < 0 Delta f(x_1,x_2,...,x_n)<0 Δf(x1,x2,...,xn)<0 则表示 f f f在点 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)处的函数值比周围处取值的平均值更大。
梯度算符 与 拉普拉斯算符:可以类比理解为 一元函数的导数与二阶导数。函数 f f f在点 x x x处取得极大值时有 f ′ ′ ( x ) < 0 f''(x)<0 f′′(x)<0
雅可比行列式
坐标变换的雅可比矩阵A
当矩阵A是方阵时,det A描述了坐标变换A把空间放大还是缩小 (det A>1还是<1)。因此,如果在输入空间的某个输入点,输出空间膨胀的很多,则说明模型的输入在该区域可能不稳定,任何输入的扰动都可能导致输出的巨大波动;但如果行列式比较小,则输入的变化对输出影响不大。所以有了下面的思想:
det A越接近1则A的鲁棒性越好,所以正则项里面最小化det A可以提高A的robust
函数的积分也是一种内积
如果将一组 sin ( n x ) sin (nx) sin(nx) 和 cos ( n x ) cos (nx) cos(nx) 视为函数空间的基,n=1,2,3,··· ,
将积分 ∫ − π π f ( x ) g ( x ) d x int_{-pi}^{pi}f(x)g(x),dx ∫−ππf(x)g(x)dx 视为两个函数向量 f ( x ) f(x) f(x)和 g ( x ) g(x) g(x)的内积,
则这组基 [ sin ( 1 x ) , sin ( 2 x ) , sin ( 3 x ) [sin (1x), sin (2x), sin (3x) [sin(1x),sin(2x),sin(3x), ··· , cos ( 1 x ) , cos ( 2 x ) , cos ( 3 x ) , ⋅ ⋅ ⋅ ] cos (1x), cos (2x), cos (3x),···] cos(1x),cos(2x),cos(3x),⋅⋅⋅] 在函数空间中是两两正交的。
联想到:当给定一组标准正交基 [ α 1 , α 2 , . . . , α n ] [alpha_1, alpha_2, . .. , alpha_n] [α1,α2,...,αn] 时,空间 s p a n ( α 1 , α 2 , . . . , α n ) span(alpha_1, alpha_2, . .. , alpha_n) span(α1,α2,...,αn)中的任意向量 β beta β都可以表示为这组基的线性组合,即 β = ∑ k i α i beta = sum k_i alpha_i β=∑kiαi 其中,坐标 k i k_i ki即向量 β beta β与基向量 α i alpha_i αi的内积。( β beta β在 α i alpha_i αi上的投影)
特别地:如果 [ α 1 , α 2 , . . . , α n ] [alpha_1, alpha_2, . .. , alpha_n] [α1,α2,...,αn] 只是一组正交基,即不同的 α i alpha_i αi两两正交 但 α i alpha_i αi不是单位向量,则 β beta β被展开为 β = ∑ k i ∣ ∣ α i ∣ ∣ 2 α i beta = sum frac{k_i}{, ||alpha_i||^2} alpha_i β=∑∣∣αi∣∣2kiαi 坐标 k i k_i ki是向量 β beta β与基向量 α i alpha_i αi的内积。这个式子也可以理解为 β = ∑ ( β 与 α i ∣ ∣ α i ∣ ∣ 的 内 积 ) α i ∣ ∣ α i ∣ ∣ beta = sum (beta与frac{alpha_i}{||alpha_i||}的内积)frac{alpha_i}{||alpha_i||} β=∑(β与∣∣αi∣∣αi的内积)∣∣αi∣∣αi
因此,对于任意一个函数 h ( x ) h(x) h(x) 都可以用这组基 [ sin ( 1 x ) , sin ( 2 x ) , sin ( 3 x ) [sin (1x), sin (2x), sin (3x) [sin(1x),sin(2x),sin(3x), ··· , cos ( 1 x ) , cos ( 2 x ) , cos ( 3 x ) , ⋅ ⋅ ⋅ ] cos (1x), cos (2x), cos (3x),···] cos(1x),cos(2x),cos(3x),⋅⋅⋅] 的线性组合表示。如此一来可以更好的理解傅立叶级数。
关于正交变换与正交矩阵
正交变换是保内积的。由此带来了良好的几何性质:保长度、保夹角。
如果一个正交变换在给定基下的矩阵为A,则对 α → A α alpha rightarrow Aalpha α→Aα下的内积运算有 ( A α , A β ) = α T A T A β = α T β = ( α , β ) (Aalpha, Abeta) = alpha^{T} A^T Abeta = alpha^T beta = (alpha, beta) (Aα,Aβ)=αTATAβ=αTβ=(α,β)
所以向量 α alpha α在正交变换前后的长度不变,两个向量在正交变换前后的夹角不变。
由 1 = d e t ( I ) = d e t ( A A T ) = d e t ( A ) d ⋅ e t ( A T ) = d e t ( A ) ⋅ d e t ( A ) 1 = det(I) = det(AA^T) = det(A)d·et(A^T) = det(A)·det(A) 1=det(I)=det(AAT)=det(A)d⋅et(AT)=det(A)⋅det(A) 有,正交变换或正交矩阵A的行列式为1或-1,
行列式为1的正交变换是旋转变换,行列式为-1的正交换行则是镜面反射。
对于旋转矩阵,它会将空间中的所有点都以原点为中心旋转一个角度,所以旋转矩阵(也是正交矩阵)不存在实的特征向量(不改变方向 只进行伸缩)。
矩阵的各个空间
行空间与零空间正交(若 A x = O Ax=O, Ax=O则矩阵A的每一个行向量都与列向量b正交)
列空间与左零空间正交(即 x T A = O x^TA=O xTA=O)
矩阵A的秩即是A列空间的维数(A的秩=A转置的秩,矩阵的乘法不会增加矩阵的秩)
零空间的维数 + 列空间的维数 = A的列数(联想求解 A x = O Ax=O, Ax=O时的高斯消元法可知)(dim(像空间)+dim(核空间)=A的列数)
矩阵的乘法
矩阵A乘一个列向量b则新的列向量Ab在A的列空间中。
因为 A b = [ α 1 , α 2 , . . . , α n ] × b = b 1 α 1 + b 2 α 2 + ⋅ ⋅ ⋅ + b n α n Ab=[alpha_1, alpha_2, ..., alpha_n]×b=b_1alpha_1+b_2alpha_2+···+b_nalpha_n Ab=[α1,α2,...,αn]×b=b1α1+b2α2+⋅⋅⋅+bnαn 即是对A的列向量 α 1 , α 2 , . . . , α n alpha_1, alpha_2, ..., alpha_n α1,α2,...,αn的线性组合。
矩阵A乘一个矩阵B可以视为n个秩1矩阵的和。(n为A的列数或B的行数)
例如有 A m × n A_{m×n} Am×n和 B n × k B_{n×k} Bn×k 则 A B = [ α 1 , α 2 , . . . , α n ] × [ β 1 , β 2 , . . . , β n ] T = α 1 β 1 T + α 2 β 2 T + ⋅ ⋅ ⋅ + α n β n T AB=[alpha_1, alpha_2, ..., alpha_n]×[beta_1, beta_2, ..., beta_n]^T = alpha_1beta_1^T + alpha_2beta_2^T + ··· + alpha_nbeta_n^T AB=[α1,α2,...,αn]×[β1,β2,...,βn]T=α1β1T+α2β2T+⋅⋅⋅+αnβnT
上式中 每一对列×行所得的 α i β i T alpha_ibeta_i^T αiβiT都是一个秩为1的矩阵,秩的性质有 R ( A × B ) ≤ m i n ( R ( A ) , R ( B ) ) R(A×B)le min(R(A),R(B)) R(A×B)≤min(R(A),R(B))
奇异值分解 SVD
有了上一条理解,则对于奇异值分解 A = U S V T A=USV^T A=USVT, 由于S是对角矩阵,则
A m × n = U m × m S m × n V n × n T = [ u 1 , . . . , u m ] × d i a g ( S k × k ′ , O m − k , n − k ) × [ v 1 , . . . , v n ] T A_{m×n}=U_{m×m}S_{m×n}V_{n×n}^T=[u_1,...,u_m] × diag(S'_{k×k},O_{m-k,n-k}) × [v_1,...,v_n]^T Am×n=Um×mSm×nVn×nT=[u1,...,um]×diag(Sk×k′,Om−k,n−k)×[v1,...,vn]T
式中的 k k k为A的奇异值的个数。考虑到对角矩阵S右乘矩阵U即是 将U的第i列 u i u_i ui变到 s i i s_{ii} sii倍 s i i u i s_{ii}u_i siiui 则
A m × n = U m × m S m × n V n × n T = [ s 11 u 1 , s 22 u 2 , . . . ] × [ v 1 , v 2 , . . . ] T = s 11 ⋅ u 1 v 1 T + s 22 ⋅ u 2 v 2 T + ⋅ ⋅ ⋅ A_{m×n}=U_{m×m}S_{m×n}V_{n×n}^T = [s_{11} u_1, , s_{22} u_2, , ...] × [v_1, , v_2, , ...]^T = s_{11}·u_1v_1^T + s_{22}·u_2v_2^T + , ··· Am×n=Um×mSm×nVn×nT=[s11u1,s22u2,...]×[v1,v2,...]T=s11⋅u1v1T+s22⋅u2v2T+⋅⋅⋅
可以视为k个秩1矩阵的和。在上式最后的求和项中省略掉奇异值小的几个项 即可进行降维。
主成分分析PCA即可在SVD的基础上进行。
=====下面探讨奇异向量的意义:
对于 A = U S V T A=USV^T A=USVT中,V的列向量即是矩阵A的右奇异向量。因为U和V都属于正交矩阵,所以
A T A = V S U T × U S V T = V S 2 V T = V S 2 V − 1 A^TA=VSU^T×USV^T=VS^2V^T=VS^2V^{-1} ATA=VSUT×USVT=VS2VT=VS2V−1
联想到实对称矩阵一定可以被相似对角化,在讨论矩阵的相似时,如果 A = P Λ P − 1 A=P Lambda P^{-1} A=PΛP−1即 A P = P Λ AP=PLambda AP=PΛ
即 A × [ p 1 , p 2 , . . . , p n ] = [ p 1 , p 2 , . . . , p n ] × d i a g ( λ 1 , λ 2 , . . . , λ n ) A×[p_1,p_2,...,p_n]=[p_1,p_2,...,p_n]×diag(lambda_1, lambda_2, ..., lambda_n) A×[p1,p2,...,pn]=[p1,p2,...,pn]×diag(λ1,λ2,...,λn) 即 [ A p 1 , A p 2 , . . . , A p n ] = [ λ 1 p 1 , λ 2 p 2 , . . . , λ n p n ] [Ap_1,Ap_2,...,Ap_n] = [lambda_1 p_1, lambda_2 p_2, ..., lambda_n p_n] [Ap1,Ap2,...,Apn]=[λ1p1,λ2p2,...,λnpn]
即 A p i = λ i p i Ap_i=lambda_i p_i Api=λipi 列向量 p i p_i pi是矩阵 A A A的特征值为 λ i lambda_i λi的特征向量。
同理则 列向量 v i v_i vi是矩阵 A T A A^TA ATA 的特征值为 s i i 2 s_{ii}^2 sii2的特征向量。
从 A A T AA^T AAT出发,同理可得 列向量 u i u_i ui是矩阵 A A T AA^T AAT 的特征值为 s i i 2 s_{ii}^2 sii2的特征向量。
对于任意给定的列向量b,现在考察在线性映射A下的列向量Ab的长度:
由于向量的长度的平方即该向量和自身的内积,则 ∣ ∣ A b ∣ ∣ 2 = ( A b ) T ⋅ ( A b ) = b T A T A b ||Ab||^2 = (Ab)^T·(Ab) = b^TA^TAb ∣∣Ab∣∣2=(Ab)T⋅(Ab)=bTATAb
因此,矩阵 A A A的右奇异向量 v i v_i vi被线性映射为 A v i Av_i Avi后, ∣ ∣ A v i ∣ ∣ ÷ ∣ ∣ v i ∣ ∣ = s i i ||Av_i||÷||v_i||=s_{ii} ∣∣Avi∣∣÷∣∣vi∣∣=sii为奇异值,原本 v i v_i vi的长度变到了 s i i s_{ii} sii倍。
对于最大/小的奇异值所对应的右奇异向量,它代表了当向量b被映射为Ab时,向量长度被拉伸得最大/小的方向(原球面上的)。
如果将球面上的点P通过矩阵A映射为椭球面上的点P’ 则左奇异向量代表了椭球面的极轴。特别地,在2维情况下,A将圆上的点映射为椭圆后,两个左奇异向量分别位于该椭圆的长轴和短轴。
本文发布于:2024-02-04 23:55:07,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170719290360919.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |