SMALE训练营作业

阅读: 评论:0

SMALE训练营作业

SMALE训练营作业

目录

  • 第一天
    • 上午
      • 题1.6
    • 下午
      • 题2.6
    • 晚上
      • 题3.3
      • 补充题
  • 第二天
    • 上午
      • 题4.6
    • 下午
      • 题5.5
    • 晚上
      • 题6.5
      • 题7.3
  • 第三天
    • 上午
      • 题8.4
    • 下午
      • 题9.3
    • 晚上
      • 题10.6
  • 第四天
  • 第五天

第一天

上午

题1.6

问题描述:描述你在学习、使用数学表达式时的困难, 可举例说明.
答:1.数学表达式有很多细节不知道,导致表达式错误或者不专业。比如集合之间的映射要用“ ↦ mapsto ↦”,而函数的映射关系用“ → rightarrow →”.
2.如何把自己心里的算法思路表达成数学式?数学表达式又该如何用语言简单明了解释它,不知道从何处下手.
3.定义数学表达式不够严谨,经不起推敲.

下午

题2.6

1.令 A = { 3 , 5 } mathbf{A}={3, 5} A={3,5},写出 2 A 2^{mathbf{A}} 2A.
答: 2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^{mathbf{A}}={emptyset, {3}, {5}, {3, 5}} 2A={∅,{3},{5},{3,5}}.
2.展开 2 ∅ 2^{empty} 2∅.
答: ∣ 2 ∅ ∣ = 2 ∣ ∅ ∣ = 2 0 = 1 vert2^{empty}vert=2^{lvert empty rvert}=2^0=1 ∣2∅∣=2∣∅∣=20=1,故 2 ∅ = { ∅ } 2^{empty}={empty} 2∅={∅}.
3.令 A = { 5 , 6 , 7 , 8 , 9 } mathbf{A}={5, 6, 7, 8, 9} A={5,6,7,8,9},写出 A mathbf{A} A的其他两种表达式.
答:① A = [ 5..9 ] mathbf{A}=[5..9] A=[5..9];② A = { x ∈ N ∣ x ∈ [ 5 , 9 ] } mathbf{A}={x in mathbf{N} vert xin[5,9]} A={x∈N∣x∈[5,9]};③ A = { 5 , 6 , … , 9 } mathbf{A}={5, 6, dots, 9} A={5,6,…,9}.

晚上

题3.3

问题描述:自己出一个数据,做一个 3 × 2 3times2 3×2与 2 × 4 2times 4 2×4的矩阵乘法.
答:设 A = [ 1 2 3 4 5 6 ] mathbf{A}=begin {bmatrix} 1&2\ 3&4\ 5&6end {bmatrix} A=⎣⎡​135​246​⎦⎤​, B = [ 1 2 3 4 5 6 7 8 ] mathbf{B}=begin {bmatrix} 1&2&3&4\ 5&6&7&8end {bmatrix} B=[15​26​37​48​],则 A × B = [ 1 2 3 4 5 6 ] × [ 1 2 3 4 5 6 7 8 ] = [ 11 14 7 20 23 30 17 44 35 46 27 68 ] mathbf{A}times mathbf{B}=begin {bmatrix}1&2\ 3&4\ 5&6end {bmatrix}timesbegin {bmatrix} 1&2&3&4\ 5&6&7&8end {bmatrix}=begin {bmatrix} 11&14&7&20\ 23&30&17&44\ 35&46&27&68end {bmatrix} A×B=⎣⎡​135​246​⎦⎤​×[15​26​37​48​]=⎣⎡​112335​143046​71727​204468​⎦⎤​

补充题

问题描述:找出Deep Multi-View 符号系统的矛盾
答:
如上标注:
①: o i mathbf{o_i} oi​为一个对象,应该是一个向量,此处应该为黑体.
②:此处“m”应该为斜体.
③: B mathbf{B} B为一个集合,不应该使用 ∈ in ∈,而是 ⊆ subseteq ⊆.
④:1D代表一维,应该表达为: 1 − D 1-D 1−D.
⑥:前文的正1未加“+”号,前后不一致.

第二天

上午

题4.6

1.令 A = { 1 , 2 , 5 , 8 , 9 } mathbf{A}={1, 2, 5, 8, 9} A={1,2,5,8,9},写出 A mathbf{A} A上的“模2同余”关系及相应的划分.
答: R = { ( a , b ) ∈ A × A ∣ a m o d 2 = b m o d 2 } mathbf{R}={(a,b)inmathbf{A}timesmathbf{A} vert amod2=bmod2} R={(a,b)∈A×A∣amod2=bmod2}.
模2余0: ( 2 , 2 ) , ( 2 , 8 ) , ( 8 , 2 ) , ( 8 , 8 ) (2, 2),(2, 8),(8, 2),(8, 8) (2,2),(2,8),(8,2),(8,8)
模2余1: ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 1 ) , ( 5 , 5 ) , ( 5 , 9 ) , ( 9 , 1 ) , ( 9 , 5 ) , ( 9 , 9 ) (1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9) (1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)
故: R = { ( 2 , 2 ) , ( 2 , 8 ) , ( 8 , 2 ) , ( 8 , 8 ) , ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 1 ) , ( 5 , 5 ) , ( 5 , 9 ) , ( 9 , 1 ) , ( 9 , 5 ) , ( 9 , 9 ) } mathbf{R}={(2, 2),(2, 8),(8, 2),(8, 8),(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)} R={(2,2),(2,8),(8,2),(8,8),(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)}.
P = { { 2 , 8 } , { 1 , 5 , 9 } } mathcal{P}={{2,8}, {1, 5, 9}} P={{2,8},{1,5,9}}
2. A = { 1 , 2 , 5 , 8 , 9 } mathbf{A}={1, 2, 5, 8, 9} A={1,2,5,8,9},自己给定两个关系 R 1 mathbf{R}_1 R1​和 R 2 mathbf{R}_2 R2​,并计算 R 1 R 2 , R 1 + , R 1 ∗ mathbf{R}_1mathbf{R}_2,mathbf{R}_1^+,mathbf{R}_1^* R1​R2​,R1+​,R1∗​.
答:设 R 1 = { ( 1 , 2 ) , ( 1 , 5 ) } , R 2 = { ( 2 , 1 ) , ( 5 , 8 ) } mathbf{R}_1={(1, 2), (1, 5)},mathbf{R}_2={(2,1), (5,8)} R1​={(1,2),(1,5)},R2​={(2,1),(5,8)}
R 2 ∘ R 1 = { ( 1 , 1 ) , ( 1 , 8 ) } mathbf{R}_2 circmathbf{R}_1={(1,1), (1,8)} R2​∘R1​={(1,1),(1,8)}
R 1 + = ⋃ i = 1 ∣ A ∣ R 1 i = R 1 1 ∪ R 1 2 ∪ R 1 3 ∪ R 1 4 ∪ R 1 5 , R 1 1 = R 1 , R 1 R 1 = R 1 3 = R 1 4 = R 1 5 = ∅ . mathbf{R}_1^+=bigcup_{i=1}^{vertmathbf{A}vert}mathbf{R}_1^i=mathbf{R}_1^1cupmathbf{R}_1^2cupmathbf{R}_1^3cupmathbf{R}_1^4cupmathbf{R}_1^5,mathbf{R}_1^1=mathbf{R}_1,mathbf{R}_1mathbf{R}_1=mathbf{R}_1^3=mathbf{R}_1^4=mathbf{R}_1^5=empty. R1+​=⋃i=1∣A∣​R1i​=R11​∪R12​∪R13​∪R14​∪R15​,R11​=R1​,R1​R1​=R13​=R14​=R15​=∅.
故 R 1 + = R 1 = { ( 1 , 2 ) , ( 1 , 5 ) } mathbf{R}_1^+=mathbf{R}_1={(1, 2), (1,5)} R1+​=R1​={(1,2),(1,5)}.
R 1 ∗ = R 1 + ∪ R 0 , R 0 = { ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } mathbf{R}_1^*=mathbf{R}_1^+cupmathbf{R}^0,mathbf{R}^0={(1,1), (2,2), (5,5), (8,8), (9,9)} R1∗​=R1+​∪R0,R0={(1,1),(2,2),(5,5),(8,8),(9,9)}
故 R 1 ∗ = { ( 1 , 2 ) , ( 1 , 5 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } mathbf{R}_1^*={(1,2), (1,5), (1,1), (2,2), (5,5), (8,8), (9,9)} R1∗​={(1,2),(1,5),(1,1),(2,2),(5,5),(8,8),(9,9)}
3.查阅粗糙集上下近似的定义并大致描述.
答:设 X ⊆ U mathbf{X}subseteqmathbf{U} X⊆U是任一子集, R mathbf{R} R是 U mathbf{U} U上的等价关系,下近似集: R ‾ ( X ) = U { Y ∈ U / R , Y ⊆ X } underline{R}(mathbf{X})=mathbf{U}{mathbf{Y}inmathbf{U}/mathbf{R},mathbf{Y} subseteq mathbf{X}} R​(X)=U{Y∈U/R,Y⊆X}.上近似集: R ‾ ( X ) = U { Y ∈ U / R , Y ∩ X ≠ ∅ } overline{R}(mathbf{X})=mathbf{U}{mathbf{Y} in mathbf{U}/ mathbf{R},mathbf{Y}cap mathbf{X}ne empty} R(X)=U{Y∈U/R,Y∩X​=∅}.

下午

题5.5

问题描述:举例说明你对函数的认识.
答:函数是一个集合到另一个集合的一对一或者多对一的映射,也可以看作空间的一个点。比如: z = f ( x , y ) = x 2 + y 2 z=f(x,y)=x^2+y^2 z=f(x,y)=x2+y2,二维平面确定的点 ( x , y ) (x,y) (x,y)有唯一对应的 z z z,也可以看作确定的三维空间中的一个唯一确定的点 ( x , y , z ) (x,y,z) (x,y,z).

晚上

题6.5

问题描述:自己给定一个矩阵并计算其各种范数.
答:设 A = [ 1 2 − 3 4 0 6 ] mathbf{A}=begin {bmatrix} 1&2\ -3&4\ 0&6end {bmatrix} A=⎣⎡​1−30​246​⎦⎤​,则:
∥ A ∥ 0 = ∣ { ( i , j ) ∣ a i j ≠ 0 } ∣ = 5 |mathbf{A}|_0=lvert {(i,j)vert a_{ij} ne 0}rvert=5 ∥A∥0​=∣{(i,j)∣aij​​=0}∣=5.
∥ A ∥ 1 = ∑ i , j ∣ a i j ∣ = 16 |mathbf{A}|_1=sum_{i,j}lvert a_{ij}rvert=16 ∥A∥1​=∑i,j​∣aij​∣=16.
∥ A ∥ 2 = ∑ i , j a i j 2 = 2 11 , ∥ A ∥ 2 2 = ∑ i , j a i j 2 = 44 |mathbf{A}|_2=sqrt{sum_{i,j}a_{ij}^2}=2sqrt{11},|mathbf{A|}_2^2=sum_{i,j}a_{ij}^2=44 ∥A∥2​=∑i,j​aij2​ ​=211 ​,∥A∥22​=∑i,j​aij2​=44.
∥ A ∥ ∞ = max ⁡ i , j ∣ a i j ∣ = 6 |mathbf{A}|_{infty}=max_{i,j}vert a_{ij}vert=6 ∥A∥∞​=maxi,j​∣aij​∣=6.

题7.3

问题描述:解释推荐系统: 问题、算法与研究思路 2.1中的优化目标 min ⁡ ∑ ( i , j ) ∈ Ω ( f ( x i , t j ) − r i j ) 2 minsum_{(i,j)inOmega}(f(mathbf{x}_i,mathbf{t}_j)-r_{ij})^2 min(i,j)∈Ω∑​(f(xi​,tj​)−rij​)2各符号及含义.
答:对 ∀ ( i , j ) ∈ Ω forall(i,j)in Omega ∀(i,j)∈Ω,即将评分表的每一个数据作为输入,将模型产生的输出与相应的评分表的值求差距的平方的最小值。

第三天

上午

题8.4

1.将向量下标为偶数的分量 ( x 2 , x 4 , … ) (x2,x4,dots) (x2,x4,…)累加,写出相应表达式.
答: ∑ i m o d 2 = 0 x i sum_{i mod 2=0}x_i imod2=0∑​xi​

int sum=0;
for(int i=1;i<=n;i++)
{if(i%2==0)sum+=x[i];
}

2 各出一道累加、累乘、积分表达式的习题,并给出标准答案.
累加: ∑ i = 1 10 i = 1 + 2 + 3 + ⋯ + 10 = 55 sum_{i=1}^{10}i=1+2+3+dots+10=55 i=1∑10​i=1+2+3+⋯+10=55

int sum=0;
for(int i=1;i<=10;i++)
{
sum+=i;
}

累乘: ∏ i = 1 3 i 2 = 1 2 × 2 2 × 3 2 = 36 prod_{i=1}^3i^2=1^2times2^2times3^2=36 i=1∏3​i2=12×22×32=36

int product=1;
for(int i=1;i<=3;i++)product*=i*i;

积分: ∫ 1 4 ( 2 x + 1 ) d x = ( x 2 + x ) ∣ 1 4 = 18 int_{1}^4(2x+1)mathrm{d}x=(x^2+x)vert_1^4=18 ∫14​(2x+1)dx=(x2+x)∣14​=18

double integration=0;
double deltax=0.01;
for(double x=1;x<=4;x+=deltax)
{integration+=(2*x+1)*deltax;
}

3 你使用过三重累加吗?描述一下其应用.
答:三重累加在一定条件下可以转化为三重积分,在数学上,三重积分可以看作是几何体的测度,在物理应用上,可以看作是不均匀物体的质量。
4 给一个常用的积分,将手算结果与程序结果相比对.
答: ∫ 0 5 ( 2 x ) d x = x 2 ∣ 0 5 = 25 int_{0}^5(2x)mathrm{d}x=x^2vert_0^5=25 ∫05​(2x)dx=x2∣05​=25
程序:

结果:

下午

题9.3

问题描述:自己写一个小例子 ( n = 3 , m = 1 ) (n=3,m=1) (n=3,m=1)来验证最小二乘法.
答:给定数据集 X = [ x i j ] 3 × 2 = [ 1 2 1 3 1 4 ] mathbf{X}=[x_{ij}]_{3times2}=begin{bmatrix} 1&2\ 1&3 \1&4end{bmatrix} X=[xij​]3×2​=⎣⎡​111​234​⎦⎤​与其标签 Y = [ y 1 , … , y n ] T = [ 5 , 7 , 9 ] T mathbf{Y}=[y_1,dots,y_n]^mathrm{T}=[5, 7, 9]^{mathrm{T}} Y=[y1​,…,yn​]T=[5,7,9]T.
计算 w ∗ = arg min ⁡ w ∣ ∣ X w − Y ∣ ∣ 2 2 , mathbf{w}^*=argmin_{mathbf{w}}||mathbf{X}mathbf{w}-mathbf{Y}||_2^2, w∗=wargmin​∣∣Xw−Y∣∣22​,其中 ∣ ∣ X w − Y ∣ ∣ 2 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y ||mathbf{X}mathbf{w}-mathbf{Y}||_2^2=(mathbf{X}mathbf{w}-mathbf{Y})^{mathrm{T}}(mathbf{X}mathbf{w}-mathbf{Y})=(mathbf{w}^{mathrm{T}}mathbf{X}^{mathrm{T}}-mathbf{Y}^{mathrm{T}})(mathbf{X}mathbf{w}-mathbf{Y})=mathbf{w}^{mathrm{T}}mathbf{X}^{mathrm{T}}mathbf{X}mathbf{w}-mathbf{w}^{mathrm{T}}mathbf{X}^{mathrm{T}}mathbf{Y}-mathbf{Y}^mathrm{T}mathbf{X}mathbf{w}+mathbf{Y}^mathrm{T}mathbf{Y} ∣∣Xw−Y∣∣22​=(Xw−Y)T(Xw−Y)=(wTXT−YT)(Xw−Y)=wTXTXw−wTXTY−YTXw+YTY
对 w mathbf{w} w求导并令其为0得: w = ( X T X ) − 1 X T Y = ( [ 1 1 1 2 3 4 ] × [ 1 2 1 3 1 4 ] ) − 1 × [ 1 1 1 2 3 4 ] × [ 5 7 9 ] mathbf{w}=(mathbf{X}^{mathrm{T}}mathbf{X})^{-1}mathbf{X}^{mathrm{T}}mathbf{Y}=(begin{bmatrix} 1&1&1\2&3&4end{bmatrix}times begin{bmatrix} 1&2\1&3\1&4end{bmatrix})^{-1}times begin{bmatrix} 1&1&1\2&3&4end{bmatrix}timesbegin{bmatrix}5\7\9end{bmatrix} w=(XTX)−1XTY=([12​13​14​]×⎣⎡​111​234​⎦⎤​)−1×[12​13​14​]×⎣⎡​579​⎦⎤​
w = ( X T X ) − 1 X T Y = [ 3 9 9 29 ] − 1 × [ 21 67 ] = [ 29 6 − 3 2 − 3 2 1 2 ] × [ 21 67 ] = [ 1 2 ] mathbf{w}=(mathbf{X}^{mathrm{T}}mathbf{X})^{-1}mathbf{X}^{mathrm{T}}mathbf{Y}=begin{bmatrix}3&9\9&29end{bmatrix}^{-1}timesbegin{bmatrix}21\67end{bmatrix}=begin{bmatrix}frac{29}{6}&-frac{3}{2}\-frac{3}{2}&frac{1}{2}end{bmatrix}timesbegin{bmatrix}21\67end{bmatrix}=begin{bmatrix}1\2end{bmatrix} w=(XTX)−1XTY=[39​929​]−1×[2167​]=[629​−23​​−23​21​​]×[2167​]=[12​]
得 w = [ 1 2 ] mathbf{w}=begin{bmatrix}1\2end{bmatrix} w=[12​].故模型为: y = 2 x + 1 y=2x+1 y=2x+1.
验证: ( x 1 , y 1 ) = ( 2 , 5 ) : 5 = 2 × 2 + 1 ; (x_1,y_1)=(2,5):5=2times2+1; (x1​,y1​)=(2,5):5=2×2+1;
( x 2 , y 2 ) = ( 3 , 7 ) : 7 = 2 × 3 + 1 ; (x_2,y_2)=(3,7):7=2times3+1; (x2​,y2​)=(3,7):7=2×3+1;
( x 3 , y 3 ) = ( 4 , 9 ) : 9 = 2 × 4 + 1 ; (x_3,y_3)=(4,9):9=2times4+1; (x3​,y3​)=(4,9):9=2×4+1;
故使用最小二乘法得到的结果完全符合数据集的数据.

晚上

题10.6

问题描述:自己推导一遍,并描述这个方法的特点(不少于5条).
答:在二维平面分类,需要一条直线将它们分开,当是多维空间时,需要超平面将两类事物进行分类,分类成正例和负例。如何判断这个超平面将它们的效果是好是坏?可以根据分错的个数来判断,但是存在多个超平面都可以完全分开正例与负例呢,可以根据对象到超平面的距离来衡量(距离越大越好):分类正确,那么对象离超平面越远越好,分类不正确,离超平面越近越接近0.
1)计算点到超平面的距离= x w mathbf{xw} xw
2)使用sigmoid函数将距离转换为概率 P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P(y=1|mathbf{x};mathbf{w})=frac{1}{1+e^{-mathbf{xw}}} P(y=1∣x;w)=1+e−xw1​;
含义为:距离越大,那么它是正例的概率接近1;如果距离很小 ( − ∞ ) (-infty) (−∞)时,它是正例的概率几乎为0,它为负例的概率接近1.
3)统一 y i = 0 y_i=0 yi​=0或 y i = 1 y_i=1 yi​=1: P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i P(y_ivertmathbf{x}_i;mathbf{w})=P(y_i=1vertmathbf{x}_i;mathbf{w})^{y_i}(1-P(y_i=1vertmathbf{x}_i;mathbf{w}))^{1-y_i} P(yi​∣xi​;w)=P(yi​=1∣xi​;w)yi​(1−P(yi​=1∣xi​;w))1−yi​
当 y i = 1 y_i=1 yi​=1时: P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) P(y_ivertmathbf{x}_i;mathbf{w})=P(y_i=1vertmathbf{x}_i;mathbf{w}) P(yi​∣xi​;w)=P(yi​=1∣xi​;w)
当 y i = 0 y_i=0 yi​=0时: P ( y i ∣ x i ; w ) = 1 − P ( y i = 1 ∣ x i ; w ) P(y_ivertmathbf{x}_i;mathbf{w})=1-P(y_i=1vertmathbf{x}_i;mathbf{w}) P(yi​∣xi​;w)=1−P(yi​=1∣xi​;w)
4)因为是概率,故用最大似然估计来定义优化目标: w = arg max ⁡ w ∏ i = 1 n P ( y i ∣ x i ; w ) mathbf{w}=argmax_{mathbf{w}}prod_{i=1}^{n}P(y_ivertmathbf{x}_i;mathbf{w}) w=wargmax​i=1∏n​P(yi​∣xi​;w)
5)计算最大似然估计,由于是连乘,不方便计算,求其对数化简,不改变取得最大值的 w mathbf{w} w的值: log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) log L(mathbf{w}) =sum_{i=1}^{n}log P(y_ivertmathbf{x}_i;mathbf{w}) logL(w)=i=1∑n​logP(yi​∣xi​;w)
log ⁡ L ( w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) log L(mathbf{w}) =sum_{i=1}^{n}y_ilog P(y_i=1vertmathbf{x}_i;mathbf{w})+(1-y_i)log(1-P(y_i=1vertmathbf{x}_i;mathbf{w})) logL(w)=i=1∑n​yi​logP(yi​=1∣xi​;w)+(1−yi​)log(1−P(yi​=1∣xi​;w))
log ⁡ L ( w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) log L(mathbf{w}) =sum_{i=1}^{n}y_ilog frac{P(y_i=1vertmathbf{x}_i;mathbf{w})}{1-P(y_i=1vertmathbf{x}_i;mathbf{w})}+log(1-P(y_i=1vertmathbf{x}_i;mathbf{w})) logL(w)=i=1∑n​yi​log1−P(yi​=1∣xi​;w)P(yi​=1∣xi​;w)​+log(1−P(yi​=1∣xi​;w))
log ⁡ L ( w ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) log L(mathbf{w}) =sum_{i=1}^ny_imathbf{x}_imathbf{w}-log(1+e^{mathbf{x}_imathbf{w}}) logL(w)=i=1∑n​yi​xi​w−log(1+exi​w)
6)对 w mathbf{w} w求偏导为:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i frac{partial log L(mathbf{w})}{partial{mathbf{w}}}=sum_{i=1}^ny_imathbf{x}_i-frac{e^{mathbf{x}_imathbf{w}}}{1+e^{mathbf{x}_imathbf{w}}}mathbf{x}_i ∂w∂logL(w)​=i=1∑n​yi​xi​−1+exi​wexi​w​xi​
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i frac{partial log L(mathbf{w})}{partial{mathbf{w}}}=sum_{i=1}^n(y_i-frac{e^{mathbf{x}_imathbf{w}}}{1+e^{mathbf{x}_imathbf{w}}})mathbf{x}_i ∂w∂logL(w)​=i=1∑n​(yi​−1+exi​wexi​w​)xi​
7)由于无法通过导数为0来得到极值,故使用梯度下降法:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w mathbf{w}^{t+1}=mathbf{w}^{t}-alphafrac{partial log L(mathbf{w})}{partial{mathbf{w}}} wt+1=wt−α∂w∂logL(w)​不断更新,直到导数为0或接近0.
特点:
1)使用点到超平面的距离: x w mathbf{xw} xw;
2)使用了sigmoid函数,将距离映射成概率;
3)将 w mathbf{w} w写成参数;
4)将 y i = 1 y_i=1 yi​=1和 y i = 0 y_i=0 yi​=0统一成一个表达式;
5)每个对象都考虑,使用连乘;
6)取 log ⁡ log log简化优化目标;
7)使用最大似然估计试图直接求出 w mathbf{w} w;
8)求导为0计算最小值失败时,采用了梯度下降法.

第四天

第五天

本文发布于:2024-01-31 07:42:36,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170665815726789.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:作业   训练营   SMALE
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23