数学表达式: 从恐惧到单挑 (10. Logistic 回归)

阅读: 评论:0

数学表达式: 从恐惧到单挑 (10. Logistic 回归)

数学表达式: 从恐惧到单挑 (10. Logistic 回归)

10. Logistic 回归

logistic 回归用于分类, 特别是二分类 (仅有两个类别).

10.1 分割超平面

  • 线性分类模型的目标, 是找到一个超平面, 把正例、负例分割.
  • 问题: 如何评价每个超平面的性能?
  • 方案之一, 是最小化错分对象的数量, 但如果多个超平面都满足条件怎么办?
  • 哪个超平面是最优的, 就体现不同算法的设计理念.
  • 方案方二, 就是根据每个对象到超平面的距离, 来计算其损失. 如果正确分类, 则离超平面越远越好; 如果错误分类, 则离超平面越近越好.

图 1. 分割超平面

10.2 点到直线的距离

  • 在 m m m 维空间上, m m m维向量 w mathbf{w} w 确定了一条直线.
  • 为方便起见, 令 w mathbf{w} w 为列向量.
  • 点 x mathbf{x} x 与 w mathbf{w} w 的距离为 x w mathbf{x}mathbf{w} xw.
  • 这个距离带符号. 正号代表 x mathbf{x} x 在 w mathbf{w} w 的某一边, 负号则表示另一边.
  • 参见《高等数学》.

10.3 sigmoid 函数

  • x mathbf{x} x 到超平面的距离 (带符号) 取值范围为 ( − ∞ , + ∞ ) (-infty, +infty) (−∞,+∞), 希望将其转成概率.
  • 如果距离为负而且离超平面很远, 则它为正例的概率就接近 0;
  • 如果距离为正而且离超平面很远, 则它为正例的概率就接近 1.
  • 使用 sigmoid 函数将距离转成 (我们以为的) 概率.
    P ( y = 1 ∣ x ; w ) = 1 1 + e − x w (1) P(y = 1 vert mathbf{x}; mathbf{w}) = frac{1}{1 + e^{-mathbf{xw}}} tag{1} P(y=1∣x;w)=1+e−xw1​(1)
    源码: p(y = 1 vert mathbf{x}; mathbf{w}) = frac{1}{1 + e^{-mathbf{xw}}}

10.4 优化目标

  • 统一 y i y_i yi​ 不同取值 (0 或 1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i (2) P(y_i vert mathbf{x}_i; mathbf{w}) = P(y_i = 1 vert mathbf{x}_i; mathbf{w})^{y_i} (1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w}))^{1 - y_i} tag{2} P(yi​∣xi​;w)=P(yi​=1∣xi​;w)yi​(1−P(yi​=1∣xi​;w))1−yi​(2)
    显然, 这个概率越大越好.
    要针对全部对象进行优化, 可将相应的概率相乘 (最大似然, maximal likelihood):
    arg max ⁡ w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) (4) argmax_mathbf{w} L(mathbf{w}) = prod_{i = 1}^n P(y_i vert mathbf{x}_i; mathbf{w}) tag{4} wargmax​L(w)=i=1∏n​P(yi​∣xi​;w)(4)

10.5 求解

  • 相乘计算困难, 将其求一个对数, 不改变单调性
    log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) (4) begin{aligned}log L(mathbf{w}) & = sum_{i = 1}^n log P(y_i vert mathbf{x}_i; mathbf{w}) \ & = sum_{i = 1}^n y_i log P(y_i = 1 vert mathbf{x}_i; mathbf{w}) + (1 - y_i) log(1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})) \ & = sum_{i = 1}^n y_i log frac{P(y_i = 1 vert mathbf{x}_i; mathbf{w})}{1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})} + log (1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w}))\ & = sum_{i = 1}^n y_i mathbf{x}_i mathbf{w} - log (1 + e^{mathbf{x}_i mathbf{w}}) end{aligned}tag{4} logL(w)​=i=1∑n​logP(yi​∣xi​;w)=i=1∑n​yi​logP(yi​=1∣xi​;w)+(1−yi​)log(1−P(yi​=1∣xi​;w))=i=1∑n​yi​log1−P(yi​=1∣xi​;w)P(yi​=1∣xi​;w)​+log(1−P(yi​=1∣xi​;w))=i=1∑n​yi​xi​w−log(1+exi​w)​(4)
    源码: begin{aligned}log L(mathbf{w}) & = sum_{i = 1}^n log P(y_i vert mathbf{x}i; mathbf{w})
    & = sum
    {i = 1}^n y_i log P(y_i = 1 vert mathbf{x}_i; mathbf{w}) + (1 - y_i) log(1 - P(y_i = 1 vert mathbf{x}i; mathbf{w}))
    & = sum
    {i = 1}^n y_i log frac{P(y_i = 1 vert mathbf{x}_i; mathbf{w})}{1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})} + log (1 - P(y_i = 1 vert mathbf{x}i; mathbf{w}))
    & = sum
    {i = 1}^n y_i mathbf{x}_i mathbf{w} - log (1 + e^{mathbf{x}_i mathbf{w}}) end{aligned}tag{4}

  • 对 w mathbf{w} w 求偏导
    ∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i (5) begin{aligned} frac{partial log L(mathbf{w})}{partial mathbf{w}} & = sum_{i = 1}^n y_i mathbf{x}_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}} mathbf{x}_i\ & = sum_{i = 1}^n left(y_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}}right) mathbf{x}_iend{aligned} tag{5} ∂w∂logL(w)​​=i=1∑n​yi​xi​−1+exi​wexi​w​xi​=i=1∑n​(yi​−1+exi​wexi​w​)xi​​(5)
    源码: begin{aligned} frac{partial log L(mathbf{w})}{partial mathbf{w}} & = sum_{i = 1}^n y_i mathbf{x}_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}} mathbf{x}i
    & = sum
    {i = 1}^n left(y_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}}right) mathbf{x}_iend{aligned} tag{5}

  • 令该偏导为 0, 无法获得解析式, 因此用梯度下降.
    w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w (6) mathbf{w}^{t + 1} = mathbf{w}^t - alpha frac{partial log L(mathbf{w})}{partial mathbf{w}} tag{6} wt+1=wt−α∂w∂logL(w)​(6)

10.6 作业

自己推导一遍, 并描述这个方法的特点 (不少于 5 条).

本文发布于:2024-01-31 07:43:58,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170665824326801.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:表达式   单挑   恐惧   数学   Logistic
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23