-
基本模型(二元)
对条件概率建模:
y=1的对数几率(log odds/logit)为 $log \frac{p}{1 - p}=w \cdot x$ -
参数估计方法
一般fit方式为极大似然法maximum likelihood,对其负对数似然函数(cross-entropy error)求极小值,就能得到参数$w$的估计值。具体求解可用梯度下降法(一阶偏导)/牛顿法(二阶偏导)/拟牛顿法来求解,见后。
似然函数为一阶偏导
海赛矩阵
其中$R_{nn} = diag(y_n(1-y_n))$。加入惩罚项后,
一阶偏导
海赛矩阵
极大似然法是频率学派distriminative approach的主要方法,比bayesian approach:- 优点:要fit的参数更少;在generative approach中密度函数估计错误的情况下预测效果更好
- 缺点:训练数据线性可分时会过拟,通过加入先验或惩罚项可以避免
- 梯度下降
- 牛顿法 wiki
假设:目标函数为凸函数有二阶连续偏导数,海赛矩阵必须正定,那么每次迭代:
$w^{(new)} = w^{old} - H^{-1}\nabla E(w)$
推导主要用了二阶泰勒展开及$E(w)$极值处一阶导为0的性质。
对逻辑回归,代入后得$w^{(new)} = w^{old} - (\Phi^TR\Phi)^{-1}\Phi^T(y-t)
= (\Phi^TR\Phi)^{-1}\Phi^TRz$,
其中$z = \Phi w^{old} - R^{-1}(y-t)$- 因为上式中R需要根据w而更新,所以此算法被称为IRLS(iterative reweighted least squares)。
- 对比线性回归模型中,$w^{(new)}= (\Phi^T\Phi)^{-1}\Phi^Tt$,可以认为IRLS是在空间$w^T\phi$中,预测有效target $z$ 的线性问题。
- 拟牛顿法
牛顿法的缺点是:每次迭代都需要计算海赛矩阵的逆矩阵$H^{-1}$,计算比较复杂。拟牛顿法寻找$H^{-1}$或$H$的近似矩阵来简化运算。
近似矩阵需要满足拟牛顿条件:
记$y_k=\nabla E(w){k+1} - \nabla E(w)_k$, $s_k=w{k+1} - w_k$,上式可写为:或
DFP算法对海赛矩阵逆矩阵做估计,记为$G_k$,找到了迭代方式G_{k+1} = f(G_k, s_k, y_k)。
更常用的是BFGS/L-BFGS算法,对海赛矩阵直接做估计,记为$B_k$,找到了迭代方式$B_{k+1} = f(B_k, s_k, y_k)$。
BFGS也可以看作是对海赛矩阵做”diagonal plus low-rank”Low-rank approximation例子近似。
L-BFGS的L是指limited memory,不保存海赛矩阵的近似矩阵,保留m个迭代中产生的向量。可以这么
拟牛顿法假设可导,所以只适应于$l_2$惩罚项。由于$l_1$惩罚在0点处不可导,所以微软利用其在各象限可导的性质,提出了OWL-QN(Orthant-Wise Limited-memory Quasi-Newton)。和L-BFGS比,主要有4点不同: - The pseudo-gradient ⋄f (xk ) of the regularized objective is used in place of the gradient.
- The resulting search direction is constrained to match the sign pattern of vk = − ⋄ f(xk). This is the projection step of Equation 3.
- During the line search, each search point is projected onto the orthant of the previous point.
- The gradient of the unregularized loss alone is used to construct the vectors yk used to approximate the inverse Hessian.
-
和其他模型对比
逻辑回归比线性回归的优点是:预测永远在0~1之间,作为概率更合理。
逻辑回归和LDA(linear discriminant analysis)比较类似,一般在这些情况下选LDA,会比逻辑回归结果更稳定:- classes分的比较开的时候
- n比较小而且x服从正态分布时
- 多分类问题更常用