Logistic回归进行分类的主要思想是:根据现有数据对分类边界建立回归公式,以此进行分类。
- 优点:计算代价不高,易于理解和实现。
- 缺点:容易欠拟合,分类精度可能不高。
- 适用数据类型:数值型和标称数据。
基于Logistic回归和Sigmoid函数的分类
sigmoid函数:
$$S(z) = \frac{1}{1+e^{-z}}$$
当z为0时,其值为0.5;当z增大时,其值逼近于1;当z减小,其值逼近于0.
为了实现Logistic回归,可以在每个特征上乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类,小于0.5的被分入0类。
如何确定回归系数呢?
基于最优化方法的最佳回归系数确定
1 | z = w0x0 + w1x1 + ... + wnxn |
梯度上升法
其思想为:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。迭代公式:
1 | w := w + a |