基本概念
1. 什么是支持向量机
支持向量机是一种二分类模型,在机器学习、计算机视觉、数据挖掘中广泛应用,主要用于解决数据分类问题,它的目的是寻找一个超平面对样本进行分割,分割的原则是间隔最大化(也就是数据集的边缘点到分界点的距离d最大)最终转化成一个凸二次规划问题来求解。通常的SVM用于二元分类问题,对于多元分类问题可将其分解为多个二元分类问题,在进行分类。
2.最优分类边界
什么才是最优分类边界?什么条件下分类边界为最优边界呢?
如图中A、B两个样本点,B点被预测为正类的确信度要大于A点,所以SVM的目标是寻找一个超平面,使得离超平面较近的一类点之间能有更大的间隔,即不必考虑所有样本点,只需要求得的超平面使得离它近的点间隔最大。超平面可以用如下线性方程描述:
w T + b = 0 w^T+b = 0 wT+b=0
其中 x = ( x 1 ; x 2 ; . . . ; x n ) , w = ( w 1 ; w 2 ; . . . ; w n ) x = (x1;x2;...;xn),w=(w1;w2;...;wn) x=(x1;x2;...;xn),w=(w1;w2;...;wn),b为偏置项。可以从数学上证明,支持向量到超平面距离为:
γ = 1 ∥ w ∥ \gamma = \frac{1}{\|w\|} γ=