当前位置：首页 > 数码 > SVM-用Python构建一个强大的分类器-从零实现多分类支持向量机 (svm用平方误差衡量模型好坏)

SVM-用Python构建一个强大的分类器-从零实现多分类支持向量机 (svm用平方误差衡量模型好坏)

admin10个月前 (05-11)数码51

概述

支持向量机（SVM）是一种监督学习算法，用于分类和回归问题。

SVM 的目标是找到一个超平面，它将数据点最佳地分成两类。超平面是一个高维空间中的一个平面，它将不同的类分开。

SVM 通过找到最大边缘的超平面来工作。边缘是超平面到最近数据点之间的距离。较大的边缘表示超平面更有可能正确地将数据点分类。

SVM 还可以通过使用核函数将数据点映射到更高维空间中来处理非线性可分数据。

训练和推理方程

SVM 的训练优化问题如下：

$$\min_{\mathbf{w},b} \frac{1}{2}\|\mathbf{w}\|^2 + C\sum_{i=1}^m \ell(y_i, f(x_i))$$ 其中： $\mathbf{w}$ 是超平面的权重向量 $b$ 是超平面的偏置 $C$ 是正则化参数，用于控制软边界违例 $\ell(y_i, f(x_i))$ 是损失函数，对于错误分类的数据点为正，对于正确分类的数据点为零

推理方程如下：

$$f(x) = \mathrm{sign}(\sum_{i=1}^m \alpha_i y_i K(x_i, x) + b)$$ 其中： $f(x)$ 是数据点 $x$ 的预测类标签 $\alpha_i$ 是拉格朗日乘数 $y_i$ 是数据点 $i$ 的真实类标签 $K(x_i, x)$ 是核函数，它将数据点映射到更高维空间中 $b$ 是超平面的偏置

扩展到多分类

SVM 可以通过使用称为 "一对多" 或 "一对一" 的方法扩展到多分类问题。

"一对多" 方法为每个类训练一个 SVM 分类器，并将新数据点分配给具有最高预测分数的类。

"一对一" 方法为每对类训练一个 SVM 分类器，然后通过投票决定新数据点的类别。

Python 实现

以下是使用 Python 和 scikit-learn 库实现 SVM 的代码：

```python from sklearn.svm import SVC 训练数据 X = [[0, 0], [1, 1], [2, 2], [3, 3]] y = [0, 1, 0, 1] 创建 SVM 分类器 clf = SVC() 训练分类器 clf.fit(X, y) 预测新数据点 new_data = [[0.5, 0.5]] prediction = clf.predict(new_data) 打印预测 print(prediction) ```

Scikit-Learn 测试

scikit-learn 提供了一个内置测试函数，用于评估分类器的性能。

以下代码显示了如何使用测试函数评估 SVM 分类器：

```python from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score 分割数据 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25) 创建 SVM 分类器 clf = SVC() 训练分类器 clf.fit(X_train, y_train) 预测测试数据 y_pred = clf.predict(X_test) 计算准确度 accuracy = accuracy_score(y_test, y_pred) 打印准确度 print(accuracy) ```

python svm 怎么训练模型

支持向量机SVM(Support Vector Machine)是有监督的分类预测模型，本篇文章使用机器学习库scikit-learn中的手写数字数据集介绍使用Python对SVM模型进行训练并对手写数字进行识别的过程。

准备工作

手写数字识别的原理是将数字的图片分割为8X8的灰度值矩阵，将这64个灰度值作为每个数字的训练集对模型进行训练。手写数字所对应的真实数字作为分类结果。在机器学习sklearn库中已经包含了不同数字的8X8灰度值矩阵，因此我们首先导入sklearn库自带的datasets数据集。然后是交叉验证库，SVM分类算法库，绘制图表库等。

#导入自带数据集from sklearn import)([9])()

设置模型的特征X和预测目标Y

查看数据集中的分类目标，可以看到一共有10个分类，分布为0-9。我们将这个分类目标赋值给Y，作为模型的预测目标。

12#数据集中的目标分类12#将数据集中的目标赋给YY=

手写数字的64个灰度值作为特征赋值给X，这里需要说明的是64个灰度值是以8×8矩阵的形式保持的，因此我们需要使用reshape函数重新调整矩阵的行列数。这里也就是将8×8的两维数据转换为64×1的一维数据。

123#使用reshape函数对矩阵进行转换，并赋值给Xn_samples = len()X = ((n_samples, 64))

查看特征值X和预测目标Y的行数，共有1797行，也就是说数据集中共有1797个手写数字的图像，64列是经过我们转化后的灰度值。

12#查看X和Y的行数,

将数据分割为训练集和测试集

将1797个手写数字的灰度值采用随机抽样的方法分割为训练集和测试集，其中训练集为60%，测试集为40%。

12#随机抽取生成训练集和测试集，其中训练集的比例为60%，测试集40%X_train, X_test, y_train, y_test = cross__test_split(X, Y, test_size=0.4, random_state=0)

查看分割后的测试集数据，共有1078条数据。这些数据将用来训练SVM模型。

12#查看训练集的行数X_,y_

对SVM模型进行训练

将训练集数据X_train和y_train代入到SVM模型中，对模型进行训练。下面是具体的代码和结果。

12#生成SVM分类模型clf = (gamma=0.001)12#使用训练集对svm分类模型进行训练(X_train, y_train)

使用测试集测对模型进行测试

使用测试集数据X_test和y_test对训练后的SVM模型进行检验，模型对手写数字分类的准确率为99.3%。这是非常高的准确率。那么是否真的这么靠谱吗？下面我们来单独测试下。

12#使用测试集衡量分类模型准确率(X_test, y_test)

我们使用测试集的特征X，也就是每个手写数字的64个灰度值代入到模型中，让SVM模型进行分类。

12#对测试集数据进行预测predicted=(X_test)

然后查看前20个手写数字的分类结果，也就是手写数字所对应的真实数字。下面是具体的分类结果。

12#查看前20个测试集的预测结果predicted[:20]

再查看训练集中前20个分类结果，也就是真实数字的情况，并将之前的分类结果与测试集的真实结果进行对比。

12#查看测试集中的真实结果expected=y_test

以下是测试集中前20个真实数字的结果，与前面SVM模型的分类结果对比，前20个结果是一致的。

12#查看测试集中前20个真实结果expected[:20]

使用混淆矩阵来看下SVM模型对所有测试集数据的预测与真实结果的准确率情况，下面是一个10X10的矩阵，左上角第一行第一个数字60表示实际为0，SVM模型也预测为0的个数，第一行第二个数字表示实际为0，SVM模型预测为1的数字。第二行第二个数字73表示实际为1，SVM模型也预测为1的个数。

12#生成准确率的混淆矩阵(Confusion matrix)_matrix(expected, predicted)

从混淆矩阵中可以看到，大部分的数字SVM的分类和预测都是正确的，但也有个别的数字分类错误，例如真实的数字2，SVM模型有一次错误的分类为1，还有一次错误分类为7。

支持向量机(SVM)基本原理

看了很多关于SVM的博客，但是常常只能保存书签之后看，有时候有的博客就突然没了，这里就作为搬运工总结一下之后自己看吧。主要内容来自于：支持向量机通俗导论（理解SVM的三层境界）

线性回归给定数据集, 其中, ,线性回归试图学习到一个线性模型,尽可能地输出正确标记.

如果我们要用线性回归算法来解决一个分类问题,(对于分类,y 取值为 0 或者 1),但如果你使用的是线性回归,那么假设函数的输出值可能远大于 1,或者远小于 0,就算所有训练样本的标签 y 都是 0 或 1但是如果算法得到的值远大于 1 或者远小于 0 的话,就会感觉很奇怪。所以我们在接下来的要研究的算法就叫做逻辑回归算法,这个算法的性质是:它的输出值永远在 0 到 1 之间。

所以逻辑回归就是一个分类算法,这个算法的输出值永远在 0 到 1 之间. 我们先看二分类的LR,具体做法是:利用sigmoid 函数,将每一个点的回归值映射到0,1之间函数特性如下:

如图所示,令, 当 z > 0, z 越大, sigmoid 返回值越接近1(但永远不会超过1). 反之,当z < 0时,z 越小, sigmoid 返回值越接近0(但永远不会小于0).

支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

线性分类器给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：

logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。假设函数: 其中x是n维特征向量，函数g就是logistic函数。图像为：

在超平面w x+b=0确定的情况下，|w x+b|能够表示点x到距离超平面的远近，而通过观察w x+b的符号与类标记y的符号是否一致可判断分类是否正确，所以，可以用(y (w*x+b))的正负性来判定或表示分类的正确性。于此，我们便引出了函数间隔（functional margin）的概念。定义函数间隔（用表示）为

而超平面(w，b)关于T中所有样本点(xi，yi)的函数间隔最小值（其中，x是特征，y是结果标签，i表示第i个样本），便为超平面(w, b)关于训练数据集T的函数间隔：但这样定义的函数间隔有问题，即如果成比例的改变w和b（如将它们改成2w和2b），则函数间隔的值f(x)却变成了原来的2倍（虽然此时超平面没有改变），所以只有函数间隔还远远不够。

事实上，我们可以对法向量w加些约束条件，从而引出真正定义点到超平面的距离--几何间隔（geometrical margin）的概念。

假定对于一个点 x ，令其垂直投影到超平面上的对应点为 x0 ，w 是垂直于超平面的一个向量，为样本x到超平面的距离，如下图所示：

根据平面几何知识，有其中||w||为w的二阶范数（范数是一个类似于模的表示长度的概念），是单位向量（一个向量除以它的模称之为单位向量）。

又由于x0 是超平面上的点，满足 f(x0)=0，代入超平面的方程,可得，即

随即让此式的两边同时乘以，再根据和，即可算出：为了得到的绝对值，令乘上对应的类别 y，即可得出几何间隔（用表示）的定义：从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以||w||，而且函数间隔y (wx+b) = y f(x)实际上就是|f(x)|，只是人为定义的一个间隔度量，而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。

对一个数据点进行分类，当超平面离数据点的“间隔”越大，分类的确信度（confidence）也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面能够最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。

通过由前面的分析可知：函数间隔不适合用来最大化间隔值，因为在超平面固定以后，可以等比例地缩放w的长度和b的值，这样可以使得的值任意大，亦即函数间隔可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上了，使得在缩放w和b的时候几何间隔的值是不会改变的，它只随着超平面的变动而变动，因此，这是更加合适的一个间隔。换言之，这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。

于是最大间隔分类器（maximum margin classifier）的目标函数可以定义为同时需满足一些条件，根据间隔的定义，有回顾下几何间隔的定义，可知：如果令函数间隔等于1（之所以令等于1，是为了方便推导和优化，且这样做对目标函数的优化没有影响），则有 = 1 / ||w||且，从而上述目标函数转化成了：相当于在相应的约束条件下，最大化这个1/||w||值，而1/||w||便是几何间隔。

据了解，

由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量 (dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（dual problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题。

那什么是拉格朗日对偶性呢？简单来讲，通过给每一个约束条件加上一个拉格朗日乘子,（Lagrange multiplier），定义拉格朗日函数（通过拉格朗日函数将约束条件融合到目标函数里去，从而只用一个函数表达式便能清楚的表达出我们的问题）

然后令：容易验证，当某个约束条件不满足时，例如，那么显然有（只要令即可）。而当所有约束条件都满足时，则最优值为，亦即最初要最小化的量。

因此，在要求约束条件得到满足的情况下最小化，实际上等价于直接最小化（当然，这里也有约束条件，就是 ≥0,i=1,…,n），因为如果约束条件没有得到满足，会等于无穷大，自然不会是我们所要求的最小值。

具体写出来，目标函数变成了：

这里用表示这个问题的最优值，且和最初的问题是等价的。如果直接求解，那么一上来便得面对w和b两个参数，而又是不等式约束，这个求解过程不好做。不妨把最小和最大的位置交换一下，变成：

交换以后的新问题是原始问题的对偶问题，这个新问题的最优值用来表示。而且有≤，在满足某些条件的情况下，这两者相等，这个时候就可以通过求解对偶问题来间接地求解原始问题。

换言之，之所以从minmax的原始问题，转化为maxmin的对偶问题，一者因为是的近似解，二者，转化为对偶问题后，更容易求解。

下面可以先求L 对w、b的极小，再求L对的极大。

KKT条件 ≤在满足某些条件的情况下，两者等价，这所谓的“满足某些条件”就是要满足KKT条件。

要让两者等价需满足strong duality （强对偶），而后有学者在强对偶下提出了KKT条件，且KKT条件的成立要满足constraint qualifications，而constraint qualifications之一就是Slater条件。所谓Slater 条件，即指：凸优化问题，如果存在一个点x，使得所有等式约束都成立，并且所有不等式约束都严格成立（即取严格不等号，而非等号），则满足Slater 条件。对于此处，Slater 条件成立，所以≤可以取等号。

一般地，一个最优化数学模型能够表示成下列标准形式：其中，f(x)是需要最小化的函数，h(x)是等式约束，g(x)是不等式约束，p和q分别为等式约束和不等式约束的数量。 KKT条件的意义：它是一个非线性规划（Nonlinear Programming）问题能有最优化解法的必要和充分条件。

而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件：

我们这里的问题是满足 KKT 条件的（首先已经满足Slater条件，再者f和gi也都是可微的，即L对w和b都可导），因此现在我们便转化为求解第二个问题。

也就是说，原始问题通过满足KKT条件，已经转化成了对偶问题。而求解这个对偶学习问题，分为3个步骤：首先要让L(w，b，a) 关于 w 和 b 最小化，然后求对的极大，最后利用SMO算法求解对偶问题中的拉格朗日乘子。

对偶问题求解的3个步骤

将以上结果代入之前的L：

得到：

具体推导过程是比较复杂的，如下所示：

最后，得到：

“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算，由于ai和yi都是实数，因此转置后与自身一样。“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。

从上面的最后一个式子，我们可以看出，此时的拉格朗日函数只包含了一个变量，那就是（求出了便能求出w，和b，由此可见，则核心问题：分类函数也就可以轻而易举的求出来了）。

上述式子要解决的是在参数上求最大值W的问题，至于和都是已知数。要了解这个SMO算法是如何推导的，请跳到下文第3.5节、SMO算法。

总结让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ，对于一个数据点 x 进行分类，实际上是通过把 x 带入到算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到: 因此分类函数为：

这里的形式的有趣之处在于，对于新点 x的预测，只需要计算它与训练数据点的内积即可（表示向量内积），这一点至关重要，是之后使用 Kernel 进行非线性推广的基本前提。此外，所谓 Supporting Vector 也在这里显示出来——事实上，所有非Supporting Vector 所对应的系数都是等于零的，因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

为什么非支持向量对应的等于零呢？直观上来理解的话，就是这些“后方”的点——正如我们之前分析过的一样，对超平面是没有影响的，由于分类完全有超平面决定，所以这些无关的点并不会参与分类问题的计算，因而也就不会产生任何影响了。

回忆一下我们通过 Lagrange multiplier得到的目标函数：

注意到如果 xi 是支持向量的话，上式中红颜色的部分是等于 0 的（因为支持向量的 functional margin 等于 1 ），而对于非支持向量来说，functional margin 会大于 1 ，因此红颜色部分是大于零的，而又是非负的，为了满足最大化，必须等于 0 。这也就是这些非Supporting Vector 的点的局限性。

至此，我们便得到了一个maximum margin hyper plane classifier，这就是所谓的支持向量机（Support Vector Machine）。当然，到目前为止，我们的 SVM 还比较弱，只能处理线性的情况，不过，在得到了对偶dual 形式之后，通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了(通过求解对偶问题得到最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题”)。

事实上，大部分时候数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在。在上文中，我们已经了解到了SVM处理线性可分的情况，那对于非线性的数据SVM咋处理呢？对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。

具体来说，在线性不可分的情况下，支持向量机首先在低维空间中完成计算，然后通过核函数将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开。如图所示，一堆数据在二维空间无法划分，从而映射到三维空间里划分：

而在我们遇到核函数之前，如果用原始的方法，那么在用线性学习器学习一个非线性关系，需要选择一个非线性特征集，并且将数据写成新的表达形式，这等价于应用一个固定的非线性映射，将数据映射到特征空间，在特征空间中使用线性学习器，因此，考虑的假设集是这种类型的函数：这里ϕ：X->F是从输入空间到某个特征空间的映射，这意味着建立非线性学习器分为两步：

首先使用一个非线性映射将数据变换到一个特征空间F，然后在特征空间使用线性学习器分类。

而由于对偶形式就是线性学习器的一个重要性质，这意味着假设可以表达为训练点的线性组合，因此决策规则可以用测试点和训练点的内积来表示：如果有一种方式可以在特征空间中直接计算内积〈φ(xi · φ(x)〉，就像在原始输入点的函数中一样，就有可能将两个步骤融合到一起建立一个非线性的学习器，这样直接计算法的方法称为核函数方法：核是一个函数K，对所有x，z，满足，这里φ是从X到内积特征空间F的映射。

来看个核函数的例子。如下图所示的两类数据，分别分布为两个圆圈的形状，这样的数据本身就是线性不可分的，此时咱们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图)？

事实上，上图所述的这个数据集，是用两个半径不同的圆圈加上了少量的噪音生成得到的，所以，一个理想的分界应该是一个“圆圈”而不是一条线（超平面）。如果用和来表示这个二维平面的两个坐标的话，我们知道一条二次曲线（圆圈是二次曲线的一种特殊情况）的方程可以写作这样的形式：注意上面的形式，如果我们构造另外一个五维的空间，其中五个坐标的值分别为，那么显然，上面的方程在新的坐标系下可以写作：关于新的坐标，这正是一个 hyper plane 的方程！也就是说，如果我们做一个映射，将按照上面的规则映射为，那么在新的空间中原来的数据将变成线性可分的，从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。

再进一步描述 Kernel 的细节之前，不妨再来看看上述例子在映射过后的直观形态。当然，你我可能无法把 5 维空间画出来，不过由于我这里生成数据的时候用了特殊的情形，所以这里的超平面实际的方程是这个样子的（圆心在轴上的一个正圆）因此我只需要把它映射到，这样一个三维空间中即可，下图即是映射之后的结果，将坐标轴经过适当的旋转，就可以很明显地看出，数据是可以通过一个平面来分开的

核函数相当于把原来的分类函数：

映射成：

而其中的可以通过求解如下 dual 问题而得到的：

这样一来问题就解决了吗？似乎是的：拿到非线性数据，就找一个映射

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: Python