别再只调sklearn的SVC参数了！手把手教你用Python从零实现SVM分类器（含核函数）-二趣网

从数学推导到代码实现：深入理解支持向量机分类器

在机器学习领域，支持向量机(Support Vector Machine)一直以其优秀的分类性能和清晰的数学原理著称。很多工程师虽然能够熟练调用sklearn中的SVC接口，但对算法背后的优化目标和实现细节却知之甚少。本文将带你从数学基础出发，逐步推导SVM的核心公式，并最终用Python实现一个完整的支持向量机分类器。

1. SVM的数学基础与核心思想

支持向量机的核心思想可以概括为：寻找一个最优超平面，使得不同类别的样本点能够被清晰地分开，并且这个超平面到最近样本点（支持向量）的距离最大化。这个距离被称为"间隔"(margin)，而支持向量机本质上就是一个最大化间隔的优化问题。

1.1 线性可分情况下的硬间隔SVM

对于线性可分的数据集，我们可以用严格的数学形式来描述这个优化问题。假设我们有一组训练数据{(x₁,y₁),(x₂,y₂),...,(xₙ,yₙ)}，其中xᵢ∈ℝᵈ是特征向量，yᵢ∈{-1,1}是类别标签。我们的目标是找到一个超平面wᵀx + b = 0，使得：

所有正类样本满足wᵀxᵢ + b ≥ 1
所有负类样本满足wᵀxᵢ + b ≤ -1

这两个条件可以统一写成yᵢ(wᵀxᵢ + b) ≥ 1。此时，间隔的大小可以表示为2/||w||，因此最大化间隔等价于最小化||w||²/2。

于是，我们得到了硬间隔SVM的原始优化问题：

minimize ½||w||² subject to yᵢ(wᵀxᵢ + b) ≥ 1, ∀i

1.2 拉格朗日对偶问题

为了求解这个带约束的优化问题，我们引入拉格朗日乘子法。构造拉格朗日函数：

L(w,b,α) = ½||w||² - Σαᵢ[yᵢ(wᵀxᵢ + b) - 1]

其中αᵢ ≥ 0是拉格朗日乘子。通过对w和b求偏导并令其为零，我们可以得到：

w = Σαᵢyᵢxᵢ Σαᵢyᵢ = 0

将这些关系代入拉格朗日函数，我们得到对偶问题：

maximize Σαᵢ - ½ΣΣαᵢαⱼyᵢyⱼxᵢᵀxⱼ subject to αᵢ ≥ 0, Σαᵢyᵢ = 0

求解这个对偶问题后，决策函数可以表示为：

f(x) = sign(Σαᵢyᵢxᵢᵀx + b)

1.3 软间隔与核函数

在实际应用中，数据往往不是线性可分的。为此，我们引入松弛变量ξᵢ，允许一些样本违反间隔约束，但会施加惩罚。这导出了软间隔SVM：

minimize ½||w||² + CΣξᵢ subject to yᵢ(wᵀxᵢ + b) ≥ 1 - ξᵢ, ξᵢ ≥ 0

其中C > 0是惩罚参数，控制对误分类的容忍度。

对于非线性问题，我们可以通过核函数将数据映射到高维空间，使其在高维空间中线性可分。常用的核函数包括：

线性核：K(x,z) = xᵀz
多项式核：K(x,z) = (γxᵀz + r)^d
RBF核：K(x,z) = exp(-γ||x-z||²)
Sigmoid核：K(x,z) = tanh(γxᵀz + r)

2. 实现SVM的核心组件

现在，我们将把上述数学原理转化为Python代码。我们将使用NumPy进行数值计算，避免依赖sklearn等高级库。

2.1 核函数的实现

首先实现几种常见的核函数：

import numpy as np def linear_kernel(x1, x2): return np.dot(x1, x2) def polynomial_kernel(x1, x2, degree=3, gamma=1.0, coef0=1.0): return (gamma * np.dot(x1, x2) + coef0) ** degree def rbf_kernel(x1, x2, gamma=1.0): return np.exp(-gamma * np.linalg.norm(x1 - x2) ** 2)

2.2 SVM训练过程

SVM的训练过程主要是求解对偶问题。我们将使用序列最小优化(SMO)算法，这是求解SVM对偶问题的高效算法。

class SVM: def __init__(self, kernel='rbf', C=1.0, gamma=1.0, degree=3, coef0=1.0): self.kernel_type = kernel self.C = C self.gamma = gamma self.degree = degree self.coef0 = coef0 self.alpha = None self.b = 0 self.X = None self.y = None def kernel(self, x1, x2): if self.kernel_type == 'linear': return linear_kernel(x1, x2) elif self.kernel_type == 'poly': return polynomial_kernel(x1, x2, self.degree, self.gamma, self.coef0) elif self.kernel_type == 'rbf': return rbf_kernel(x1, x2, self.gamma) else: raise ValueError("Unknown kernel type")

2.3 SMO算法实现

SMO算法的核心思想是每次选择两个变量进行优化，固定其他变量。以下是简化版的SMO实现：

def fit(self, X, y, max_iter=1000, tol=1e-3): n_samples, n_features = X.shape self.X = X self.y = y # 初始化拉格朗日乘子 self.alpha = np.zeros(n_samples) self.b = 0 # 预先计算核矩阵 K = np.zeros((n_samples, n_samples)) for i in range(n_samples): for j in range(n_samples): K[i,j] = self.kernel(X[i], X[j]) # SMO算法主循环 for _ in range(max_iter): alpha_prev = np.copy(self.alpha) for i in range(n_samples): # 计算预测误差 E_i = self.decision_function(X[i]) - y[i] # 检查KKT条件 if (y[i]*E_i < -tol and self.alpha[i] < self.C) or \ (y[i]*E_i > tol and self.alpha[i] > 0): # 随机选择第二个alpha j = np.random.choice(list(range(i)) + list(range(i+1, n_samples))) E_j = self.decision_function(X[j]) - y[j] # 保存旧值 alpha_i_old, alpha_j_old = self.alpha[i], self.alpha[j] # 计算边界 if y[i] != y[j]: L = max(0, self.alpha[j] - self.alpha[i]) H = min(self.C, self.C + self.alpha[j] - self.alpha[i]) else: L = max(0, self.alpha[i] + self.alpha[j] - self.C) H = min(self.C, self.alpha[i] + self.alpha[j]) if L == H: continue # 计算eta eta = 2 * K[i,j] - K[i,i] - K[j,j] if eta >= 0: continue # 更新alpha_j self.alpha[j] -= y[j] * (E_i - E_j) / eta # 裁剪alpha_j self.alpha[j] = np.clip(self.alpha[j], L, H) # 检查alpha_j是否有足够变化 if abs(self.alpha[j] - alpha_j_old) < 1e-5: continue # 更新alpha_i self.alpha[i] += y[i] * y[j] * (alpha_j_old - self.alpha[j]) # 更新b b1 = self.b - E_i - y[i] * (self.alpha[i] - alpha_i_old) * K[i,i] \ - y[j] * (self.alpha[j] - alpha_j_old) * K[i,j] b2 = self.b - E_j - y[i] * (self.alpha[i] - alpha_i_old) * K[i,j] \ - y[j] * (self.alpha[j] - alpha_j_old) * K[j,j] if 0 < self.alpha[i] < self.C: self.b = b1 elif 0 < self.alpha[j] < self.C: self.b = b2 else: self.b = (b1 + b2) / 2 # 检查收敛 if np.linalg.norm(self.alpha - alpha_prev) < tol: break

3. 决策函数与支持向量

训练完成后，我们需要实现决策函数来进行预测：

def decision_function(self, X): y_pred = np.zeros(X.shape[0]) for i in range(X.shape[0]): s = 0 for alpha_j, y_j, X_j in zip(self.alpha, self.y, self.X): s += alpha_j * y_j * self.kernel(X[i], X_j) y_pred[i] = s + self.b return y_pred def predict(self, X): return np.sign(self.decision_function(X))

支持向量是那些对应的αᵢ > 0的样本点。我们可以添加一个方法来获取支持向量：

def get_support_vectors(self): mask = self.alpha > 1e-5 return self.X[mask], self.y[mask], self.alpha[mask]

4. 完整实现与测试

现在，我们将所有部分组合起来，形成一个完整的SVM实现，并在合成数据集上进行测试。

4.1 生成测试数据

from sklearn.datasets import make_classification import matplotlib.pyplot as plt # 生成线性可分数据 X, y = make_classification(n_samples=100, n_features=2, n_redundant=0, n_clusters_per_class=1, flip_y=0.1, class_sep=1.5, random_state=42) y[y == 0] = -1 # 将标签转换为-1和1 # 可视化数据 plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired) plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.title('Synthetic Classification Data') plt.show()

4.2 训练SVM模型

# 创建SVM实例 svm = SVM(kernel='linear', C=1.0) # 训练模型 svm.fit(X, y) # 获取支持向量 support_vectors, sv_labels, sv_alphas = svm.get_support_vectors() print(f"Number of support vectors: {len(support_vectors)}")

4.3 可视化决策边界

def plot_decision_boundary(clf, X, y): # 设置绘图范围 x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1 y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1 xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02)) # 预测网格点的类别 Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) # 绘制决策边界和间隔 plt.contourf(xx, yy, Z, alpha=0.4, cmap=plt.cm.Paired) plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired) # 标记支持向量 plt.scatter(support_vectors[:, 0], support_vectors[:, 1], s=100, facecolors='none', edgecolors='k') plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.title('SVM Decision Boundary with Support Vectors') plt.show() plot_decision_boundary(svm, X, y)

4.4 非线性数据与核技巧

对于非线性可分数据，我们可以使用核函数。让我们生成一个环形数据集并测试RBF核：

from sklearn.datasets import make_circles # 生成环形数据 X_circle, y_circle = make_circles(n_samples=100, noise=0.1, factor=0.5, random_state=42) y_circle[y_circle == 0] = -1 # 训练RBF核SVM svm_rbf = SVM(kernel='rbf', C=1.0, gamma=10.0) svm_rbf.fit(X_circle, y_circle) # 可视化结果 plot_decision_boundary(svm_rbf, X_circle, y_circle)

5. 性能优化与实用技巧

虽然我们的实现能够工作，但在处理大规模数据时效率不高。以下是几个优化方向：

5.1 核矩阵缓存

预先计算并缓存核矩阵可以显著提高训练速度：

def compute_kernel_matrix(self, X): n_samples = X.shape[0] K = np.zeros((n_samples, n_samples)) for i in range(n_samples): for j in range(n_samples): K[i,j] = self.kernel(X[i], X[j]) return K

5.2 支持向量筛选

在实际预测时，我们只需要使用支持向量进行计算：

def decision_function_optimized(self, X): y_pred = np.zeros(X.shape[0]) sv_X = self.X[self.alpha > 1e-5] sv_y = self.y[self.alpha > 1e-5] sv_alpha = self.alpha[self.alpha > 1e-5] for i in range(X.shape[0]): s = 0 for alpha_j, y_j, X_j in zip(sv_alpha, sv_y, sv_X): s += alpha_j * y_j * self.kernel(X[i], X_j) y_pred[i] = s + self.b return y_pred

5.3 参数选择建议

选择合适的核函数和参数对SVM性能至关重要：

C参数：控制对误分类的惩罚力度
- 较小的C：允许更多误分类，决策边界更平滑
- 较大的C：严格分类，可能过拟合
γ参数(RBF核)：控制单个样本的影响范围
- 较小的γ：决策边界更平滑
- 较大的γ：模型更关注单个样本，可能过拟合

可以通过网格搜索或交叉验证来选择最佳参数组合。

6. 与sklearn SVC的对比

为了验证我们实现的正确性，我们可以与sklearn的SVC进行对比：

from sklearn.svm import SVC # 使用相同参数训练sklearn的SVC sk_svc = SVC(kernel='linear', C=1.0) sk_svc.fit(X, y) # 比较支持向量 print("Our SVM support vectors:", len(support_vectors)) print("sklearn SVC support vectors:", sk_svc.support_vectors_.shape[0]) # 比较预测结果 our_pred = svm.predict(X) sk_pred = sk_svc.predict(X) print("Agreement between predictions:", np.mean(our_pred == sk_pred))

通过这种从零开始的实现，我们不仅深入理解了SVM的工作原理，还能够更好地应用和调试这个强大的分类算法。当遇到实际问题时，这种底层理解能够帮助我们做出更明智的参数选择和模型调整。

企业官网建设流程全解析

从数学推导到代码实现：深入理解支持向量机分类器

1. SVM的数学基础与核心思想

1.1 线性可分情况下的硬间隔SVM

1.2 拉格朗日对偶问题

1.3 软间隔与核函数

2. 实现SVM的核心组件

2.1 核函数的实现

2.2 SVM训练过程

2.3 SMO算法实现

3. 决策函数与支持向量

4. 完整实现与测试

4.1 生成测试数据

4.2 训练SVM模型

4.3 可视化决策边界

4.4 非线性数据与核技巧

5. 性能优化与实用技巧

5.1 核矩阵缓存

5.2 支持向量筛选

5.3 参数选择建议

6. 与sklearn SVC的对比

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

从数学推导到代码实现：深入理解支持向量机分类器

1. SVM的数学基础与核心思想

1.1 线性可分情况下的硬间隔SVM

1.2 拉格朗日对偶问题

1.3 软间隔与核函数

2. 实现SVM的核心组件

2.1 核函数的实现

2.2 SVM训练过程

2.3 SMO算法实现

3. 决策函数与支持向量

4. 完整实现与测试

4.1 生成测试数据

4.2 训练SVM模型

4.3 可视化决策边界

4.4 非线性数据与核技巧

5. 性能优化与实用技巧

5.1 核矩阵缓存

5.2 支持向量筛选

5.3 参数选择建议

6. 与sklearn SVC的对比

热门文章

文章分类

标签云

相关文章

ARM926EJ-S架构深度解析：从i.MX21看经典SoC设计哲学与实战优化

HCS08指令集实战指南：从寻址模式到性能优化的嵌入式底层开发

DC-DC模块选型避坑指南：除了效率，可调性设计（如SCT2432的FB引脚）你考虑了吗？

需要专业的网站建设服务？