模式识别复习总 - 机器学习 | Flüstern = Whispering's Blog = 无需过去，无关未来，只有现在

模式识别复习总结

# 前情提要：

本篇只适合与考试复习用，并不深入讲解每个算法的具体内容，详细知识点请移步本分类的其他文章

模式识别思维导图

# 一、距离分类器

模板匹配
- $d$ 是向量 $x$ 和平均值 $\mu_i$ 的距离
- $j=\arg\min_{1\le i\le c}d(\boldsymbol{x},\boldsymbol{\mu}_i)$
最近邻分类器
- 计算每个类别训练样本的均值作为匹配模板
K - 近邻分类器
- $如果j=\arg\max_{1\le i\le c}k_i，则判别:x\in w_j$
距离和相似度度量：
- 什么样的函数可以作为距离度量
  - 非负性、对称性、自反性、三角不等式
- 常用函数
  - $Euclidean$ $Distance$ :\sqrt
  - $Manhattan$ $Distance$ : $|x_1-x_2|+|y_1-y_2|$
  - $Chebyshev Distance$ : $max(|x_1-x_2|,|y_1-y_2|)$
- 相似性度量
  - 角度相似性：
    $s(\boldsymbol{x},\boldsymbol{y})=cos\theta_{xy}=\dfrac{x^ty}{\lVert x\rVert\cdot\lVert y\rVert}$
  - 相关系数：
    $s(\boldsymbol{x},\boldsymbol{y})=\dfrac{(x-\mu_x)^t(y-\mu_y)}{\lVert x-\mu_x\rVert\cdot\lVert y-\mu_y\rVert}$
- 特征归一化、标准化
  - 均匀缩放： $x^\prime_{ij}=\dfrac{x_{ij}-x_{jmin}}{x_{jmax}-x_{jmin}},i=1,...,n,j=1,...,d$
  - 高斯缩放： $x^\prime_{ij}=\dfrac{x_{ij}-\mu_j}{s_j},i=1,...,n,j=1,...,d$
  - 缩放的理由：使样本每一维特征都分布在相同或相似的范围内，计算距离度量时每一维特征上的差异都会得到相同的体现
分类器性能评价：
- 常用评价指标
  - 准确率： $Acc=(TP+TN)/(TP+FN+FP+TN)$
  - 错误率： $Err=1-Acc$
  - 查准率： $P=TP/(TP+FP)$
  - 查全率 (召回率)： $R=TP/(TP+FN)$
  - $F_1:F_1=(2*P*R)/(P+R)$
    真实类别 \ 预测结果正例反例
    正例 TP (真正例) FN (假反例)
    反例 FP (假正例) TN (真反例)
- 常用评价方法：
  - 留出法 (hold-out)
  - 交叉验证法 (cross validation)
  - 自助法 (bootstrap)
- 偏差 (Bias) 和方差 (Variance)
- 过拟合与欠拟合 (Over- and Under-Fitting)
  - 如何解决欠拟合:
    1、增加模型复杂数学公式度，即选择更复杂数学公式的模型
    2、特征工程，即选择更好的有助于模型预测的特征
    3、调整超参数
  - 如何解决过拟合：
    1、增加训练数据量
    2、降低模型复杂数学公式度
    3、通过正则化的方法，限制模型参数大小
    4、数据增强，通过对训练数据旋转、翻转，增加样本多样性

真实类别 \ 预测结果	正例	反例
正例	TP (真正例)	FN (假反例)
反例	FP (假正例)	TN (真反例)

# 二、线性判别函数

线性判别函数： $g(x)=\boldsymbol{w}^t\boldsymbol{x}+w_0=0$

线性判别函数的几何意义
- 分类超平面 $H$ 将空间分成属于不同类别的两部分 $R_1$ 和 $R_2$
- 权矢量 $\boldsymbol{w}$ 垂直与分类面 $H$ ，指向 $g(x)>0$ 的区域
- 坐标原点到分类界面 $H$ 的距离： $r_0=\dfrac{w_0}{\lVert\boldsymbol{w}\rVert}$
线性判别函数的增广形式：
- 增广权矢量： $\boldsymbol{a}=[\boldsymbol{w}^t,\boldsymbol{w_0}]^t$
- 样本规范化：
  $\begin{cases} \boldsymbol{y}=[ \boldsymbol{x}^t,1]^t,& \forall \boldsymbol{x} \in \boldsymbol{\omega_1} \\ \boldsymbol{y}=[ \boldsymbol{-x}^t,-1]^t,& \forall \boldsymbol{x} \in \boldsymbol{\omega_2} \end{cases}$
- 统一形式： $\boldsymbol{a}^t\boldsymbol{y_i}>0,i=1,...,n$
优化方法 - 梯度下降法： $\alpha(k+1)=\alpha(k)-\eta(k)\nabla J(a(k))$
感知器算法：
$J_P(\alpha)=\sum_{y\in\mathcal{y}}-g(y)=\sum_{y\in\mathcal{y}}-\alpha^ty$
$\nabla J_P(\alpha)=\sum_{y\in\mathcal{y}}-y$
最小平方误差算法：
$J_S(\alpha)=\lVert Ya-b\rVert^2$ $\nabla J_S(a)=2Y^t(Ya-b)$
伪逆法： $Y^+=(Y^tY)^{-1}Y^t$ ( $(Y^tY)$ 可能为奇异阵，且计算量巨大)
迭代求解法： $\alpha(k+1)=\alpha(k)+\eta(k)\sum\limits_{i=1}^n(b_i-a^ty_i)y_i$

多类别线性分类：

方法：一对多、一对一
判别准则：
- 若存在 $i$ ，使得 $g_i(x)>0,g_i(x)<0,j\neq i$ ，则判别 $x$ 属于 $\omega_i$ 类
- 如果对任意 $j\neq i$ ，有 $g_{ij}(x)>0$ ，则判别 $x$ 属于 $\omega_i$ 类

支持向量机：

$\min_{\boldsymbol{w},w_0}\frac{1}{2}\lVert w\rVert^2\\subject\ to:\qquad z_i(\boldsymbol{w}^t\boldsymbol{x}_i+w_0)\ge1,\ i=1,...n$

权矢量： $\boldsymbol{w}=\sum\limits^{n}_{i=1}\alpha_iz_i\boldsymbol{x}_i$
偏置 $w_0$ ：可以用支持向量满足的条件求得 $z_i(\boldsymbol{w}^t\boldsymbol{x}_i+w_0)=1$
软间隔 $SVM$ :
$\begin{cases}z_i(w^tx_i+w_0)>0,&\alpha_i=0\quad\quad\quad支持面外\\z_i(w^tx_i+w_0)=1,&0<\alpha_i<C\quad支持面上\\z_i(w^tx_i+w_0)<1,&\alpha_i=C\quad\quad\quad支持面内\end{cases}$

特征选择与特征提取：

什么是维数诅咒：当数学空间维度增加时，体积指数级增加的难题
主成分分析 (PCA)
- Input: 样本集 $D=\{x_1,...,x_n\},x_i\in R^d$ ;
- Output: 降维样本集\{y_1,...,y_2\},y_i\in R^
- 1: 计算样本集 $D$ 的均值 $\boldsymbol{\mu}$ 和协方差矩阵 $S$ ;
- 2: 计算矩阵 $S$ 的特征值，并从大到小排序；
- 3: 选择前 $d^\prime$ 个特征值对应矢量作为列矢量，构造变换矩阵 $E=(e_1,...,e_{d^\prime})$ ;
- 4: 计算降维样本集： $y_i=E^t(x_i-\mu),\quad i=1,...n$
线性判别分析：
- $Fisher$ 准则： $J(\boldsymbol{w})=\dfrac{(\tilde{\mu}_1-\tilde{\mu}_2)^2}{\tilde{s}_1^2+\tilde{s}_2^2}=\dfrac{\boldsymbol{w}^t\boldsymbol{S}_b\boldsymbol{w}}{\boldsymbol{w}^t\boldsymbol{S}_w\boldsymbol{w}}$
- $S_w=\sum\limits_{i=1}^2\sum\limits_{x\in D_i}(x-\mu_i)(x-\mu_i)^t$
- $S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^t$
PCA vs LDA:
- PCA: 无监督的成分分析方法，只考虑了样本集的整体分布，没有使用样本的类别信息
- LDA: 有监督的成分分析方法，根据 Fisher 准则寻找可分性最大意义的最优线性映射，充分保留样本的类别可分性信息

# 三、贝叶斯决策理论

$P(\omega_i|x)=\dfrac{p(x|\omega_i)p(\omega_i)}{p(x)}(posterior=\dfrac{likelihood\times prior}{evidence})$

基于最小错误率的贝叶斯决策：
- 最大后验概率： $i=arg\max_{1\le j\le c}P(\omega_j|x),\quad then\ x\in\omega_i$
基于最小风险的贝叶斯决策
- 将 $x$ 判为 $\omega_j$ 类的平均风险： $\gamma_j(x)=\sum\limits_{i=1}^c\lambda_{ij}P(\omega_i|x)$
- 最小平均风险准则： $i=\arg\max_{1\le j\le c}-\gamma_j(x),\quad then\ x\in\omega_i$

正态分布的贝叶斯分类器：

假设每个类别的类条件概率密度函数 $p(x|\omega_i)$ 都满足正态分布
$p(x)=\dfrac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^{\frac{1}{2}}}exp[-\frac{1}{2}(x-\mu)^t\Sigma^{-1}(x-\mu)]$
最小错误率贝叶斯函数的对数表示：
$g_i(x)=ln\ p(x|\omega_i)+ln\ P(\omega_i)$
情况一: $P(\omega_i)=1/c,\Sigma_i=\sigma^2\bold{I}$ 距离分类器
情况二: $\Sigma_i=\Sigma$ 线性分类器
情况三: $\Sigma_i$ 任意二次判别函数

朴素贝叶斯分类器：

协方差矩阵难以估计
假设样本的各位特征相互独立
$p(x|\omega_i)=\prod\limits_{j=1}^dp(x_j|\omega_i)=\prod\limits_{j=1}^d\{\dfrac{1}{\sqrt{2\pi}\sigma_{ij}}exp[-\dfrac{(x_j-\mu_{ij})^2}{2\sigma_{ij}^2}]\}$
$g_i(x)=ln\ P(\omega_i)-\sum\limits_{j=1}^dln\sigma_{ij}-\sum\limits_{j=1}^d\dfrac{(x_j-\mu_{ij})^2}{2\sigma_{ij}^2}$

# 三、非参数估计和参数估计

非参数估计 vs 参数估计：

非参数估计不需要任何关于分布的先验知识，适用性好；参数估计方法需要关于分布形式的先验知识，估计的准确程度依赖于先验知识是否准确
非参数估计能取得的准确的估计结果，需要的训练样本数量远多于参数估计；参数估计由于有先验知识的存在，参数估计方法使用比较少的训练数据就可以得到较好的估计结果

非参数估计：

Parzen 窗法：区域体积 $V$ 是总样本数 $n$ 的函数，如: $V_n=\dfrac{1}{\sqrt{n}}$
- 窗函数条件：
  - 满足以下函数： $\varphi(u)\ge0,\int\varphi(\boldsymbol{u})d\boldsymbol{u}=1$
  - 最常使用窗函数 Gauss 函数： $\varphi(\dfrac{x-x_i}{h_n})=\dfrac{1}{(h_n\sqrt{2\pi})^d}exp(-\dfrac{\lVert x-x_i\rVert^2}{2h_n^2})$
- 判断样本 $x_i$ 是否在超立方体 $R$ 内：
  $\varphi(\dfrac{x_i-x}{h_n})=\begin{cases}1, & x_i\in R \\ 0, & x_i\notin R\end{cases}$
- 超立方体内的样本数： $k_n=\sum_{i=1}^n\varphi(\dfrac{x-x_i}{h_n})$
- 概率密度函数的估计： $p(x)\approx\dfrac{k/n}{V}=\dfrac{1}{n}\sum_{i=1}^n\dfrac{1}{V_n}\varphi(\dfrac{x-x_i}{h_n})$
- Input: 训练集 $D$ ，窗函数 $\varphi(x)$ ，窗函数宽度 $h$
- Output: 待识别模式 $x$ 所属类别
- 1: 保存每个类别的训练样本集 $D_i=\{x_1^i,...,x^i_{n_i}\}$ ;
- 2:for $i=1$ to $c$ do
- 3: 计算 $\omega_i$ 类的概率密度函数值：
- $p(x|\omega_i)=\dfrac{1}{n_i}\sum\limits_{j=1}^{n_i}\dfrac{1}{V_n}\varphi(\dfrac{x-x_j}{h})$
K - 临近法：落在区域内的样本数 $k$ 是总样本数 $n$ 的函数，如:k_n=\sqrt
- Input: 训练集 $D=\{x_1,...,x_n\}$ ，参数 $k$
- Output: 待识别模式 $x$ 所属类别
- 1：计算待识别模式与每个训练样本的距离： $D(x,x_i)$
- 2：选择距离最小的前 $k$ 个样本，统计其中包括各个类别的样本数 $k_j$ ；
- 3：return $arg\max_{1\le j\le c}[k_j]$

参数估计：

最大似然估计：
$p(D|\theta)=p(x_1,x_2,...,x_n|\theta)=\prod\limits_{i=1}^np(x_i|\theta)$
- 对数似然函数： $l(\theta)=ln\ p(D|\theta)=\sum_{i=1}^nln\ p(x_i|\theta)$
- 求解优化问题： $\hat\theta=\arg\max_\theta l(\theta)$
- $\nabla_\theta l(\theta)=0$
- 一维正态分布的最大似然估计： $\hat\mu=\frac{1}{n}\sum\limits_{i=1}^nx_i$ ， $\hat\sigma^2=\frac{1}{n}\sum\limits_{i=1}^n(x_i-\hat\mu)^2$
- 多维正态分布的最大似然估计： $\hat\mu=\frac{1}{n}\sum\limits_{i=1}^nx_i$ ， $\Sigma=\frac{1}{n}\sum\limits_{i=1}^n(x_i-\hat\mu)(x_i-\hat\mu)^t$

# 四、高斯混合模型

GMM 可以看作是一种 "通用" 的概率密度函数

$p(x)=\sum\limits_{k=1}^M\alpha_kN(\boldsymbol{x};\boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)$

GMM 的最大似然估计
$\theta=(\alpha_1,...,\alpha_M,\mu_1,...\mu_M,\Sigma_1,...\Sigma_M)$
- EM 算法
  - 初始化参数
  - 根据参数估计隐变量的概率
  - 根据隐变量的概率，最大化模型的参数
  - 迭代直到满足收敛精度

举例：硬币 A 和 B，抛出正面的概率 $\theta_A$ 和 $\theta_B$ 未知

$Flips: HTTTHTHTH,HHHHTHHHHH,HTHHHHHTHH,HTHTTTHHTT,THHHTHHHTH$

使用 EM 算法进行求解：

假设抛出正面的概率 $\theta_A=0.6,\theta_B=0.5$

$E$ 步：

$P(Z_A|E)=\dfrac {P(E\vert Z_A)P(Z_A)}{P(E\vert Z_A)P(Z_A)+P(E\vert Z_B)P(Z_B)},P(Z_B|E)=\dfrac {P(E\vert Z_B)P(Z_B)}{P(E\vert Z_A)P(Z_A)+P(E\vert Z_B)P(Z_B)}$

$N\ heads$	$P(Z_A\vert E)$	$P(Z_B\vert E)$	$Head_A$	$Tail_A$	$Head_B$	$Tail_B$
5	0.45	0.55	2.2	2.2	2.8	2.8
9	0.8	0.2	7.2	0.8	1.8	0.2
8	0.73	0.27	5.9	1.5	2.1	0.5
4	0.35	0.65	1.4	2.1	2.6	3.9
7	0.65	0.35	4.5	1.9	2.5	1.1
		$Total$	21.3	8.6	11.7	8.4

$\theta_A^1=\dfrac{21.3}{21.3+8.6}=0.71,\theta_B^1=\dfrac{11.7}{11.7+8.4}=0.58$

以此类推

K-Means 聚类方法
Input: 数据集 $D_X=\{x_1,...,x_n\}$ ，聚类数 $K$
Output: 数据集的聚类标签D_Y=\
1、随机初始化聚类中心\
2、repeat
3、更新聚类标签：
$y_i=arg\min_{1\le k\le K}\lVert x_i-\boldsymbol{\mu}_k\rVert^2$
4、更新聚类中心：
$\mu_k=\dfrac{\sum_{i=1}^nI(y_i=k)x_i}{\sum_{i=1}^nI(y_i=k)}$
5、until $D_Y$ 不再改变

# 五、隐马尔可夫

在时刻 $t$ 由隐状态 $w(t)$ 输出观察值v(t)\in\
经过 $T$ 个时刻后，可以观察到 HMM 输出一个观察序列 $V^T=v(1)v(2)...v(T)$

隐马尔可夫模型：

模型参数: $\theta=(\pi,A,B)$
根据参数绘制模型
估值问题：
- 已知 HMM 模型参数 $\theta$ ，计算模型输出特定观察序列 $V^T$ 的概率 $P(V^T|\theta)$
  举例：
  $S=\{S_{sunny},S_{rainy}\}(Hidden\ States)$ , $O=\{O_{clean},O_{bike},O_{shop},O_{paint}\}(Observables)$
  $\pi=|0.6\ 0.4|(Initial\ Probabilities),A=\begin{vmatrix}0.8&0.2\\0.4&0.6\end{vmatrix}(Transition\ Probabilities)$
  $B=\begin{vmatrix}0.4&0.1&0.2&0.3\\0.3&0.45&0.2&0.05\end{vmatrix}(Emission\ Probabilities)$ 分别对应 $(paint,clean,shop,bike)$
  $O=\{O_{paint},O_{clean},O_{shop},O_{bike}\},P(O|\theta)=???$
- $Day1:P(O_1|sunny)=0.6\times0.4=0.24,P(O_1|rainy)=0.4\times0.3=0.12$
- $Day2:P(O_1O_2|sunny)=P(O_1|sunny)\times0.8\times0.1+P(O_1|rainy)\times0.4\times0.1=0.24\times0.8\times0.1+0.12\times0.4\times0.1=0.024\\P(O_1O_2|rainy)=P(O_1|sunny)\times0.2\times0.45+P(O_2|rainy)\times0.6\times0.45=0.24\times0.2\times0.45+0.12\times0.6\times0.45=0.054$
- $Day3:P(O_1O_2O_3|sunny)=P(O_1O_2|sunny)\times0.8\times0.2+P(O_1O_2|rainy)\times0.4\times0.2=0.00816\\P(O_1O_2O_3|rainy)=P(O_1O_2|sunny)\times0.2\times0.2+P(O_1O_2|rainy)\times0.6\times0.2=0.00744$
- $Day4:P(O_1O_2O_3O_4|sunny)=P(O_1O_2O_3|sunny)\times0.8\times0.3+P(O_1O_2O_3|rainy)\times0.4\times0.3=0.0028512\\P(O_1O_2O_3O_4|rainy)=P(O_1O_2O_3|sunny)\times0.2\times0.05+P(O_1O_2O_3|rainy)\times0.6\times0.05=0.0003048$
- $P(O|\theta)=0.0028512+0.0003048=0.003156$
解码问题：
- 已知 HMM 模型参数 $\theta$ ，计算最有可能的特定观察序列 $V^T$ 的隐状态转移序列 $W^T$
  举例：
  $S=\{S_{sunny},S_{rainy}\}(Hidden\ States)$ , $O=\{O_{clean},O_{bike},O_{shop},O_{paint}\}(Observables)$
  $\pi=|0.6\ 0.4|(Initial\ Probabilities),A=\begin{vmatrix}0.8&0.2\\0.4&0.6\end{vmatrix}(Transition\ Probabilities)$
  $B=\begin{vmatrix}0.4&0.1&0.2&0.3\\0.3&0.45&0.2&0.05\end{vmatrix}(Emission\ Probabilities)$ 分别对应 $(paint,clean,shop,bike)$
  $O=\{O_{shop},O_{clean},O_{bike},O_{paint}\},W=???$
  保存两个回溯数组 $\phi_{sunny}$ ,\phi_
- $Day1:P(O_1|sunny)=0.6\times0.2=0.12,P(O_2|rainy)=0.4\times0.2=0.08\\ \phi_{sunny}=[0,] , \phi_{rainy}=[0,]$
- $Day2:P(O_1O_2|sunny)=0.12\times0.8\times0.1+0.08\times0.4\times0.1=0.0096+0.0032$
  可以看到由 $sunny$ 转过来的概率更大，因此 $\phi_{sunny}=[0,sunny,]$
  $P(O_1O_2|rainy)=0.12\times0.2\times0.45+0.08\times0.6\times0.45=0.0108+0.0216$ ；
  可以看到由 $rainy$ 转过来的概率更大，因此 $\phi_{rainy}=[0,rainy,]$
- $Day3:P(O_1O_2O_3|sunny)=0.0096\times0.8\times0.3+0.0216\times0.4\times0.3=0.002304+0.002592$
  经过比较，从 $rainy$ 转过来的概率更大，因此 $\phi_{sunny}=[0,sunny,rainy,]$
  $P(O_1O_2O_3|rainy)=0.0096\times0.2\times0.05+0.0216\times0.6\times0.05=0.000096+0.000648$
  经过比较，从 $rainy$ 转过来的概率更大，因此 $\phi_{rainy}=[0,rainy,rainy,]$
- $Day4:P(O_1O_2O_3O_4|sunny)=0.002592\times0.8\times0.4+0.000648\times0.4\times0.4=0.00082944+0.00020736$
  经过比较，从 $sunny$ 转移过来的概率更大，因此 $\phi_{sunny}=[0,sunny,rainy,sunny]$
  $P(O_1O_2O_3O_4|rainy)=0.002592\times0.2\times0.3+0.000648\times0.6\times0.3=0.00015552+0.00011664$
  经过比较得到，从 $sunny$ 转移过来的概率更大，因此 $\phi_{rainy}=[0,rainy,rainy,sunny]$
- 经过最后计算，最后一天时， $sunny$ 的概率为 $0.00082944$ ， $rainy$ 的概率为 $0.00015552$
  因此 $W=[?,?,?,sunny]$
  开始回溯，最后一天是 $sunny$ ，所以从 $\phi_{sunny}$ 回溯，找到的是 $sunny$ ， $W=[?,?,sunny,sunny]$
  继续回溯，也是从 $\phi_{sunny}$ 找，找到 $rainy$ ， $W=[?,rainy,sunny,sunny]$
  继续回溯，这次从 $\phi_{rainy}$ 找，找到 $rainy$ ， $W=[rainy,rainy,sunny,sunny]$
  因此最后的答案就是 $W=[rainy,rainy,sunny,sunny]$
学习问题
- $Baum-Welch$ 算法（了解就行，出题的话计算量过大，多半不会考）

# 六、集成学习、聚类分析（除了红色标记，其他可以只做了解）

无监督学习：

在不知道训练样本的标记信息时，揭示训练数据的内在性质和规律
无监督学习中，训练样本的标记信息时未知的
学习的目标是要揭示训练数据的内在性质和规律

有监督学习与无监督学习区别 [.red]：

有监督学习有标签，无监督学习无标签，有监督学习是为了在训练集中找到规律，然后对测试数据集运用这种规律，达到分类的效果，而无监督学习寻找数据集中的规律性不一定要达到划分数据集的目的。

无监督学习的作用和应用：

揭示训练数据的内在性质和规律
应用：降维算法 (如 PCA)，聚类算法 (如 K-Means)，异常检测算法

聚类：

K-means
- 普通 K-means 算法
- 模糊 K 均值聚类
层次聚类
- AGNES 算法
聚类数的选择
- Dunn 指数："最小聚类间距" 除以 "最大聚类直径"
  - 聚类间距：聚类之间最近一对样本的距离
  - 聚类直径：类内距离最远的两个样本之间的距离
- Davies-Bouldin 指数：每个聚类与其他聚类之间的最大相似度的均值
  - 类内离散度：聚类均值之间的距离
  - 类内离散度：样本到聚类均值的均方距离度量
  - 类内相似度：类内离散度之和 / 类间离散度

竞争学习

竞争网络学习算法
SOFM 学习算法

集成学习：

Bagging：
- 自助法（Bootstrapping）
  - 从数据集 $D$ 中有放回地随机抽样 $n$ 个样本，构成训练集 $S$
  - 从数据集 $D$ 中有放回地随机抽样 $n$ 个样本，构成训练集 $T$
  - 重复若干次，计算平均的评估结果
- 通常来说，集成学习具有相似的偏差，但方差更低
- Random-Forrest
Boosting
- AdaBoost
  - 学习 $K$ 个基分类器，加权线性组合
  - 基分类器的权重 $\alpha_k$ 是算法学习得到的参数
  - 样本集的加权重采样
Stacking
- 可以将训练集分为两份，一份用来训练一级分类器，训练出来的一级分类器在另一份数据上进行预测，预测结果来训练元分类器
- 更健壮的方法：k - 折交叉验证，k-1 折用来训练一级分类器，另一折产生分类器的预测

模式识别