Classification
Classification
: Given options(classes), the function outputs the correct one.
Probabilistic Generative Model
features and predict target
- 一共有7个features,其中
Total
=HP
+Attack
+Deffense
+SP Atk
+Sp Def
+Speed
- predict target: type of pokemon

How to do Classification
- 收集Training data for Classification
- 考虑如果做分类?
Classification as Regression?(分类问题是否可以用回归算法处理?)
以二分类举个例子
- Training: Class 1 means the target is 1; Class 2 means the target is -1
- Testing:
这样直接用Regression来解决Classification的问题,会发生如下图的情况:
- 当样本feature如左图所示,则
的函数可以很好的工作。 - 当样本feature如右图所示,由于右下角的数据,导致Regression的Loss函数在求最小值时,会倾向于给出紫色的线段的方程。即Loss函数会由于“太正确”而导致最终预测结果出错。
- Penalize to the examples that are “too correct” … (Bishop, P186)

Ideal Alternatives(理想的做法)
- Function (Model):
- Loss Function
- The number of times f get incorrect results on training data.
- The number of times f get incorrect results on training data.
- Find the best function:
- Example: Perceptron, SVM
Generative Model
是从两个分类中,随机选中Class1的几率, 是从两个分类中,随机选中Class2的几率。- 假设x为其中一种颜色的圆圈,则:
表示从Class1中选中x的几率, 表示从Class2中选中x的几率, - 选中x属于class1的几率就是:
- 选中x的总几率就是:
- Estimating the Probabilities From training data, 这整个想法就叫做Generative Model

Gaussian Distribution
- input: vector x, output: probability of sampling x(实际是probability density,概率密度与概率成正比,此处简略为概率)
- The shape of the function determines by mean
and covariance matrix (协方差矩阵)

Maximum Likelihood(找mean 和covariance matrix 的方法)
- mean
控制原点的位置。 - covariance matrix
决定图形的形状。 - 虽然图中左下角的点都可以求出相对于两个圈的概率,但是这两个概率的大小是不一样的。
- 给定一个Gaussian的
和 ,就可以求出对应的Likelihood:- 这里的每一个
展开,都是
- Maximum Likelihood:
为取x的平均值:

采用上诉方法得到的测试结果
features | test accuracy | |
---|---|---|
Defense ,SP Defense | 47% | |
All the 7 features | 54% |
Modifying Model (Ref: Bishop chapter 4.2.2)
- 给每一个Gaussian有一个自己的
和自己的covariance matrix 是很少见的 - 常见的做法是,不同的Class对应的Gaussian可以share相同的covariance matrix

模型修改后如何计算 和
- 假设有数量为n的class1,数量为m的class2
- likelihood:
- 如下图,
, 和原来一样计算: 的计算修改为:

模型修改后画出的图形
- 从原来的曲线,变成了一条直线
- 由于边界(boundary)是一条直线,所以这种模型也叫做Linear Model。
- 在这个模型下,考虑所有的7个features进行计算,则accuracy从原来的54%上升到73%
总结一下3个步骤
- Function Set(Model):
- Goodness of a function:
- The mean
and covariance that maximizing the likelihood(the probability of generating data)
- The mean
- Find the best function: easy
Probability Distribution
- You can always use the distribution you like
- 假设
构成Class1的x有K个,且K个x想对于Class1的几率是独立的,则: ,这个会得到1-D Gaussian,参数会进一步简化 - For binary features, you may assume they are from
Bernouli distributions
. - If you assume all the dimensions are independent, then you are using
Naive Bayes Classifier
.
Posterior Probability
- 设有表达式(1)上下同时除上表达式
得到表达式(2) - 设
,则表达式(2)变为表达式(3) - 表达式(3)和(4)等价,为
Sigmoid Function
求z
- 设
是Class1出现的次数, 是Class2出现的次数 - 表达式(3)和(4)为Gaussian的Distribution
- 表达式(5)上下同时除以
得到表达式(6)
求
- 当
时,表达式(1)变为表达式(2) - 设:
以及 则(2)可以推导为(3) - In generative model, we estimate
, then we have w and b.