统计学习方法 (基本概念)

损失函数和风险函数

损失函数(loss function),代价函数(cost function)

用来度量预测错误的程度。常用的如下:

  1. 0-1损失函数(0-1 loss function)
  2. 平方损失函数(quadratic loss function)
  3. 绝对损失函数(absolute loss function)
  4. 对数损失函数(logarithmic loss function)
  5. 对数似然损失函数(loglikelihood loss function)

?

由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是



模型f(X)关于联合分布P(X,Y)的平均意义下的损失称之为

风险函数(risk function)或期望损失(expected loss)

模型f(X)关于训练数据集的平均损失称为

经验风险(empirical risk)或经验损失(empirical loss)

?

期望风险是模型关于联合分布的期望损失

经验风险是模型关于训练样本集的平均损失

根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险

所以一个很自然的想法是用经验风险估计期望风险。要对经验风险矫正

这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化

?

经验风险最小的模型是最优的模型,当样本大,经验风险最小化能保证有很好的学习效果,

比如,极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子,

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计

?

结构风险最小化是为了防止过拟合而提出来的策略。

结构风险最小化等价于正则化(regularization)。

结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)

复杂度表示了对复杂模型的惩罚用以权衡经验风险和模型复杂度。

结构风险小需要经验风险与模型复杂度同时小

?

?

过拟合与模型选择

如果追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高

这种现象称为过拟合(over-fitting)。

过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,

但对未知数据预测得很差的现象。可以说模型选择旨在避免过拟合并提高模型的预测能力。

?

正则化

模型选择的典型方法是正则化。

正则化是结构风险最小化策略的实现,经验风险上加一个正则化项或罚项

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大

比如,正则化项可以是模型参数向量的范数。

正则化的作用是选择经验风险与模型复杂度同时较小的模型。

正则化符合奥卡姆剃刀(Occam‘s razor)原理。

奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够

很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。

从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。

可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。

?

?

生成模型与判别模型

生成方法(generative approach)和判别方法(discriminative approach)。

所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型

典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型

k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等

生成特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能

生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;

当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;

由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

?

?

?

?

?

?

?

?

?

?

?

时间: 06-08

统计学习方法 (基本概念)的相关文章

统计学习方法(一)(李航)

统计学习方法概论: (一),统计学习 1,统计学习的特点 2,统计学习的对象 3,统计学习的目的 4,统计学习的方法 (二),监督学习重要概念 1,输入空间,特征向量空间,输出空间 (三),统计学习三要素 1,模型 决策函数模型: 条件概率模型: 2,策略 2.1 损失函数: 2.2 经验风险最小化和结构最小化 如贝叶斯估计的最大后验概率就是一种结构风险最小化的一个例子 3,算法 (四)模型评估选择 1,训练误差和测试误差 2,过拟合 过拟合和欠拟合产生的原因及解决方式: 欠拟合的原因:模型复杂

机器学习-李航-统计学习方法学习笔记之感知机(2)

在机器学习-李航-统计学习方法学习笔记之感知机(1)中我们已经知道感知机的建模和其几何意义.相关推导也做了明确的推导.有了数学建模.我们要对模型进行计算. 感知机学习的目的是求的是一个能将正实例和负实例完全分开的分离超平面.也就是去求感知机模型中的参数w和b.学习策略也就是求解途径就是定义个经验损失函数,并将损失函数极小化.我们这儿采用的学习策略是求所有误分类点到超平面S的总距离.假设超平面s的误分类点集合为M,那么所有误分类点到超平面S的总距离为 显然损失函数L(w,b)是非负的,如果没有误分

统计学习方法概论

统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也称为统计机器学习(statical machine learning). 统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析.统计学习由监督学习.非监督学习.半监督学习和强化学习等组成. 统计学习方法包括假设空间.模型选择的准则.模型学习的算法,这些统称为统计学习方法的三要素:模型(Model).策略(Strategy).算法(Algorithm). 实现统计学习方法的步骤如下:

统计学习方法 –> 支持向量机

前言 定义: 在特征空间上间隔最大的线性分类器. 核是SVM非常重要的一个特性. 支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题. 分类 1>线性可分支持向量机 2>线性支持向量机 3>非线性支持向量机 如果训练数据线性可分,那么可以通过硬间隔最大化,学习一个线性分类器,就是线性可分支持向量机,就是硬间隔支持向量机. 类似,如果训练数据近似线性可分,那么可以通过软间隔最大化来学习一个线性的分类器.成为软间隔支持向量机. 训练数据线性不可分的时候,就必须动用核函数来

统计学习方法笔记--监督学习

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测,计算机的基本操作就是给定一个输入产生一个输出. 基本概念:输入空间.特征空间与输出空间 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space). 每个具体的输入是一个实例(instance),通常有特征向量(feature vector)表示.这时,所有特征向量存在的空间称为特征空间(featur

1 统计学习方法基础

1.1 统计学习 概念 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科,统计学习也成为统计机器学习(statistical machine learning). 特点 统计学习将数据作为研究对象,是数据驱动的学科 统计学习的目的是对数据进行预测和分析 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析.包括监督学习,非监督学习,半监督学习,强化学习等. 1.2 监督学习 概念 从给定的, 有限的,

统计学习方法--机器学习概论

(本章主要参考李航老师的<统计学习方法>,其次是周志华老师的<机器学习>.通过自己的阅读,提炼出书中的知识点以及些许自己部分的理解(可能不到位),巩固所学知识.) 统计学习方法概论 本章简要叙述统计学习方法的一些基本概念.首先许如统计学习的定义.研究对象与方法:然后叙述监督学习:接着提出统计学习方法的三要素:介绍模型选择:介绍生成模型与判别模型:最后介绍监督学习方法的应用:分类问题.标注问题与回归问题. 以下是目录结构: 一. 统计学习 二. 监督学习 三.统计学习三要素 四. 模

统计学习方法 SVM理解

1. 算法思想 对线性可分的情形:通过最大化硬间隔(几何间隔),找出最佳分离超平面,从而分类数据 对弱线性可分情形:最大化软间隔(通过加一个松弛因子),找出分离超平面,分类数据 线性不可分的情形:通过核技巧把原始数据映射到高维空间,转化为线性可分的情形,然后继续求解. 2. 算法推导 (1)函数间隔与几何间隔 几何间隔:空间数据样本点到超平面的距离 (2)比较详细的推导过程 我分为五步推导SVM: <1>写出目标损失函数(拉格朗日乘子法) <2>转化为对偶问题求解 <3>

统计学习方法与Python实现(三)——朴素贝叶斯法

统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布.然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y,从而进行决策分类. 朴素贝叶斯法学习到的是生成数据的机制,属于生成模型. 设Ω为试验E的样本空间,A为E的事件,B1~Bn为Ω的一个划分,则

统计学习方法笔记(1)——统计学习方法概论

1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科. 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提. 统计学习的目的就是考虑学习什么样的模型和如何学习模型. 统计学习