转 通俗理解 最小二乘 和 最大似然估计

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。

就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。

作者:知乎用户
链接:https://www.zhihu.com/question/20447622/answer/23848605
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

时间: 05-29

转 通俗理解 最小二乘 和 最大似然估计的相关文章

最小二乘法和最大似然估计

一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}.而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>.一般用于线性回归中获得参数进行拟合.而梯度下降方法主要用于逻辑回归分类问题中寻找最佳参数. 二:最小二乘法: 基本思想: 简单地说,最小二乘的思想就是要使得观测点和估计点的距离

如何通俗的理解极大似然估计

我昨天晚上买了一罐八宝粥 在里面找了半天桂圆 一般一罐八宝粥是有一颗桂圆的 我们现在可以通过数这一罐八宝粥中的各种原料的颗数 来推测 厂家在生产的时候的 原料的配比 这里的理论依据是就是极大似然估计 似然 是 像这个样子的意思 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果(我手中的八宝粥)出现的模型参数值(厂家原料配比)! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:"模型已定,参数未知". 原文地址:ht

通俗理解LDA主题模型(boss)

0 前言 看完前面几篇简单的文章后,思路还是不清晰了,但是稍微理解了LDA,下面@Hcy开始详细进入boss篇.其中文章可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布.多项分布.beta分布.Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA.LDA(在本文第4 部分阐述) 一个采样:Gibbs采样 本文便按照上述5个步骤来阐述,希望读者看完本文后,能对LDA有个尽量清晰完整的了解.同时,本文基于邹博讲LDA的PPT.rickjin的LDA

『科学计算_理论』最大似然估计

概述 通俗来讲,最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值. 重要的假设是所有采样满足独立同分布. 求解模型参数过程 假如我们有一组连续变量的采样值(x1,x2,-,xn),我们知道这组数据服从正态分布,标准差已知.请问这个正态分布的期望值为多少时,产生这个已有数据的概率最大? P(Data | M) = ? 根据公式 可得: 对μ求导可得 ,则最大似然估计的结果为μ=(x1+x2+-+xn)/n 由上可知最大似然估计的一般求解过程: (1) 写出似然函数

机器学习2-极大似然估计与贝叶斯估计

参数估计:最大似然.贝叶斯与最大后验 为什么会有参数估计呢?这要源于我们对所研究问题的简化和假设.我们在看待一个问题的时候,经常会使用一些我们所熟知的经典的模型去简化问题,就像我们看一个房子,我们想到是不是可以把它看成是方形一样.如果我们已经知道这个房子是三间平房,那么大体上我们就可以用长方体去描述它的轮廓.这个画房子的问题就从无数的可能性中,基于方圆多少里大家都住平房的经验,我们可以假设它是长方体,剩下的问题就是确定长宽高这三个参数了,问题被简化了.再如学生考试的成绩,根据既往的经验,我们可以

通俗理解数据库隔离机制

=========================================== 原文链接: 通俗理解数据库隔离机制   转载请注明出处! =========================================== 在理解数据库隔离机制的时候发现网上很多文章都是千篇一律,解释语言太过于标准书面化,描述的晦涩难懂,因果关系模糊.在这里将自己对隔离机制的理解描述一下,力争做到能够通过浅显的语言描述出来. 数据库隔离机制是对于多线程同时操作数据库而言的.对于单线程操作数据库不存在所谓

极大似然估计

极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况? 举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估计的方法就可以用这些样本数据就可估计出正态分布中参数.概括起来说,就是用样本来估计总体情况,(调查问卷.人口普查等等其实就暗含这个原理). 假设总体X的分布为f(x:θ1,...θn),其中θ是未知

【MLE】最大似然估计Maximum Likelihood Estimation

模型已定,参数未知 最大似然估计提供了一种给定观察数据来评估模型参数的方法,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知.我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差. 最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的.下面我们具体描述一下最大似然估计: 首先,假设为独立同分布的采样,θ为模型参数,f为我们所使用的模型,遵循我们上述的独

【机器学习】(3)拟合度与最大似然估计

在大致了解了机器学习的算法分类(监督式.非监督式以及增强学习)和梯度算法后,今天我们来了解下拟合度和最大似然估计的相关问题. 一.最小二乘法的拟合度 监督式学习中一类典型的应用就是回归问题,基本的就是线性回归,即用一条直线去逼近训练集合.最小二乘法就是根据已有的训练集样本来确定拟合度最好的函数 曲线.但是由于选择一个什么样的曲线是人工决定的,而不同的曲线又具有不同的性质,从而导致不同函数模型使用最小二乘法的拟合度是不同的.以一个m个样本 的房屋价格和大小数据M为例,我们可以选择线性回归(用一条直