基本概念
比如在贝叶斯概率计算中,我们总是利用先验概率来计算后验概率,样本太大,我们总是利用采样的方法来计算先验概率,但为什么采样得到的概率分布就能代替总的样本概率分布呢,其背后就用到了极大似然估计的思想,因为在得到采集样本这个事件A的条件下,只有总样本也满足相同的概率分布,这个事件A发生的可能性才达到最大值。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:
$$
D = \{x_1 , x_2,…,x_N\}
$$
似然函数(likelihood function): 联合概率密度函数$p(D|\theta)$ 称为相对于$\{x_1,x_2,…,x_N\}$的$\theta$的似然函数。那么在所有x都是在同一分布下满足独立同分布采样的前提下,可得
$$
L(\theta) = p(D|\theta) = p(x_1,x_2,…,x_N | \theta) = \prod_{i=1}^Np(x_i|\theta)
$$
对数似然:
$$
\ln L(\theta) = \sum_{i=1}^N\ln (p(x_i|\theta))
$$
如果$\hat \theta$是参数空间中能使似然函数$L(\theta)$最大的$\theta$值,则$\hat \theta$应该是“最可能”的参数值,那么$\hat \theta$就是$\theta$的极大似然估计量。
$$
\hat \theta = arg \max _{\theta} L(\theta) = arg \max _{\theta} \ln L(\theta)
$$
Example
Example 1
Question:
栖息于某地区的动物个体总数N是未知的,为了得到对栖息地动物个体总数目的大致估计,生态学家们常常进行如下的实验。他们现在这个地区捕捉一些动物,例如说m个,然后标上记号就放掉它们。过一段时间,当这些标有记号的动物充分散布到整个地区后,再捉一批,例如说n个。设X为第二批捉住的n个动物中标过记号的动物个数。如果假设两次捕捉期间动物的总数没有发生变化,而且捉住每一只动物的可能性是一样的,那么X为一超几何随机变量,满足
$$
P\{X = i\} = \frac{\binom{m}{i} \binom{N-m}{n-i}}{\binom{N}{n}} \equiv P_i(N)
$$
求这个地区动物最可能为多少个
Solution
现在假定i为X的观测值。那么,因为$P_i(N)$表示该地区事实上总共有N个动物的条件下的观测事件X取值的概率,故使$P_i(N)$达到最大值的N值应当是动物个体总数N的一个合理估计。这样的估计称为极大似然估计(maximum likelihood).
求$P_i(N)$最大值的最简单方法是:首先注意
$$
\frac{P_i(N)}{P_i(N-1)} = \frac{(N-m)(N-n)}{N(N-m-n+i)}
$$
要使上述比值大于1,当且仅当
$$
(N-m)(N-n) \ge N(N-m-n+i)
$$
也就是等价于
$$
N \le nm/i
$$
Example 2
Question 2
概率模型中离散的情况,人口比例。
假设现在有一个中国人口的样本组,样本容量为1000,服从独立同分布,男女比例为3:2。如何通过合理推理估计全国的人口比例(也就是证明样本估计总体的可行性)。
Solution
这里很容易理解为从中国人口中独立同分布采样了1000个样本$x_1,x_2,…,x_{1000}$,最后样本中包含的男女比例为3:2,每个样本都服从独立同分布采样的,令中国人口实际的男女比例为p,那么似然函数可以按照如下所写:
$$
L(x_1,x_2,…,x_{1000}; p) = p(x_1,x_2,…,x_{1000} | p) = \prod_{i=1}^{1000} p(x_i | p) = p^{600}(1-p)^{400} \\
对数似然:\ln L(x_1,x_2,…,x_{1000} ; p) = 600 \ln p + 400 \ln(1-p) \\
$$
我们希望找到满足概率最大情况下的参数p的值,也就是$p = \hat p$,使得$\ln L$最大。那么我们可以通过求导:
$$
\frac{\partial \ln L}{\partial p} = 600/p - 400/(1-p)
$$
所以p = 0.6时,导数为0,似然函数达到最大值,中国人口男女比例3:2,和样本采样得到结果一致。
Example 3
Question:
在连续型变量上进行极大似然估计高斯分布的均值和方差。
假设我们有一组来自高斯分布(均值和方差未知)的独立样本$x_1,x_2,…,x_N$
$x_i \thicksim \mathcal N(\mu , \sigma^2) , i=1,2,…,N$
利用极大似然估计求解高斯分布的均值($\mu$)和方差($\sigma$)
Solution
高斯分布的密度函数定义如下:
对于一个$\mathcal N(\mu , \sigma^2)$的高斯分布,密度函数表示为$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}$
因为是满足独立同分布的,那么似然函数可以写成如下
$$
L(x_1,x_2,…,x_N; \mu,\sigma^2) = \prod_{i=1}^N f(x_i ; \mu , \sigma^2) = \frac{1}{(\sqrt{2\pi}\sigma)^N}\exp(\sum_{i=1}^N{-(x_i-\mu)^2/2\sigma^2}) \\
\ln L = -N \ln (\sqrt{2\pi}\sigma) + \sum_{i=1}^N{-(x_i-\mu)^2/2\sigma^2} = -N \ln (\sqrt{2\pi}\sigma) - \frac{1}{2\sigma^2}(\sum_{i=1}^Nx_i^2 - 2\mu\sum_{i=1}^Nx_i + N\mu^2)
$$
分别将lnL对$\mu$和$\sigma$求导,找到满足的$\hat \mu$和$\hat \sigma$使得似然函数达到最大值
$$
\frac{\partial \ln L}{\partial \mu} = \frac{\sum_{i=1}^Nx_i}{\sigma^2} - \frac{N\mu}{\sigma^2} = 0 \rightarrow \mu = \frac{\sum_{i=1}^Nx_i}{N} \\
\frac{\partial \ln L}{\partial \mu} = -N/\sigma - \frac{1}{\sigma ^3} \sum_{i=1}^N-(x_i-\mu)^2 = 0 \rightarrow \sigma^2 = \frac{\sum_{i=1}^N(x_i-\mu)^2}{N}
$$
Reference
http://blog.csdn.net/zengxiantao1994/article/details/72787849