发新帖回复

javaee

普通会员

225648 帖子	355 回复	369 积分

[其它] 期望、方差、协方差与相关系数

楼主

发表于 2019-11-04 09:15:40 | 查看: 610 | 回复: 1

定义：设离散型变量XXX的分布律为P{X=xk}=pk,k=1,2,⋯ .P\{X={x_k}\}={p_k},\begin{array}{c}{}&{k=1,2,\cdots.}\end{array}P{X=xk}=pk,k=1,2,⋯.随机变量XXX的数学期望为E(X)=∑k=1∞xkpkE(X)=\sum\limits_{k=1}^\infty{{x_k}{p_k}}E(X)=k=1∑∞xkpk设连续型随机变量XXX的概率密度为f(x)f(x)f(x)，XXX的数学期望为E(X)=∫−∞∞xf(x)dxE(X)=\int_{-\infty}^\infty{xf(x)dx}E(X)=∫−∞∞xf(x)dx一般的期望也称均值，但是二者有不同。

期望和均值的不同？

期望是一个概率论概念，均值是一个统计学概念。

均值是实验后根据实际结果统计得到的样本的平均值，期望是实验前根据概率分布来预测样本的均值。所以可以说期望是均值随样本趋于无穷的极限。

方差

方差用来度量随机变量XXX与均值E(X)E(X)E(X)的偏离程度。

定义：设XXX是一个随机变量，若E{[X−E(X)]2}E\{{[X-E(X)]^2}\}E{[X−E(X)]2}存在，则称E{[X−E(X)]2}E\{{[X-E(X)]^2}\}E{[X−E(X)]2}为XXX的方差，记为D(X)D(X)D(X)或Var(X)，即D(X)=Var(X)=E{[X−E(X)]2}{\rm{D(X)=Var(X)=}}E\{{[X-E(X)]^2}\}D(X)=Var(X)=E{[X−E(X)]2}引入D(X)\sqrt{{\rm{D(X)}}}D(X)，记为σ(X)\sigma(X)σ(X)，称为标准差或者均方差。

离散型随机变量：D(X)=∑k=1∞[x−E(X)]2pk{\rm{D(X)=}}\sum\limits_{k=1}^\infty{{{[x-E(X)]}^2}{p_k}}D(X)=k=1∑∞[x−E(X)]2pk其中pkp_kpk是XXX的分布律

连续型随机变量：D(X)=∫−∞∞[x−E(X)]2f(x)dx{\rm{D(X)=}}\int_{-\infty}^\infty{{{[x-E(X)]}^2}f(x)dx}D(X)=∫−∞∞[x−E(X)]2f(x)dxf(x)f(x)f(x)是XXX的概率密度。

随机变量XXX的方差可以用下面的公式计算：D(X)=E(X2)−[E(X)]2D(X)=E(X^2)-[E(X)]^2D(X)=E(X2)−[E(X)]2

协方差与相关系数

定义：E{[X−E(X)][Y−E(Y)]}E\{[X-E(X)][Y-E(Y)]\}E{[X−E(X)][Y−E(Y)]}称为随机变量XXX与YYY的协方差，记为Cov(X,Y)Cov(X,Y)Cov(X,Y)即：Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}而ρXY=Cov(X,Y)D(X)D(Y){\rho_{XY}}=\frac{{Cov(X,Y)}}{{\sqrt{{\rm{D(X)}}}\sqrt{{\rm{D(Y)}}}}}ρXY=D(X)D(Y)Cov(X,Y)称为随机变量XXX与YYY的相关系数。

协方差可以用于衡量数据直接的相关性，设有数据XXX和数据YYY，通过计算二者的协方差可以有下面的三种情况：

Cov(X,Y)>0Cov(X,Y)>0Cov(X,Y)>0时，XXX、YYY正相关，即两者有同时增加或者减少的倾向Cov(X,Y)<0Cov(X,Y)<0Cov(X,Y)<0时，XXX、YYY正相关，即两者有反向增加或者减少的倾向Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y)=0时，XXX、YYY不相关

那么相关系数又是干嘛的呢，假如我们有身高、体重、年龄这三组数据，我们想比较一下到底是身高与体重的相关性大，还是年龄与体重的相关性大？那我们计算身高、体重会有一个单位（厘米.公斤）的度量，计算年龄、体重也会有一个单位（岁.公斤）度量，这样的话单位不统一就没有评价的标准。通过计算他们的相关系数，就可把单位消掉，忽略它们各自不同的度量，就可以归一化到-1和1之间的值进行比较。

[其它] 期望、方差、协方差与相关系数

相关帖子