协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。简单来讲,当协方差为正时,两个变量呈正相关关系(同增同减);当协方差为负时,两个变量呈负相关关系(一增一减)。
而协方差矩阵,只是将所有变量的协方差关系用矩阵的形式表现出来而已。通过矩阵这一工具,可以更方便地进行数学运算。
协方差与相关系数
协方差的公式如下:
公式可以理解为:如果有 $X,Y$ 两个变量,每个时刻的“ $X$ 与其均值之差”乘以“ $Y$ 值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,简单认为就是求均值了)。
相关系数公式如下:
公式翻译一些:就是用 $X$、$Y$的协方差除以 $X$ 的标准差和 $Y$ 的标准差。 所以,相关系数也可以看成一种剔除了两个变量量纲影响、归一化后的特殊协方差。既然是一种特殊的协方差,那它:也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。但由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
为了能准确的研究两个变量在变化过程中的相似程度,我们就要把变化幅度对协方差的影响,从协方差中剔除掉。
$\eta$ 的取值范围是 $[-1,1]$ 。1表示完全线性相关,-1表示完全线性负相关,0表示线性无关。线性无关并不代表完全无关,更不代表相互独立。
更多可视化理解请移步如何通俗易懂地解释「协方差」与「相关系数」的概念? 。
样本的协方差
在实际中,通常我们手头会有一些样本,样本有多个属性,每个样本可以看成一个多维随机变量的样本点,我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系的参数,由于不知道具体的分布,只能通过样本来进行估计。
设样本对应的多维随机变量为 $\textbf X=[X_1, X_2, X_3, …, X_n]^T$,样本集合为 $\{\textbf x_{\cdot j}=[x_{1j},x_{2j},…,x_{nj}]^T|1\leqslant j\leqslant m\}$ ,$m$ 为样本数量。与样本方差的计算相似,$a$ 和 $b$ 两个维度样本的协方差公式为,其中 $1\leqslant a\leqslant n,1\leqslant b\leqslant n$,$n$ 为样本维度
这里分母为 $m-1$ 是因为随机变量的数学期望未知,以样本均值代替,自由度减一。
协方差矩阵
协方差本身就能够处理二维问题,两个变量的协方差矩阵并没有实际意义,不过为了方便后面多维的推广,我们还是从二维开始。
假设我们有 4 个样本,每个样本都有两个变量,也就是两个特征,它们表示如下:
用一个矩阵表示为:
现在,我们用两个变量空间 $X,Y$ 来表示这两个特征:
由于协方差反应的是两个变量之间的相关性,因此,协方差矩阵表示的是所有变量之间两两相关的关系,具体来讲,一个包含两个特征的矩阵,其协方差矩阵应该有 $2 \times 2$ 大小:
接下来,就来逐一计算 $Cov(Z)$ 的值。
首先,我们需要先计算出 $X,Y$ 两个特征空间的平均值:$\overline x=3.25,\overline y=3$。
然后,根据协方差的数学定义,计算协方差矩阵的每个元素:
所以协方差矩阵
虽然这只是一个二维特征的例子,但我们已经可以从中总结出协方差矩阵 $\Sigma$ 的「计算套路」:
独立变量的协方差
以上的讨论都是针对一般情况进行计算的,毕竟变量互相独立的情况较少。
如果两个变量 $X, Y$ 独立,那么它们的协方差 $Cov(X,Y) = 0$。简要证明如下(简单起见,假设变量是离散的):
由于 $X, Y$ 独立,所以它们的概率密度函数满足:$p(x,y)=p_x(x)p_y(y)$。
求出期望:
利用协方差的另一个公式:$Cov(X,Y)=E(X,Y)-E(X)E(Y)$,可以推出,当 $X, Y$ 相互独立时,$Cov(X, Y)=0$。
这时,协方差矩阵就变成一个对角矩阵了:
协方差矩阵的作用
作为一种数学工具,协方差矩阵经常被用来计算特征之间的某种联系。在机器学习的论文中,协方差矩阵的出现概率还是很高的,用于降维的主成分分析法(PCA)就用到了协方差矩阵。另外,由于协方差矩阵是一个对称矩阵,因此它包含了很多很有用的性质,这也导致它受青睐的程度较高。
参考文献
[1]. 协方差与协方差矩阵
[2]. 协方差矩阵
[3]. 如何通俗易懂地解释「协方差」与「相关系数」的概念?