协方差(Covariance)是衡量两个变量之间相互关系密切程度的一个指标。给定两个随机变量X和Y,其协方差计算公式为:
[
text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])]
]
其中:
( E[X] ) 和 ( E[Y] ) 分别是随机变量X和Y的期望值。
( X - E[X] ) 和 ( Y - E[Y] ) 分别是随机变量X和Y与其期望值的离差。
( E[(X - E[X])(Y - E[Y])] ) 是所有可能的离差对的乘积的期望值。
具体计算步骤如下:
1. 计算随机变量X和Y的期望值 ( E[X] ) 和 ( E[Y] )。
2. 计算每个数据点与各自期望值的差值 ( X_i - E[X] ) 和 ( Y_i - E[Y] )。
3. 计算这些差值对的乘积 ( (X_i - E[X])(Y_i - E[Y]) )。
4. 求出这些乘积的期望值,即协方差 ( text{Cov}(X,Y) )。
公式也可以写成:
[
text{Cov}(X,Y) = frac{1}{n-1} sum_{i=1}^{n} (X_i - bar{X})(Y_i - bar{Y})
]
其中 ( n ) 是数据点的总数,( bar{X} ) 和 ( bar{Y} ) 分别是X和Y的样本均值。
示例
假设有两个变量X和Y,其数据点分别为:
[
X = [x_1, x_2, x_3, x_4]
]
[
Y = [y_1, y_2, y_3, y_4]
]
1. 计算X和Y的均值:
[
bar{X} = frac{1}{4} (x_1 + x_2 + x_3 + x_4)
]
[
bar{Y} = frac{1}{4} (y_1 + y_2 + y_3 + y_4)
]
2. 计算每个数据点与均值的差值:
[
X - bar{X} = [x_1 - bar{X}, x_2 - bar{X}, x_3 - bar{X}, x_4 - bar{X}]
]
[
Y - bar{Y} = [y_1 - bar{Y}, y_2 - bar{Y}, y_3 - bar{Y}, y_4 - bar{Y}]
]
3. 计算差值对的乘积并求和:
[
sum_{i=1}^{4} (X_i - bar{X})(Y_i - bar{Y})
]
4. 协方差为:
[
text{Cov}(X,Y) = frac{1}{4-1} sum_{i=1}^{4} (X_i - bar{X})(Y_i - bar{Y})
]
通过上述步骤,你可以计算出两个变量X和Y之间的协方差。协方差的值反映了两个变量之间的线性关系强度和方向:正值表示正相关,负值表示负相关,零表示无关。