馬氏距離理解

2022-11-24 18:51:13 字數 995 閱讀 4235

在介紹馬氏距離之前先看下幾個概念:

1 方差:標準差的平方,反映了資料集中資料的離散程度

2 協方差:標準差與方差是衡量一維資料的,當存在多維資料時,要知道每個維度的變數之間是否存在關聯,就需使用協方差.協方差是衡量多維資料中,變數之間的相關性.若兩個變數之間的協方差為正值,則兩個變數間存在正相關,若為負值,則為負相關.

3 協方差矩陣:當變數多了,超過兩個了,我們就是用協方差矩陣衡量多變數之間的相關性.

什麼是馬氏距離呢?

馬氏距離與歐式距離不同的是,它考慮到各種特性之間的聯絡,並且與尺度無關.

當協方差矩陣是單位陣的時候,馬氏距離簡化為歐氏距離,若協方差矩陣是對角陣時 ,簡化為標準化的歐式距離.

馬氏距離特性:

1.量綱無關,排除變數之間的相關性的干擾;

2.馬氏距離的計算是建立在總體樣本的基礎上的,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;

3 .計算馬氏距離過程中,要求總體樣本數大於樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐式距離計算即可。

4.還有一種情況,滿足了條件總體樣本數大於樣本的維數,但是協方差矩陣的逆矩陣仍然不存在,比如三個樣本點(3,4),(5,6),(7,8),這種情況是因為這三個樣本在其所處的二維空間平面內共線。這種情況下,也採用歐式距離計算。

馬氏距離與歐式距離: