久久亚洲精品久久国产一区二区,西西裸体做爰视频,欧美一区二区三区大片

在之前的博客人臉識別經典算法一：特征臉方法（eigenface）里面介紹了特征臉方法的原理，但是并沒有對它用到的理論基礎pca做介紹，現在做補充。請將這兩篇博文結合起來閱讀。以下內容大部分參考自斯坦福機器學習課程：http://cs229.stanford.edu/materials.html

假設我們有一個關于機動車屬性的數據集{x(i);i=1,...,m}（m代表機動車的屬性個數），例如最大速度，最大轉彎半徑等。假設x(i)本質上是n維的空間的一個元素，其中n<<m，但是n對我們來說是未知的。假設xi和xj分別代表車以英里和公里為單位的最大速度。顯然這兩個屬性是冗余的，因為它們兩個是有線性關系而且可以相互轉化的。因此如果僅以xi和xj來考慮的話，這個數據集是屬于m-1維而不是m維空間的，所以n=m-1。推廣之，我們該用什么方法降低數據冗余性呢？

首先考慮一個例子，假設有一份對遙控直升機操作員的調查，用x(i)1（1是下標，原諒我這操蛋的排版吧）表示飛行員i的飛行技能，x(i)2表示飛行員i喜歡飛行的程度。通常遙控直升飛機是很難操作的，只有那些非常堅持而且真正喜歡駕駛的人才能熟練操作。所以這兩個屬性x(i)1和x(i)2相關性是非常強的。我們可以假設兩者的關系是按正比關系變化的，如下圖里的u1所示，數據散布在u1兩側是因為有少許噪聲。

特征臉(Eigenface)理論基礎之PCA主成分分析法

接下來就是如何計算u1的方向了。首先我們需要預處理數據。

1.令特征臉(Eigenface)理論基礎之PCA主成分分析法

2.用x(i)-μ替代x(i)

3.求特征臉(Eigenface)理論基礎之PCA主成分分析法

4.用x(i)j/σj替代x(i)j

步驟1-2其實是將數據集的均值歸零，也就是只取數據的偏差部分，對于本身均值為零的數據可以忽略這兩步。步驟3-4是按照每個屬性的方差將數據重新度量，也可以理解為歸一化。因為對于不同的屬性（比如車的速度和車座數目）如果不歸一化是不具有比較性的，兩者不在一個量級上。如果將pca應用到圖像上的話是不需要步驟3-4的，因為每個像素（相當于不同的屬性）的取值范圍都是一樣的。

數據經過如上處理之后，接下來就是尋找數據大致的走向了。一種方法是找到一個單位向量u，使所有數據在u上的投影之和最大，當然數據并不是嚴格按照u的方向分布的，而是分布在其周圍。考慮下圖的數據分布（這些數據已經做了前期的預處理）。

特征臉(Eigenface)理論基礎之PCA主成分分析法

下圖中，星號代表數據，原點代表數據在單位向量u上的投影（|x||u|cosθ）

特征臉(Eigenface)理論基礎之PCA主成分分析法

從上圖可以看到，投影得到的數據仍然有很大的方差，而且投影點離原點很遠。如果采取與上圖u垂直的方向，則可以得到下圖：

特征臉(Eigenface)理論基礎之PCA主成分分析法

這里得到的投影方差比較小，而且離原點也更近。

上述u的方向只是感性的選擇出來的，為了將選擇u的步驟正式確定下來，可以假定在給定單位向量u和數據點x的情況下，投影的長度是xtu。舉個例子,如果x(i)是數據集中的一個點（上圖中的一個星號），那它在u上的投影xtu就是圓點到原點的距離（是標量哦）。所以，為了最大化投影的方差，我們需要選擇一個單位向量u來最大化下式：

特征臉(Eigenface)理論基礎之PCA主成分分析法