AMMAI

Fisher Vector簡介

這禮拜因為要上台報告,發現如果沒好好弄懂這東西可能會講不清楚,想說既然有機會那就好好地學一下這個技巧,畢竟由其衍生出來的VLAD聽說是在深度學習出來前,分類準確率最高的image representation方法。

先附上兩個可以供參考的資源:

http://blog.csdn.net/breeze5428/article/details/32706507

http://www.duzhongxiang.com/fisher-vector/

不過最後幫助我弄懂的還是”Fisher Kernel on Visual Vocabularies for Image Categorization”這篇第一個把Fisher Kernel用在影像分類上的論文,如果不排斥的話,還是去看看會比較好。

先不講數學,主要觀念比較重要。Fisher Vector主要的概念是,我先用GMM來model一張影像的local descriptor分佈,所以對不同的影像來說,我都只需要用GMM就可以描述,也就是說每張影像都可以被表現成一個維度一樣的向量(維度就等於GMM的parameter數)。這邊厲害的地方在於,原本每張影像所取出的local descriptor數都不盡相同,但因為用GMM描述,就可以讓每一張影像被表示成維度相同的向量。

但Fisher Vector沒有這麼單純,他不是單純用GMM的每個參數值來表示一張影像,他是先定義一個function,這個function定義了一張影像跟GMM對這張影像的model的相似程度。然後藉由對GMM每個參數做偏微分,就可以得到每個參數變化一點點,這張影像跟GMM對這張影像的model的相似程度的變化量,把每個偏微分都定義成Vector的一個維度,就可以得到一個長度還是跟參數量一樣的Vector。最後,為了分類器的需求,再把這個vector用Fisher Information Matrix做完normalization,就可以得到Fisher vector了。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s