AMMAI

AMMAI(Week 15) – What does classifying more than 10,000 image categories tell us?

Paper Info

“What does classifying more than 10,000 image categories tell us?,” J. Deng, A. C. Berg, K. Li, and L. Fei-Fei, ECCV 2010.

Motivation

人類可以辨識的物體種類有成千上萬種,那如果嘗試讓電腦來辨識這麼多種的物體,會出現哪些問題?這是這篇論文主要想探討的問題。

Technical Summary&Experiment

因為這篇論文比較是討論性質的,所以重點在實驗,所以把Technical Summary跟Experiment合在一起寫。

使用的Datasets

ImageNet10K, ImageNet7K, ImageNet1K, Rand200, Ungulate183, Fungus134, Vehicle262, CalNet200

Evaluation的方法

mean accuracy, mean misclassfication cost(例如把狗分類成貓跟把狗分類成汽車的錯誤程度是不同的)

分類演算法

GIST+NN, BOW+NN, BOW+SVM, SPM+SVM

運算時間的分析

這邊他們做了滿多種方法的分析,但發現有很多方法,光是訓練分類器就要花上以年為單位的時間,然後testing需要數小時來跑完全部影像的分類,所以他們有試著去用平行運算來處理,發現如果用66個CPU的叢集一起算,只要幾個禮拜就可以訓練完,所以他們認為需要平行運算才能處理這麼多類的物體分類問題。

類別數量的分析

當類別數量增加,準確度會下降,實驗結果在下圖中呈現,有趣的地方是,原本在比較少類別的資料中表現較好的SVM居然在類別變多時輸給了簡單的NN方法。他們的猜測是,1-vs-all的分類器在種類更多的時候會有更差的表現(因為每個種類都一樣多張影像的話,種類越多,表示對的資料比例急速下降,所以分類器得到的正確範例很少,自然學不好)。

1

另外一個實驗的結果指出有些class因為彼此之間有關係,所以分類結果會相關。

1

資料庫內種類密度的分析

作者們發現了一件有趣的事情,雖然很直覺,但我覺得很重要。就是資料庫內的物體種類越密集(密集度由wordnet當中這些類別之間的距離平均來計算),分類器的辨識結果就會越差。

1

利用語意的階層來幫助分類的分析

他們主要的argument很有道理,就是如果分類器把貓分成夠,這樣的錯誤應該要比把貓分成微波爐還要小,但原本的分類只有分正確或錯誤,就沒有辦法反映這個現象。所以他們定出hierarchical cost,使用WordNet的距離來定義cost(那因為貓跟狗的距離比貓跟微波爐的距離小,就可以把cost function變得更好)。

1

2

Contribution

這篇論文應該是第一個探討極大量種類的物體辨識的論文,討論的面向相當完整,而且他們有提出怎麼利用WordNet的類別來幫助改進分類器的辨識結果(利用一種hierarchical cost),我覺得有運用到人類如何做物體辨識的概念,是吸當有趣的研究。

Question

1. 是不是一定要實作出人類的認知架構才夠達到人類班的辨識水平?考慮到人類的學習其實包含視覺,觸覺等多種知覺的刺激,真的有可能只藉由影像的data得到很好的物體辨識模組嗎?

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s