Paper Info
“What does classifying more than 10,000 image categories tell us?,” J. Deng, A. C. Berg, K. Li, and L. Fei-Fei, ECCV 2010.
Motivation
人類可以辨識的物體種類有成千上萬種,那如果嘗試讓電腦來辨識這麼多種的物體,會出現哪些問題?這是這篇論文主要想探討的問題。
Technical Summary&Experiment
因為這篇論文比較是討論性質的,所以重點在實驗,所以把Technical Summary跟Experiment合在一起寫。
使用的Datasets
ImageNet10K, ImageNet7K, ImageNet1K, Rand200, Ungulate183, Fungus134, Vehicle262, CalNet200
Evaluation的方法
mean accuracy, mean misclassfication cost(例如把狗分類成貓跟把狗分類成汽車的錯誤程度是不同的)
分類演算法
GIST+NN, BOW+NN, BOW+SVM, SPM+SVM
運算時間的分析
這邊他們做了滿多種方法的分析,但發現有很多方法,光是訓練分類器就要花上以年為單位的時間,然後testing需要數小時來跑完全部影像的分類,所以他們有試著去用平行運算來處理,發現如果用66個CPU的叢集一起算,只要幾個禮拜就可以訓練完,所以他們認為需要平行運算才能處理這麼多類的物體分類問題。
類別數量的分析
當類別數量增加,準確度會下降,實驗結果在下圖中呈現,有趣的地方是,原本在比較少類別的資料中表現較好的SVM居然在類別變多時輸給了簡單的NN方法。他們的猜測是,1-vs-all的分類器在種類更多的時候會有更差的表現(因為每個種類都一樣多張影像的話,種類越多,表示對的資料比例急速下降,所以分類器得到的正確範例很少,自然學不好)。

另外一個實驗的結果指出有些class因為彼此之間有關係,所以分類結果會相關。

資料庫內種類密度的分析
作者們發現了一件有趣的事情,雖然很直覺,但我覺得很重要。就是資料庫內的物體種類越密集(密集度由wordnet當中這些類別之間的距離平均來計算),分類器的辨識結果就會越差。

利用語意的階層來幫助分類的分析
他們主要的argument很有道理,就是如果分類器把貓分成夠,這樣的錯誤應該要比把貓分成微波爐還要小,但原本的分類只有分正確或錯誤,就沒有辦法反映這個現象。所以他們定出hierarchical cost,使用WordNet的距離來定義cost(那因為貓跟狗的距離比貓跟微波爐的距離小,就可以把cost function變得更好)。


Contribution
這篇論文應該是第一個探討極大量種類的物體辨識的論文,討論的面向相當完整,而且他們有提出怎麼利用WordNet的類別來幫助改進分類器的辨識結果(利用一種hierarchical cost),我覺得有運用到人類如何做物體辨識的概念,是吸當有趣的研究。
Question
1. 是不是一定要實作出人類的認知架構才夠達到人類班的辨識水平?考慮到人類的學習其實包含視覺,觸覺等多種知覺的刺激,真的有可能只藉由影像的data得到很好的物體辨識模組嗎?