AMMAI

AMMAI(Week 12) – Rich feature hierarchies for accurate object detection and semantic segmentation

Paper Info

“Rich feature hierarchies for accurate object detection and semantic segmentation.” Girshick, Ross, et al. CVPR 2014.

Motivation

之前的論文主要是將DNN應用在global的影像分類上,但如果我們想將影像中的物體一個個的locate出來並貼上標籤,那就是完全不同的task,所以這篇論文被提出來處理這個問題。

Technical Summary

主要架構圖

1

從主要架構圖可以看出,其實在經過region proposal之後,後面做的事情就像是一般的image classification(不過這篇是使用linear SVM來做分類)。所以在test stage,他們用selective search的方法產生2000個左右的region,接著把每個region都直接warp成227×227的影像,餵進CNN後就都變成同樣長度的特徵向量,再提供給SVM做最後的分類。

能夠做warping的理由也滿直觀的,我覺得warping後的結果依然可以被人所辨識,這表示重要的特徵其實是還留著的,所以CNN理論上也可以萃取出來。

1

另外一點值得關注的點是,他們在training的時候用到了ILSVRC的data來幫忙訓練,因為CNN需要大量的訓練資料,所以不太可能只由PASCAL VOC的data來訓練。他們證明可以先用比較general的大量資料來做預訓練、再用小量的domain specific資料來做訓練。(ILSVRC有1000類、PASCAL VOC只有21類)

Experiment

這個方法在PASCAL VOC上的mAP比之前最好的結果多了30%,非常厲害。

3

2

Contribution

1. 他們把CNN的架構跟bottom up的region proposal方法結合起來,使得CNN也可以處理物體定位跟辨識的問題。

2. 當training data不多的時候,他們也可以利用ILSVRC的data來做pre-training,再用僅有的一些data做fine tuning也可做到不錯的結果。

Question

1. 能不能不要做warping,直接把影像放進227×227的大小,其他塞0就好? 這樣效果會如何?

Tools Learned

Selective search, R-CNN, Region proposal方法(2.1中列了很多)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s