AMMAI

AMMAI(Week 14) – Text Understanding from Scratch

Paper Info

Zhang, Xiang, and Yann LeCun. “Text Understanding from Scratch.” arXiv preprint arXiv:1502.01710 (2015).

Motivation

這篇論文嘗試用Deep Learning來做各種文字分析的task, 包含ontology classification, sentiment analysis跟text categorization等。

Technical Summary

怎麼將character表示成向量

他們統一將字母用69維的向量表示,69維包含26個字母,10個數字跟33個其他符號,而如果是空白就用69維的0向量表示。而且不需要做normalization就可以達到還不錯的效果。

ConvNet model設計

他們設計了一大一小的類神經網路,兩個都是6層的conv layer,3層的FC layer。

1

2

3

Data Augmentation技巧

在理想情況下,讓人來把訓練資料裡的句子用不同的用法重新寫過會很有用,但實際上因為成本不可能這樣做,所以這邊的作法就是把句子中可以替換掉的字換成同義字,藉以增加訓練資料的多樣性。不過從實驗結果可以看出有沒有做這一步其實沒有差很多。

Experiment

因為有很多資料庫都是他們自己建的,沒有現成數據以供比較,所以他們又實作了BOW跟Word2vec來進行比較。

DBpedia Ontology Classification

1

Amazon Review Sentiment Analysis

2

3

Yahoo! Answer Topic Classification

4

News Categorization in English

5

News Categorization in Chinese

6

Contribution

他們在某種程度上證明即時沒有任何事先知道的knowledge,利用深度學習,單純靠字母level的輸入也可以做到很不錯的精準度。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s