AMMAI

AMMAI(Week 13) – Deep neural networks for acoustic modeling in speech recognition

Paper Info

Hinton, Geoffrey, et al. “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.” Signal Processing Magazine, IEEE 29.6 (2012): 82-97.

Motivation

以往的Speech recognition做法主要都是利用HMM來model聲音訊號的順序關係(frame to frame)、配合GMM來model單一frame,而這篇希望討論利用DNN來取代GMM的做法,另外也討論了DNN的其他性質和可能用法。

Technical Summary

怎麼將聲音訊號導入DNN

DNN的用法是接收MFCC或是Filter-bank的係數(也就是一個高維度的向量),然後輸出就是這個向量屬於每個state的機率。而且有趣的是,DNN+HMM的方法使用Filter-bank的係數得到的performance還比MFCC好,論文上指出說可能是因為GMM需要input的資料的每個維度彼此比較獨立,但DNN不需要。

怎麼把DNN跟HMM接起來

DNN的輸出就可以當作HMM的輸入,這是比較簡單的做法。

另外這篇論文滿詳細地說明了用RBM跟DBN來做預訓練的方法,雖然後來發現不太需要做預訓練也可以達到很好的效果。

Experiment

他們有在TIMIT上面做測試,也有在一些比較large scale的dataset測試performance。

1

2

3

Contribution

這篇論文把DNN應用於語音辨識的主要概念、方法還有跟前人的比較都做了詳盡的介紹,是一篇入門語音處理的重要論文,基本上掌握HMM-GMM跟這篇應該就對語音處理會有一個大的綱架了。

Question

1.為什麼用GMM來model球面上很接近的一些點會需要用到一堆Gaussian?

Tools Learned

Deep belief network, Restricted Boltzmann Machine

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s