close

論文打算從這篇著手

偶爾有什麼心得會上來更新更新

 

1.What to reslove: Image Caption(影像標註)

2.How to achieve : Improve show and tell model, combine attention model

3.result achieve state of art..

4.Encoder may change.. LSTM model can be imporve through better word embedding model..

論文動機:受到機器翻譯以及物體檢測的啟發

論文目的:自動學習描述圖像的內容

使用的方法:基於視覺注意力機制的圖片自然語言描述生成

論文簡介:

自動描述是一個非常接近電腦視覺基礎問題的任務

論文貢獻度:

1.提出了兩種attention機制,

2.生成描述的位置排列與人類語感相近

3.生成描述同時會聚焦在機器注意的物體上

使用MS的COCO數據及以及Flickr進行訓練

訓練*batch(註一)為64

評分採用BLEU

主要的技術點在於它結合了注意力機制進入Show and tell這篇論文

並提出了'Hard'和'Soft'兩種注意力機制的比較

Attention機制有兩種

一種soft一種hard

hard好像是通過一種分析機制選擇要注意的位置

soft則是分配注意的比例

但是不知道為什麼hard注意力機制我訓練起來成果很差

而且好難接到其他模型上面

唉唉

Tensorflow 有提供這兩種注意力機制的呼叫

一個叫做BahdanauAttention,soft的樣子

另一個叫做LuongAttention,hard的樣子

Hard接不起來啊啊啊啊啊

Encoder大概是這樣的運作機制:

CNNextration

Decoder的運作機制:

 

RNNexcept

 

 

 

 

 

----------------------------------

註一 : batch: batch是批。深度學習每一次參數的更新所需要損失函數並不是由一個{data:label}獲得的,而是由一組數據加權得到的,這一組數據的數量就是[batch size]。

 


arrow
arrow
    創作者介紹
    創作者 低階ㄇㄋ 的頭像
    低階ㄇㄋ

    蟲匯聚之所

    低階ㄇㄋ 發表在 痞客邦 留言(0) 人氣()