論文打算從這篇著手
偶爾有什麼心得會上來更新更新
1.What to reslove: Image Caption(影像標註)
2.How to achieve : Improve show and tell model, combine attention model
3.result achieve state of art..
4.Encoder may change.. LSTM model can be imporve through better word embedding model..
論文動機:受到機器翻譯以及物體檢測的啟發
論文目的:自動學習描述圖像的內容
使用的方法:基於視覺注意力機制的圖片自然語言描述生成
論文簡介:
自動描述是一個非常接近電腦視覺基礎問題的任務
論文貢獻度:
1.提出了兩種attention機制,
2.生成描述的位置排列與人類語感相近
3.生成描述同時會聚焦在機器注意的物體上
使用MS的COCO數據及以及Flickr進行訓練
訓練*batch(註一)為64
評分採用BLEU
主要的技術點在於它結合了注意力機制進入Show and tell這篇論文
並提出了'Hard'和'Soft'兩種注意力機制的比較
Attention機制有兩種
一種soft一種hard
hard好像是通過一種分析機制選擇要注意的位置
soft則是分配注意的比例
但是不知道為什麼hard注意力機制我訓練起來成果很差
而且好難接到其他模型上面
唉唉
Tensorflow 有提供這兩種注意力機制的呼叫
一個叫做BahdanauAttention,soft的樣子
另一個叫做LuongAttention,hard的樣子
Hard接不起來啊啊啊啊啊
Encoder大概是這樣的運作機制:
Decoder的運作機制:
----------------------------------
註一 : batch: batch是批。深度學習每一次參數的更新所需要損失函數並不是由一個{data:label}獲得的,而是由一組數據加權得到的,這一組數據的數量就是[batch size]。
留言列表