古詩詞大全網 - 成語經典 - 這是壹篇關於Attention的綜述

這是壹篇關於Attention的綜述

註意力機制是神經網絡中的壹個重要概念,當前研究人員已經在各種應用領域中對其進行了研究。本文將全面介紹註意力機制模型的結構以及當前的發展狀況;並依據邏輯範疇對註意力機制模型進行了分類。

註意力模型/Attention Model(AM)首先是在機器翻譯中引入的,但是當前已經成為神經網絡結中的壹個重要概念。 作為在自然語言處理、統計學習、語音和計算機視覺中大量應用的神經體系結構的重要組成部分,註意力機制在人工智能(AI)社區中已變得極為流行。註意力原理可以使用人類生物系統進行解釋。例如,我們的視覺處理系統傾向於有選擇地將註意力集中在圖像的某些部分,而忽略其它不相關的信息,從而有助於感知。同樣,在涉及語言,言語或視覺的幾個問題中,輸入的某些部分與其他部分相比可能更相關。例如,在翻譯和摘要任務中,只有輸入序列中的某些單詞可能與預測下壹個單詞相關。同樣,在圖像字幕問題中,輸入圖像的某些區域可能與在字幕中生成下壹個單詞更相關。 AM通過允許模型動態地關註輸入中有助於有效執行手頭任務的某些部分,從而融入了關聯的概念。

註意力機制在神經網絡建模中迅速發展的原因主要有三個。第壹,現在這些模型已經成為機器翻譯、問答、情感分析、詞性標註、選區解析和對話系統等多項任務的最新技術。第二,除了在主要任務上提高性能之外,它們還提供了其它壹些優勢。它們被廣泛用於提高神經網絡的可解釋性(神經網絡又被認為是黑箱模型),主要是因為人們對影響人類生活的應用程序中機器學習模型的公平性、問責制和透明度越來越感興趣。第三,它們有助於克服遞歸神經網絡(RNN)存在的壹些問題,例如隨著輸入長度增加導致性能下降,以及輸入的順序處理導致計算效率降低。

序列到序列的模型結構主要由編碼器和解碼器組成。

為解決以上兩個問題,AM允許解碼器訪問整個編碼的輸入序列 。其核心思想是在輸入序列上引入註意權重α,以對存在相關信息位置集進行優先排序,從而生成下壹個輸出令牌

本文將Attention Model***計分為四類: 基於多輸入輸出序列的分類、基於抽象層的分類、基於計算位置分類、基於多表示分類

到目前為止,我們只考慮了涉及單個輸入和相應輸出序列的情況。當候選狀態和查詢狀態分別屬於兩個不同的輸入和輸出序列時,這就需要使用壹種不同的註意力模型。這種註意力模型大多數用於翻譯、摘要、圖像字幕和語音識別等。

壹個***同註意模型同時處理多個輸入序列,***同學習它們的註意權重,以捕捉這些輸入之間的相互作用。例如采用***同註意模型進行視覺問答,除了在輸入圖像上建立視覺註意模型外,建立問題註意模型也很重要,因為問題文本中的所有單詞對問題的答案並不同等重要。此外,基於註意的圖像表示用於引導問題註意,反之亦然,這本質上有助於同時檢測問題中的關鍵短語和答案相關的圖像的相應區域。對於文本分類和推薦等任務,輸入是壹個序列,而輸出不是壹個序列。在這個場景中,註意可以用於學習相同輸入序列中每個令牌的輸入序列中的相關令牌。換句話說,對於這類註意,查詢和候選狀態屬於同壹序列。

參考文獻

[1]Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh. Hierarchical question-image co-attention for visual question answering. In NIPS, pages 289–297, 2016

[2] Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alexander J. Smola, and Eduard H. Hovy. Hierarchical attention networks for document classification. In HLT-NAACL, 2016.

在最壹般的情況下,註意力權重只針對原始輸入序列計算。這種類型的註意可以稱為單水平。另壹方面,註意力可以按順序應用於輸入序列的多個抽象層次。較低抽象級別的輸出(上下文向量)成為較高抽象級別的查詢狀態。此外,基於權值是自上而下學習還是自下而上學習的,可以對使用多層次註意的模型做進壹步的分類。我們舉例說明了這壹類別中的壹個關鍵示例,該示例在兩個不同的抽象層次(即單詞級和句子級)使用註意模型進行文檔分類任務。這個模型被稱為“層次註意模型”(HAM),因為它捕捉了文檔的自然層次結構,即文檔由句子組成,句子由單詞組成。多層次註意允許HAM提取句子中重要的單詞和文檔中重要的句子,如下所示。首先建立了壹種基於註意的句子表示方法,並將壹級註意應用於嵌入向量序列,然後它使用第二級註意來聚合這些句子表示形式,以形成文檔的表示形式,這個文檔的最終表示用作分類的特征向量任務。

參考文獻

[1]Shenjian Zhao and Zhihua Zhang. Attention-via-attention neural machine translation. In AAAI, 2018

在第三類中,差異來自於輸入序列計算註意力權值的位置。Bahdanau等人引入的註意,也被稱為軟關註。顧名思義,它使用輸入序列所有隱藏狀態的加權平均值來構建上下文向量。軟權值方法的使用使得神經網絡能夠通過反向傳播進行有效的學習,但也會導致二次計算代價。Xu等人提出了壹個硬註意模型,其中上下文向量是根據輸入序列中隨機采樣的隱藏狀態計算的。這是通過註意權重參數化的多努利分布來實現的。硬註意模型有利於降低計算成本,但在輸入的每個位置進行硬決策,使得得到的框架不可微,難以優化。因此,為了克服這壹局限性,文獻中提出了變分學習方法和策略梯度方法。

參考文獻

[1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.

[2] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057, 2015.

[3] Thang Luong, Hieu Pham, and Christopher D. Manning. Effective approaches to attention-based neural machine translation. In EMNLP, pages 1412–1421, Lisbon, Portugal, September 2015. ACL.

通常,在大多數應用中使用輸入序列的單壹特征表示。但是,在某些情況下,使用輸入的壹個特征表示可能不足以完成下遊任務。在這種情況下,壹種方法是通過多個特征表示捕獲輸入的不同方面。註意可以用來給這些不同的表示分配重要性權重,這些表示可以確定最相關的方面,而忽略輸入中的噪聲和冗余。我們將此模型稱為多表示AM,因為它可以確定下遊應用程序輸入的多個表示的相關性。最終表示是這些多重表示及其註意力的加權組合重量。註意的好處是通過檢查權重,直接評估哪些嵌入是特定下遊任務的首選。

參考文獻

[1]Douwe Kiela, Changhan Wang, and Kyunghyun Cho. Dynamic meta-embeddings for improved sentence representations. In EMNLP, pages 1466–1477, 2018.

[2]Suraj Maharjan, Manuel Montes, Fabio A Gonzalez, and Thamar ? Solorio. A genre-aware attention model to improve the likability prediction of books. In EMNLP, pages 3381–3391, 2018.

[3]Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured selfattentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.

[4]Tao Shen, Tianyi Zhou, Guodong Long, Jing Jiang, Shirui Pan, and Chengqi Zhang. Disan: Directional self-attention network for rnn/cnn-free language understanding. In AAAI, 2018

更多自然語言處理相關知識,還請關註 AINLPer公眾號 ,極品幹貨即刻送達。