論文閱讀 | Combating Adversarial Misspellings with Robust Word Recognition


對抗防御可以從語義消歧這個角度來做,不同的模型,后備模型什么的,我覺得是有道理的,和解決未登錄詞的方式是類似的,畢竟文本方面的對抗常常是修改為UNK來發生錯誤的。怎么使用backgroud model這個要實踐以下。但是這個主要還是指word-level的,不知道其他的有沒有用。

 

 

 

 

用強大的單詞識別能力對抗對抗性拼寫錯誤

摘要

摘要為了克服對抗性拼寫錯誤,我們建議在下游分類器前放置一個單詞識別模型。我們的單詞識別模型建立在RNN半字符結構的基礎上,引入了一些新的后退策略來處理罕見和未見的單詞(backoff srategies -> 未登錄詞)。經過訓練,我們能夠識別由隨機添加、刪除、交換和鍵盤錯誤打斷的單詞,與普通的半字符模型相比,我們的方法實現了32%的相對(和3.3%的絕對)錯誤減少。尤其是,我們的管道對下游分類器提供了健壯性,比對抗訓練和現成的拼寫檢查器都好。與用於分析的BERT模型相比,一個反向選擇的字符攻擊的准確率從90.3%降到45.8%。我們的防御將准確率恢復到75%。令人驚訝的是,更好的單詞識別並不總是意味着更強的魯棒性。我們的分析表明,魯棒性還取決於我們表示為靈敏度的數量

 

1 介紹

盡管深度學習技術在不同監督學習任務上取得了快速進展,但這些模型對於數據分布的細微變化仍然很脆弱。即使允許的變化僅限於幾乎察覺不到的擾動,訓練健壯的模型仍然是一個開放的挑戰。在發現難以察覺的攻擊可能導致圖像識別模型錯誤地將示例進行分類 (Szegedy et al., 2013)之后,出現了一個名副其實的子領域,作者在其中迭代地提出攻擊和對策。

 

在本文中,我們關注在文本分類上下文中逆向選擇的拼寫錯誤,解決以下攻擊類型:刪除、添加和交換單詞中的內部字符。這些干擾的靈感來自心理語言學研究(Rawlinson, 1976: Matt Davis, 2003),該研究表明,如果每個單詞的首字母和尾字母保持不變,人類可以理解由混亂的內部字符字符改變的文本

 

首先,在處理BiLSTM和經過微調的BERT模型的實驗中,包括四種不同的輸入格式:word-only、char-only, word+char和word-piece (Wu et al., 2016),我們證明了對手可以將分類器的性能降低到隨機猜測的水平。這只需要修改每句話的兩個字符。這樣的修改可能會將單詞翻轉到詞匯表中的另一個單詞,或者更常見的情況是,將詞匯表外的單詞翻轉到token UNK。因此,對抗性編輯可以通過將提供信息的詞轉換為UNK來對word level model進行性能降低。直觀地說,人們可能會懷疑單詞片段和字符級模型(word-piece  character-level) 不太容易受到拼寫攻擊,因為它們可以使用剩余單詞文本。然而,我們的實驗表明,字符和單詞塊模型(以上兩個)實際上更脆弱。我們證明這是由於對抗樣本的有能力對這些模型進行更細粒度的操作。而對一個字級模型,對手大多被限制為UNK-ing words,對一個word-piece or character-level 模型,每個字級add, drop或swap生成遠程輸入,為對手提供更大的選項集。

UNK是Unknown Words的簡稱,在用seq2seq解決問題上經常出現。

第二,我們評價一線技術包括數據擴充和敵對抗性訓練,證明他們只提供微小的效益,例如,伯特模型實現精度90.3情緒分類任務,由adversarially-chosen退化到64.1 1角色互換的句子,只能恢復到69.2的對抗訓練。

第三(我們的主要貢獻),我們提出了一種與任務無關的防御方法附加一個單詞識別模型該模型預測給定完整序列(可能拼寫錯誤)輸入的句子中的每個單詞單詞識別模型的輸出形成對下游分類模型的輸入。Sakaguchi等人(2017)在基於rnnbased的半字符單詞識別模型的基礎上建立了我們的單詞識別模型。雖然我們的單詞識別器是從手頭的任務中針對特定領域的文本進行訓練的,但由於特定領域的詞匯量很小,它們常常在測試時預測UNK。為了處理未觀察到的和罕見的單詞,我們提出了幾種后退策略,包括退回到訓練在更大語料庫上的通用單詞識別器。結合我們的防御,伯特模型受到1個字符的攻擊恢復到88.3。81.1、78.0准確率分別為交換、刪除、添加攻擊。

第四,我們提供了一個詳細的定性分析,表明一個低錯誤率是不夠一個單詞識別器提高下游任務的魯棒性。此外,我們發現識別模型為攻擊者提供很少的自由度是很重要的。我們提供了一個度量標准(sensiticity)來量化識別模型,並研究其對穩健性的經驗。靈敏度低、錯誤率低的模型魯棒性最強。

 

2 相關工作

NLP對抗攻擊:文本變化可察覺;結尾添加干擾句;用同近義詞代替單詞;但常常是語法錯誤的。

字符級別的gradient-based方法攻擊分類器和翻譯系統。

我們的重點是改善最壞情況下的性能。

合成和自然噪聲如何影響字符級機器翻譯。他們認為結構不變表示和對抗性訓練是對這種噪聲的防御。在此,我們證明了一個輔助的字識別模型,它可以訓練對未標記的數據,提供了一個強大的防御。

拼寫糾正(Kukich, 1992)常被視為語法錯誤糾正的子任務。經典方法依賴於源語言模型和噪聲信道模型來尋找給定單詞的最可能相關項。最近,神經技術被應用到任務中(Sakaguchi et al., 2017 Li et al., 2018),該任務同時對輸入的上下文和或圖形進行建模。我們的工作擴展了Sakaguchi等人(2017)的ScRNN模型。

 

3 魯棒詞識別

處理字符級對手的攻擊,我們介紹一個簡單的兩級解決方案,在下游分類器(C)前應用一個詞識別模型(W)。在這個計划下,所有輸入通過組合模型C · W 進行分類.這個模塊化方法,W和C單獨訓練,提供了許多好處:(i)我們可以部署多個下游分類任務的同一個詞識別模型/模型;(二)利用較大的未標注語料庫訓練單詞識別模型。針對對抗性錯誤,兩個重要因素決定了該組合模型的魯棒性:識別拼寫錯誤的准確性和對同一輸入上對抗性干擾的敏感性。我們將在下面詳細討論這些方面。

 

下面,當ScRNN預測到UNK(罕見和不可見單詞的常見結果)時,我們探索了不同的后退方法:

傳遞:單詞識別器按原樣傳遞(可能拼錯了)單詞。

退到中性詞:alternative。注意,通過未更改的傳遞unk預測的單詞會將下游模型暴露給可能損壞的文本,因此我們考慮使用像“a”這樣的中性單詞。在類之間也有類似的分布。

后退到背景模型:我們還考慮,當前地面單詞識別模型預測UNK時,使用更大的、較少專門化的語料庫訓練更通用的單詞識別模型。圖1以圖的方式描述了這個場景。

根據經驗,我們發現背景模型(本身)不太准確,因為它被訓練來預測大量的單詞。因此。最好是在一個域內語料庫上訓練一個精確的前景模型,並將重點放在頻繁出現的單詞上,然后對罕見和未觀察到的單詞使用一個通用的背景模型。接下來,我們描述了構建魯棒的單詞識別器的第二個考慮因素。

 

模型敏感度

如果模型可以降低一些對樣本的小變化的敏感度,可以在一定程度上抵御對抗攻擊。

 

我們可以將單詞識別系統W的這個概念定義為它分配給一組對抗性擾動的唯一輸出的期望數量。給定集合中的一個句子s,令a (s) = s1', s2',…, Sn’表示攻擊類型A下的n個擾動集合,設V為將字符串映射到下游分類器的輸入表示形式的函數。對於單詞級模型,V將句子轉換為單詞ID序列,將OOV單詞映射到相同的UNK ID。而對於char(或word+char, word-piece)模型,V將輸入映射到字符ID序列。在形式上,敏感性被定義為

其中Vo W(s)為單詞識別器,W使用si和#u生成的輸出字符串返回(下游分類器的)輸入表示,計算惟一參數的數量。直觀上,我們認為SWv值越高,下游classifier的魯棒性越低,因為對手攻擊分類器的自由度越大。因此,在使用文字識別作為一種防御手段時,明智的做法是設計一個低靈敏度、低錯誤率的系統。然而,正如我們將要演示的,在敏感性和錯誤率之間常常存在權衡。

綜合對抗性

攻擊:S→假設我們有一個分類器C該分類器的一個對手是一個函數a,該函數將一個參數s映射到它的擾動版本{s, s2,…s}使得每個s‘,在句子之間距離的概念下,都接近s。我們將分類器C對對手A的魯棒性定義為:

y是真實標簽。RCA表示C的最壞情況下的對抗表現。

 4種類型的擾動: swap  drop  key-board(用QWERTY鍵盤的相鄰字符替換內部字符) add  只修改內部字符。

攻擊策略:

 對於i -字符攻擊,我們嘗試了上面列出的所有可能的干擾,直到找到一個對手翻轉模型預測。對於2個字符的攻擊,我們貪婪地修復了在1個字符的攻擊中可信度最低的編輯,然后嘗試對剩余的單詞進行所有允許的干擾。可以用類似的方式執行高階攻擊。貪婪策略減少了獲得高階攻擊所需的計算量,但也意味着魯棒性得分是分類器真實魯棒性的上限。

4 實驗與結果

在本節中,我們首先討論我們在單詞識別系統上的實驗。

4.1單詞糾錯數據

SST   IMDB

我們從斯坦福情感樹銀行(SST)的電影評論中評估拼寫糾正器,從3美元起(Socher等人)。2013)。SST數據集包含8544篇電影評論,詞匯量超過16K。我們使用IMDB電影評論作為背景cor pus (Maas et al., 2011),其中包含54K篇電影評論,詞匯量超過78K。這兩個數據集不共享任何公共評論。拼寫糾正模型是根據其糾正拼寫錯誤的能力來評估的。測試設置由評審組成,其中每個單詞(長度為24,不包括stopwords)都受到類型(來自swap、add、drop和keyboard )的攻擊。在all攻擊設置中,我們通過為每個單詞隨機選擇一個來混合所有攻擊  就是隨機選一個攻擊類型。這與真實世界的攻擊設置非常相似實驗設置除了我們的文字識別模型外,我們還比較了ATD (After The Deadline),一個開源的拼法糾正器。我們發現ATD是最好的免費可用的校正器。我們請讀者參考Sak aguchi等人(2017)將ScRNN與其他匿名商業拼寫檢查器進行比較。對於ScRNN模型,我們使用了一個隱藏尺寸為50的單層Bi LSTM。輸入表示由198個維度組成,是詞匯表中唯一字符數(66)的三倍。我們把詞匯量限制在10000個單詞以內。而當我們回到背景模型時,我們使用了整個78470字的詞匯庫。為了訓練這些網絡,我們破壞了電影評論,根據將四種攻擊類型中的一種應用於每個單詞,並嘗試通過交叉熵損失來重建原始單詞。

 

結果

 

計算了不同tacks模型的單詞錯誤率(WER),結果如表2所示。注意,ATD錯誤地預測了每100個單詞就有11.2個單詞(在“all”設置中),而ScRNN的所有回退變體都能更好地重構。最精確的變異包括后退到背景模型導致較低的錯誤率6.9%。在單詞識別方面表現最佳。這是32%的相對誤差,與傳統的ScRNN模型相比,采用了傳遞回退策略。測試語料庫中有5.25%的單詞在訓練語料庫中是不可見的,因此只有后退到更大的語料庫中才能恢復這些單詞,我們可以將性能的提高歸功於這一事實。由於背景語料庫中的詞頻分布與前景語料庫中的詞頻分布不同,因此,僅僅在較大的背景語料庫上的訓練效果更差,為8.7%。

 

4.2 對抗攻擊的魯棒性

在情緒分類方面,我們系統地研究了字符級對抗攻擊對兩種體系結構和四種不同輸入格式的影響。第一種體系結構將輸入語句編碼為一系列嵌入,然后由BiLSTM按順序處理這些嵌入。然后,softmax層使用BiLSTM的第一和最后兩個狀態來預測輸入的情緒。

我們考慮了該體系結構的三種輸入格式:(1)僅使用單詞:其中輸入單詞使用查找表進行編碼;(2) charonly:輸入的單詞在其字符上使用單獨的單層BiLSTM進行編碼;和(3)Word+Char:其中輸入單詞使用(1)和(2)的連接進行編碼。

第二種體系結構使用經過微調的BERT模型(Devlin et al., 2018),帶有單詞塊標記化的輸入格式。這個模型最近在幾個NLP基准上設置了一個新的最先進的技術,包括我們在這里考慮的情緒分析任務。所有的模型都是在句子級的Stanford Sentiment Treebank (Socher et al., 2013)數據集的二進制版本上訓練和評估的,只有正面和負面的評價。我們還考慮了意譯檢測的任務。在這里,我們也使用了微調伯特(Devlin et al., 2018),這是在微軟研究釋義語料庫(MRPC)上訓練和評估(多蘭和布羅基特,2005)。

基線防御策略

處理對抗實例的兩種常用方法包括:(1)數據增強(DA) (Krizhevsky et al., 2012);(2)對抗性訓練(Adv) (Goodfellow等。2014)。在訓練集的基礎上,通過1個字符的編輯,增加相同數量的隨機攻擊實例,對訓練模型進行微調。在預先訓練的模型是微調與額外的adver sarial例子(隨機選擇),產生不正確的預測從當前狀態分類器。這個過程是迭代地重復的,從更新的分類器模型生成並添加新的對抗性示例。直到開發集的對抗性精度停止提高。

 

The robustness of different models can be
ordered as word-only > word+char > char-only 
word-piece, and the efficacy of different attacks as
add > key > drop > swap.

 

隨着字符和單詞塊輸入在現代NLP管道中成為com monplace,值得注意的是它們所增加的漏洞。我們建議將單詞識別作為一種安全防范措施,並構建在基於rnnbased的半字符單詞識別器的基礎上。我們發現,當作為一種防御機制使用時,大多數交流輔助文字識別模型並不總是對對抗攻擊最健壯的。此外,我們強調需要控制這些模型的靈敏度,以實現高魯棒性。

 

 

結論

我們建議將單詞識別作為一種安全防范措施,並構建在基於rnnbased的半字符單詞識別器的基礎上。我們發現,當作為一種防御機制使用時,大多數交流輔助文字識別模型並不總是對對抗攻擊最健壯的。此外,我們強調需要控制這些模型的靈敏度,以實現高魯棒性。

 

看了這個文章也沒太多收獲 感覺也沒講啥啊???

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM