AI日報:我們該用什麽方式去解讀神經網絡的思想?

來源:戒與缷 2018-07-09 10:57:15

歡迎閱讀由“戒與缷”編寫的文章。

神經網絡它通過分析大量的訓練數據來學習執行計算任務,負責人工智能領域最令人印象深刻的最新進展,包括語音識別和自動翻譯係統。然而,在訓練過程中,神經網絡不斷地調整其內部設置,即使是其創作者也無法理解。計算機科學方麵的許多最新工作都集中在聰明方麵。

在最近的幾篇論文中,麻省理工學院計算機科學和人工智能實驗室(CSAIL)和卡塔爾計算機研究所的研究人員使用了一種最近發展起來的解釋技術,該技術已應用於其他領域,用於分析經過訓練的神經網絡,以便進行機器翻譯和語音識別。他們發現了一些關於網絡可能如何運作的共同直覺的經驗支持。例如,係統似乎集中在較低級別的任務上,例如聲音識別或部分語音識別,然後再轉移到更高級別的任務,如轉錄或語義解釋。但是研究人員也發現翻譯網絡所考慮的數據類型中有一個令人驚訝的遺漏,他們表明糾正這種遺漏會提高網絡的性能。這種改進是有限的,但它指出了神經網絡分析有助於提高人工智能係統的準確性的可能性。

“在機器翻譯方麵,曆史上存在著一種不同層次的金字塔,”CSAIL高級研究科學家吉姆·格拉斯(Jim Glass)說。他曾與麻省理工學院(MIT)電氣工程和計算機科學專業的研究生Yonatan Belinkov合作該項目。“在最低層,有單詞,表麵形式,金字塔的頂端是某種語言間的表示,你會有不同的層次,在那裏你在做語法,語義。這是一個非常抽象的概念,但這個想法是,越高的金字塔,越容易翻譯成一種新的語言,然後你會再次下降。因此,Yonatan正在做的部分工作就是試圖找出網絡中編碼這一概念的哪些方麵。“

機器翻譯方麵的工作最近在自然語言處理國際聯席會議上發表了兩篇論文。在一個問題上,Belinkov是第一作者,格拉斯是高級作者,而Belinkov是一個合著者。卡塔爾計算機研究所(QCRI)的研究人員也加入了這兩項研究,其中包括Lluís Màrquez、Hassan Sajjad、Nadir Durrani、Fahim Dalvi和Stephan Vogel。Belinkov和Glass是分析語音識別係統的唯一作者,Belinkov在上周的神經信息處理研討會上介紹了這篇論文。

調平

神經網絡之所以如此命名,是因為它們大致接近人類大腦的結構。通常,它們被排列成層,每一層由許多簡單的處理單元-節點-組成,每個處理單元都連接到上下層中的多個節點。數據被輸入最底層,其節點處理它並將其傳遞到下一層。層間的連接有不同的“權重”,這決定了任何一個節點的輸出在下一個節點執行的計算中所占的比例。

在訓練過程中,節點間的權重不斷調整。在對網絡進行訓練之後,它的創建者可以確定所有連接的權重,但是有數千個甚至幾百萬個節點,甚至有更多的節點之間的連接,推斷出這些權重編碼的算法幾乎是不可能的。麻省理工學院和QCRI的研究人員的技術是利用一個經過訓練的網絡,利用每個層次的輸出來響應個別的訓練實例,訓練另一個神經網絡來執行特定的任務。這使他們能夠確定每個層的優化目標是什麽任務。

在語音識別網絡中,Belinkov和Glass使用各個層次的輸出來訓練一個識別“電話”的係統,這是一種特定於口語的不同的語音單位。例如,“茶”、“樹”和“但是”等詞中的“t”可能被歸類為單獨的電話,但語音識別係統必須使用字母“t”來轉錄它們。事實上,Belinkov和Glass發現,網絡中較低層次的人比更高層次的人更能識別手機,在那裏,這種區別大概就不那麽重要了。同樣,在去年夏天在計算語言學協會年會上發表的一篇論文中,格拉斯、Belinkov和他們的QCRI同事表明,機器翻譯網絡的較低層次特別擅長識別語音和詞法的某些部分,例如時態、數字和共軛。

創造意義

但在新的論文中,他們發現更高層次的網絡在語義標記方麵更好。正如Belinkov所解釋的,一個詞性標記者會認識到“她自己”是一個代詞,但是這個代詞的意思-它的語義-在“她自己買書”和“她自己買這本書”這兩個句子中有很大的不同。語義標記者會為這兩個“她”實例分配不同的標記,就像機器翻譯係統可能在給定的目標語言中為它們找到不同的翻譯一樣。

性能最好的機器翻譯網絡使用所謂的編解碼模型,因此麻省理工學院和qcri研究人員的網絡也使用它。在這樣的係統中,輸入,在源語言中,通過網絡的幾個層-稱為編碼器-生成一個向量,一串數字,以某種方式表示輸入的語義內容。該向量通過網絡的多個層-譯碼器-生成目標語言的翻譯。

雖然編解碼器是一起訓練的,但它們可以看作是獨立的網絡。研究人員發現,奇怪的是,編碼器的下層善於區分形態學,而解碼器的較高層則不然。因此,Belinkov和QCRI研究人員對網絡進行了再培訓,不僅根據翻譯的準確性,而且根據對目標語言中的形態學的分析,對網絡的性能進行了評估。從本質上講,它們迫使解碼器更好地區分形態學。使用這一技術,他們對網絡進行了再培訓,將英語翻譯成德語,並發現其準確性提高了3%。這並不是一個壓倒性的進步,但這表明,在神經網絡的遮擋下觀察可能不僅僅是一項學術練習。

以上就是今天的文章了,有什麽不足的地方可以在下方評論區吐槽哦,你們的支持就是我的動力!

點擊查看原文

相關鏈接