NeurIPS 2018 | 騰訊AI Lab詳解3大熱點：模型壓縮、機器學習及最優化算法

發布時間：2020-08-16 08:50:33 來源：ITPUB博客閱讀：186 作者：騰訊技術工程欄目：互聯網科技

導讀：AI領域頂會NeurIPS正在加拿大蒙特利爾舉辦。本文針對實驗室關注的幾個研究熱點，模型壓縮、自動機器學習、機器學習與最優化算法，選取23篇會議上入選的重點論文進行分析解讀，與大家分享。Enjoy！

NeurIPS (Conference on Neural Information Processing Systems，神經信息處理系統進展大會)與ICML并稱為神經計算和機器學習領域兩大頂級學術會議。今年為第32屆會議，將于 12月3日至8日在加拿大蒙特利爾舉辦。騰訊AI Lab第三次參加NeurIPS，共20篇論文入選，位居國內企業前列。

騰訊AI Lab對會議的三大熱點——模型壓縮、自動機器學習、機器學習及最優化算法相關的23篇論文進行了解讀。

模型壓縮

Model Compression

模型壓縮是近期深度學習領域中一個較為熱門的研究方向，通過對模型的網絡結構或者權重表示方式進行簡化，在精度損失可控的前提下，降低模型的計算復雜度和參數規模，以解決深度學習模型計算效率較低的問題。粗略統計，本屆NIPS有15-20篇模型壓縮相關論文，涵蓋了網絡剪枝、權重量化、知識蒸餾、精簡網絡結構設計等多個方面。

這次會議的研究中體現出四大特點：一、多種權重量化算法被提出，同時相應的訓練算法與理論分析也有較多討論；二、遷移學習與知識蒸餾的結合；三、新型精簡網絡結構的不斷涌現；四、模型壓縮的應用推廣至目標檢測、自然語言理解等領域。另外，“精簡深度神經網絡及其產業界應用”研討會（Workshop）環節集中探討了近期模型壓縮方向的研究成果以及在實際場景中的應用。我們重點關注了以下文章：

1. 基于敏感度正則化的稀疏神經網絡訓練

Learning Sparse Neural Networks via Sensitivity-Driven Regularization

https://nips.cc/Conferences/2018/Schedule?showEvent=11386

本文由都靈理工大學、Nuance Communications公司、巴黎高等電信學院和意大利電信集團合作完成。深度神經網絡中的海量參數使得其難以應用到內存有限的場景中，而正則化加剪枝的訓練方式可以使得網絡權重變得稀疏，以解決這一問題。本文對網絡最終輸出相對于網絡權重的敏感度進行量化分析，并引入了一個正則化項，以逐步減小低敏感度的網絡權重的絕對值。基于該算法，大量的網絡權重會逐步收斂為零，從而可以被安全地從網絡模型中刪去。實驗結果表明，該算法在權重稀疏度和模型預測精度方面都超過了現有算法；在部分數據集上，當模型預測精度相同時，該算法可以將權重稀疏度提升至現有算法的兩倍。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點：模型壓縮、機器學習及最優化算法

2. 一種高可擴展性的8比特神經網絡訓練算法

Scalable Methods for 8-bit Training of Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11503

本文由Intel和以色列理工學院合作完成。對訓練完畢的網絡模型進行定點量化可以提升模型在推理過程中的計算效率，但是對于如何確定最優的量化比特數以及量化方案尚無定論。本文首先通過理論分析指出，在網絡訓練過程中，除部分特定的操作外，大部分操作對于模型權重精度的下降并不敏感。基于這一結論，本文提出對模型權重、各層特征圖以及梯度信號進行量化，并且維護了兩個量化精度不同的梯度信號，在不損失精度的情況下最大程度地提升計算效率。同時，由于batch normalization層對于量化精度要求更高，本文提出了Range BN層以提升對量化誤差的容忍度。實驗結果表明，在ImageNet-1K數據集上，本文對模型權重、各層特征圖以及梯度信號進行8比特量化，量化后模型達到了目前最好的預測精度。

3. 判別力最大化的通道剪枝算法在深度神經網絡中的應用

Discrimination-aware Channel Pruning for Deep Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11109

本文由華南理工大學、阿德萊德大學、德州大學阿靈頓分校和騰訊AI Lab合作完成。現有的通道剪枝算法大多基于稀疏約束進行重新訓練，或者基于預訓練模型進行剪枝后模型的重構誤差最小化，存在訓練困難，忽視模型判別力等問題。本文提出了一種判別力最大化的通道剪枝算法，以篩選和保留模型中真正對判別力有貢獻的通道。為實現這一目標，作者引入了額外的判別力損失項，以提高網絡中間各層的判別力，再基于判別力損失項和重構誤差項進行各層的通道選擇。實驗表明，在ILSVRC-12數據集上，基于該算法剪枝后的ResNet-50模型可以在刪去30%通道的情況下，top-1分類精度比基準模型高0.39%。

4. 釋義復雜模型：基于因子遷移學習的網絡壓縮

Paraphrasing Complex Network:Network Compression via Factor Transfer

https://nips.cc/Conferences/2018/Schedule?showEvent=11283

本文由國立首爾大學完成。本文提出了一種新的知識蒸餾訓練算法，通過引入額外的卷積層，對參考模型的信息進行解釋與重新組織，從而更好地指導目標模型的訓練。這一過程由兩個卷積模塊共同完成，分別被稱為釋義器（paraphraser）和翻譯器（translator）。釋義器以無監督的方式進行訓練，以提取參考模型中的有效信息；翻譯器則位于目標模型中，用于將目標模型中的對應信息進行變換，以擬合參考模型的釋義器所輸出的信息。實驗結果表明，基于該算法訓練得到的目標模型，在多個數據集上的圖像分類和目標檢測任務上，都取得了超過已有知識蒸餾算法的訓練效果。

5. Moonshine：基于精簡卷積操作的知識蒸餾

Moonshine:Distilling with Cheap Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11295

本文由愛丁堡大學完成。本文提出了一種結構化的模型蒸餾算法以降低模型運行過程中的內存開銷。具體地，基于預定義的參考模型的網絡結構，經過簡單的結構變換，可以得到目標模型的網絡結構，從而避免了重新設計目標模型的網絡結構，同時也可以直接復用參考模型的超參數設定。以殘差模型為例，通過對殘差單元中的兩個3x3卷積層進行變換，以分組卷積+跨組混合卷積的結構作為替代，可以顯著降低模型的計算復雜度。變換后得到的目標模型可以基于知識蒸餾和注意力遷移學習算法進行訓練。實驗結果表明，該算法可以以極低的精度損失，大幅度降低內存開銷；同時，相比于直接訓練目標模型，知識蒸餾訓練機制的引入可以明顯提升目標模型的預測精度。

6. 基于在線自我集成的知識蒸餾

Knowledge Distillation by On-the-Fly Native Ensemble

https://nips.cc/Conferences/2018/Schedule?showEvent=11723

本文由倫敦瑪麗女王大學和Vision Semantics公司合作完成。知識蒸餾常被用于訓練低復雜度、高泛化能力的模型，但是離線知識蒸餾算法往往需要一個高精度的預訓練模型作為參考，并且訓練過程需要分為兩個階段進行，而在線知識蒸餾算法不能有效地構造一個高精度的參考模型。本文提出了一種在線自我集成的知識蒸餾算法，以實現單階段的在線蒸餾。具體地，該算法訓練了一個多分支的網絡，在線地構造參考模型以提升目標模型的預測精度。實驗結果表明，該算法在多個數據集上，對于各種網絡結構均取得了一致的性能提升，同時訓練效率更高。

7. ChannelNet：基于逐通道卷積的高效卷積神經網絡

ChannelNets:Compact and Efficient Convolutional Neural Networks via Channel-Wise Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11508

本文由德克薩斯A&M大學完成。本文提出了一種逐通道卷積操作，以取代CNN模型中特征圖之間的稠密連接關系。基于這一逐通道卷積操作，作者提出了ChannelNet這一輕量級的網絡結構。ChannelNet中采用了三個類型的逐通道卷積操作，分別是：分組逐通道卷積、深度可分逐通道卷積以及全卷積分類層。與之前常用于移動端的CNN模型（包括SqueezeNet、MobileNet和ShuffleNet）相比，ChannelNet在性能無損的前提下顯著降低了模型的參數量與計算開銷。下圖中，(a)是深度可分卷積，(b)是將深度可分卷積中的1x1卷積替換為分組1x1卷積，(c)是本文提出的分組逐通道卷積（以融合各組信息），(d)是本文提出的深度可分逐通道卷積。

8. Pelee：一種基于移動端設備的實時目標檢測系統

Pelee:A Real-Time Object Detection System on Mobile Devices

https://nips.cc/Conferences/2018/Schedule?showEvent=11208

本文由西安大略大學完成。為實現深度學習模型在移動端設備上的部署，研究者們提出了一系列精簡網絡結構，包括MobileNet、ShuffleNet和NASNet-A等，但是此類模型嚴重依賴于深度可分卷積，而這一卷積操作在大多數深度學習框架中沒有較好的高效實現。針對這一問題，本文基于傳統的卷積操作，構建了PeleeNet這一高效網絡結構。PeleeNet可以看作是DenseNet的一個變種，采用了類似的連接模型和設計思想。具體地，PeleeNet中采用了雙卷積通道和名為stem block的初始卷積單元，同時動態地調整瓶頸層中的通道數量以節省計算開銷，并對SSD模型的網絡結構進行優化，與PeleeNet結合，實現了在移動端設備上的實時目標檢測。

自動機器學習

Auto Machine Learning

自動機器學習（AutoML）是機器學習中最近興起的重要分支。它主要是指，把機器學習在現實問題上的應用過程自動化的技術。在一個典型的機器學習應用中，實踐者必須人工去做特征預處理、算法選擇、網絡結構設計（如果選擇了深度學習算法）、超參調節，以求最大化模型性能。這其中的很多步驟都超出了非算法專家的能力，所以自動機器學習被提出來將這些步驟自動化。自動機器學習，使得機器學習在實際問題的應用中變得更為容易，也更容易得到一些可以超越手工設計模型性能的新模型。初略統計本屆NIPS有20余篇自動機器學習相關論文，涵蓋貝葉斯優化、網絡結構搜索、以及遷移學習等多個方面。

這次會議的研究中體現了三大特點：一、研究上開始解決更為復雜的任務（例如，語義分割）的網絡結構搜索；二、小領域之間開始了融合，比如出現了用貝葉斯優化（傳統上用于超參優化）來解決網絡結構搜索的技術研究；三、其他非自動機器學習領域的技術開始被更多地應用過來，例如遷移學習。

1. 為稠密圖像預測搜索高效多規模結構

Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

https://nips.cc/Conferences/2018/Schedule?showEvent=11831

神經網絡結構設計是許多機器學習系統在很多任務上最先進性能的關鍵組件。許多工作都致力于通過將巧妙構建的搜索空間和簡單的學習算法結合來自動設計和構建神經網絡結構。最近的進展表明，這種元學習方法在圖像分類問題上可以取得超出人類設計的神經網絡的性能。一個懸而未決的問題是這些方法在其他領域中能夠取得什么樣的性能。在這項工作中，我們關注密集圖像預測的元學習技術的構建，重點是場景解析，人體分割和語義圖像分割的任務。由于視覺信息的多尺度性以及圖像的高分辨率，在密集圖像預測任務上進行合適的網絡結構搜索是十分具有挑戰性的。基于對密集圖像預測技術的調查，我們構建了一個遞歸搜索空間，并證明即使使用有效的隨機搜索，我們也可以找出出優于人類設計的網絡結構，并在三個密集預測上實現最先進的性能任務：其中包括在Cityscapes（街景解析）數據集上取得82.7％的準確度，在PASCAL-Person-Part（人體分割）上71.3％的準確度，以及在PASCAL VOC 2012（語義圖像分割）87.9％的準確度。另外，我們模型得到的網絡結構在計算上更有效，跟現有的技術相比僅需要一半的參數和一半的計算力。

2. 神經結構優化

Neural Architecture Optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11750

自動神經網絡結構設計已經顯示出其在發現強大的神經網絡架構方面的潛力。無論是基于強化學習還是進化算法（EA）的現有技術都是在離散空間中進行搜索。這是非常低效的。在本文中，我們提出了一種簡單有效的基于連續優化的自動神經網絡結構設計方法。我們將這種新方法稱為神經結構優化（NAO）。我們提出的方法有三個關鍵組成部分：（1）編碼器將神經網絡架構映射到連續空間中（2）預測器將網絡的連續表示作為輸入并預測其準確性（3）解碼器將網絡的連續表示映射回其架構。性能預測器和編碼器使我們能夠在連續空間中執行基于梯度優化，以找到具有更高精度的新架構的表達。然后，解碼器將這種更好的嵌入解碼到網絡。實驗表明，我們的方法發現的體系結構對于CIFAR-10上的圖像分類任務和PTB上的語言建模任務具有很強的競爭力，優于或者與先前的網絡結構搜索方法的最佳結果相當，并且計算資源顯著減少。具體來說，我們在CIFAR-10圖像分類任務的測試集上的錯誤率為2.07%和在PTB語言建模任務測試集perplexity為55.9。在上述兩個任務上發現的最佳體系結構可以被遷移到其他諸如CIFAR-100和WikiText-2等數據集合。此外，通過使用最近人們提出的權重共享機制，我們的模型可以在有限計算資源條件下（單一GPU訓練10小時）在CIFAR-10（錯誤率為3.53％）和PTB（測試集perplexity為56.3）上取得不錯的結果。

3. 利用貝葉斯優化和最優運輸做神經結構搜索

Neural Architecture Search with Bayesian Optimisation and Optimal Transport

https://nips.cc/Conferences/2018/Schedule?showEvent=11214

貝葉斯優化是指一類用于對黑盒函數f進行全局優化的方法，其中對于f我們只能得到其在某些點處的評估值。這種方法通常應用于f的評估代價非常昂貴時，在機器學習中的一個應用情形是模型選擇。由于模型的泛化性能是很難分析的，所以我們一般利用帶噪音和高昂的訓練、驗證程序去選擇最好的模型。傳統的貝葉斯優化方法集中在歐式和類別數據的領域，所以它在模型選擇中只能用來對機器學習模型調節超參。但是，隨著對深度學習的興趣的激增，調節網絡結構的需求也在快速增長。在本文中，我們設計了一個名為NASBOT的算法，一個基于高斯過程來做網絡結構搜索的貝葉斯優化框架。為了實現這個目標，我們針對神經網絡結構空間設計了一個可以通過最優運輸程序高效計算的度量。這個度量對于深度學習社區可能還有在貝葉斯優化之外的其他用處。我們在幾個基于交叉驗證的多層感知器和卷積神經網絡模型選擇問題上，展示了NASBOT可以超越其他網絡結構搜索的替代方案。

4. 利用傅里葉特征的高效高維貝葉斯優化

Efficient High Dimensional Bayesian Optimization with Additivity and Quadrature Fourier Features

https://nips.cc/Conferences/2018/Schedule?showEvent=11859

我們針對高維的黑盒函數優化設計了一個高效的貝葉斯優化算法。我們假設了一個可重疊變量組的廣義可加模型。當變量組之間不重疊時，我們可以為高維貝葉斯優化提供第一個可以證明的多項式時間算法。為了使得優化高效和可行，我們引入一個新的基于數值積分的確定性的傅里葉特征逼近，并為平方指數核提供了詳細的分析。這個逼近的錯誤隨著特征的個數指數衰減，并且可以對后驗均值和方差給出精確逼近。另外，核矩陣的逆的計算復雜度從數據點個數的立方減少到線性。

5. 帶有一個未知高斯過程先驗的元貝葉斯優化的后悔上界

Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

https://nips.cc/Conferences/2018/Schedule?showEvent=11991

貝葉斯優化通常假設一個貝葉斯先驗是提前給定的。但是，由于先驗里未知的參數，在貝葉斯優化里的強理論保證經常是在實踐里是達不到的。在這篇文章中，我們采用了一個經驗貝葉斯的變體并且展示了，通過用相同先驗里抽取的離線數據來估計高斯過程先驗并構造后驗的無偏估計，基于置信上界和提升概率的變體都可以達到一個接近零的后悔上界。該后悔上界隨著離線數據個數和在線評估個數的增加，可以衰減到一個與觀察噪音成比例的常數。實驗上，我們在很有挑戰的模擬機器人問題處理和運動規劃上成功驗證了所提的方法。

6. 為貝葉斯優化最大化獲得函數

Maximizing acquisition functions for Bayesian optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11938

貝葉斯優化是一個主要依賴于獲得函數來引導搜索過程的，用于全局優化的高效抽樣方法。對獲得函數進行完全最大化就產生了貝葉斯決策規則，但是由于這些獲得函數通常都是很難優化的，所以這個理想很難實現。尤其當并行評估幾個詢問時，由于獲得函數是非凸、高維和棘手的，最大化獲得函數就更加難以實現了。為此，我們利用了蒙特卡洛積分的可微性和并行詢問的子模性，提出兩個新的用于最大化獲得函數的方法。

7. 用于自動化機器學習的概率矩陣分解

Probabilistic Matrix Factorization for Automated Machine Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11337

為了達到頂尖的性能，現代機器學習技術需要仔細的數據預處理和超參調節。此外，由于研發的機器學習模型的個數的增長，模型選擇也變得越來越重要。自動化機器學習的選擇和調節，一直以來都是機器學習社區的研究目標之一。在本文中，我們提出通過組合協同過濾和貝葉斯優化的想法來解決這個元學習的任務。具體來說，我們通過概率矩陣分解利用在數百個不同數據上的實驗，然后利用獲得函數來指導對可能的機器學習流程空間的探索。在我們的實驗里，我們展示了我們的方法可以在很多數據上快速確認高性能的流程，并可以顯著地超越目前的頂尖方法。

8. 可擴展的超參遷移學習

Scalable Hyperparameter Transfer Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11660

貝葉斯優化（BO）是一種針對例如超參優化等無梯度黑盒函數優化問題的基于模型的方法。通常來說，貝葉斯優化依賴于傳統的高斯過程回歸，然而傳統的高斯過程的算法復雜度是評價測試數目的立方級。因此，基于高斯過程的貝葉斯優化不能夠利用大量過去評價測試的經驗作為熱啟動。在本文中，我們提出了一種多任務的自適應的貝葉斯線性回歸模型來解決該問題。值得注意的是，該模型僅是評價測試數目的線性復雜度。在該模型中，每個黑盒函數優化問題（任務）都以一個貝葉斯線性回歸模型來建模，同時多個模型通過共享一個深度神經網絡進行耦合，從而實現遷移學習。實驗表明該神經網絡可以學到一個適合熱啟動黑盒優化問題的特征表示，并且當目標黑盒函數和其他相關信號（比如訓練損失）一起學習的時候，貝葉斯優化可以變快。該模型被證明至少比最近發表的相關黑盒優化文獻快了至少一個數量級。

9. 利用神經自動機器學習的遷移學習

Transfer Learning with Neural AutoML

https://nips.cc/Conferences/2018/Schedule?showEvent=11799

在本文中，我們通過遷移學習減小神經網絡AutoML的計算代價。AutoML通過自動化機器學習算法以減少人的干預。盡管神經網絡AutoML因可以自動設計深度學習網絡的結構最近非常流行，但是其計算成本巨大。為了解決該問題，我們提出了基于遷移學習的神經網絡AutoML，以充分利用之前任務上學習到的知識來加快網絡結構設計。我們擴展了基于增強學習的網絡結構搜索方法以支持多個任務上的并行訓練，并將得到的搜索策略遷移到新的任務上。在自然語言及圖像分類的任務上，該方法將單任務訓練的收斂時間減少了至少一個數量級。

機器學習與最優化算法

Optimization For Learning

眾所周知，機器學習與最優化算法之間的關系密不可分。在機器學習建模的過程中，會出現各式的極小值優化模型。在學習參數的過程中，會使用到各種各樣的最優化算法。機器學習算法和最優化算法以及它們的交叉，歷年都是研究的熱點。在本次nips收錄的文章中，同樣出現了大量的機器學習的模型建立以及模型訓練算法設計的工作。

1. Adaptive Methods for Nonconvex Optimization

https://papers.nips.cc/paper/8186-adaptive-methods-for-nonconvex-optimization.pdf

本文由google research 和卡內基梅隆大學合作完成。本文證明，通過增加batch-size，ADAM和RMSProp可以保證全局收斂性質。基于此，文中也提出了一類新的訓練深度神經網絡的自適應隨機梯度算法YOGI。通過增加batch-size，同樣證明了YOGI的全局收斂性并且通過實驗驗證了YOGI比ADAM具有更快的訓練速度和更高的測試精度。注意到，本文的作者曾從理論層面指出了ADAM和RMSProp是發散的，并因此獲得ICLR2018 Best Paper Award。

Figure1. ADAM和YOGI的算法框架對比

Figure2. ResNet在CIFAR10數據集上的測試精度對比

Figure3. 在深度自動編解碼模型上, YOGI和ADAM訓練損失和測試損失對比圖

2. Spider: Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

https://papers.nips.cc/paper/7349-spider-near-optimal-non-convex-optimization-via-stochastic-path-integrated-differential-estimator.pdf

本文由北京大學和騰訊AI Lab合作完成。本文的主要貢獻主要在理論層面，文中提出了尋找非凸隨機優化的一階和二階穩定點的算法SPIDER。文中證明SPIDER算法的計算復雜度在當前求解非凸隨機優化算法中是最優的。另外文中采用的一種全新的計算復雜度的分析技巧，該技巧具有很強的可移植性，可以應用到其他很多的隨機優化算法的分析中。

Figure1. SPIDER算法框架

Figure2. 不同算法的計算復雜度對比圖

3. Escaping Saddle Points in Constrained Optimization

https://papers.nips.cc/paper/7621-escaping-saddle-points-in-constrained-optimization.pdf

本文由麻省理工學院獨立完成。針對帶約束的非凸光滑優化問題 , 本文提出了一類通用的求解算法框架，并且首次證明了該算法框架可以逃離約束非凸優化問題的鞍點。值得說明的是，本文是第一個提出能求夠逃離約束非凸優化問題鞍點的算法。

4. Online Adaptive Methods, Universality and Acceleration

https://papers.nips.cc/paper/7885-online-adaptive-methods-universality-and-acceleration.pdf

本文由蘇黎世聯邦理工學院和洛桑聯邦理工學院合作完成。本文提出一類新的自適應隨機梯度算法來AcceleGrad求解無約束隨機凸優化問題。AcceleGrad算法中采用了新穎的加權自適應學習率估計策略和Nesterov加速策略來提高效率。作者理論上證明了該算法能夠達到最優的計算復雜度。另外，作者從實驗上說明了AcceleGrad算法的優越性。