中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專欄

        EEPW首頁 > 博客 > ICLR 2022 | 微軟亞洲研究院深度學(xué)習(xí)領(lǐng)域最新研究成果一覽

        ICLR 2022 | 微軟亞洲研究院深度學(xué)習(xí)領(lǐng)域最新研究成果一覽

        發(fā)布人:MSRAsia 時(shí)間:2022-05-23 來源:工程師 發(fā)布文章
        編者按:ICLR(International Conference on Learning Representations)是國際公認(rèn)的深度學(xué)習(xí)領(lǐng)域頂級(jí)會(huì)議之一,眾多在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及計(jì)算機(jī)視覺、語音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域極其有影響力的論文都發(fā)表在該大會(huì)上。今年的 ICLR 大會(huì)于4月25日至29日在線上舉辦。本屆大會(huì)共接收論文1095篇,論文接收率32.3%。今天,我們精選了其中的六篇來為大家進(jìn)行簡要介紹,其中研究主題的關(guān)鍵詞包括時(shí)間序列、策略優(yōu)化、解耦表示學(xué)習(xí)、采樣方法、強(qiáng)化學(xué)習(xí)等。歡迎感興趣的讀者閱讀論文原文,一起了解深度學(xué)習(xí)領(lǐng)域的前沿進(jìn)展!


        周期性時(shí)間序列的深度展開學(xué)習(xí)
        圖片

        論文鏈接:https://www.microsoft.com/en-us/research/publication/depts-deep-expansion-learning-for-periodic-time-series-forecasting/


        周期性時(shí)間序列在電力、交通、環(huán)境、醫(yī)療等領(lǐng)域中普遍存在,但是準(zhǔn)確地捕捉這些時(shí)序信號(hào)的演化規(guī)律卻很困難。一方面是因?yàn)橛^測到的時(shí)序信號(hào)往往對隱式的周期規(guī)律有著各種各樣復(fù)雜的依賴關(guān)系,另一方面是由于這些隱式的周期規(guī)律通常也由不同頻率、幅度的周期模式復(fù)合而成。然而,現(xiàn)有的深度時(shí)間序列預(yù)測模型要么忽視了對周期性的建模,要么依賴一些簡單的假設(shè)(加性周期、乘性周期等),從而導(dǎo)致在相應(yīng)預(yù)測任務(wù)中的表現(xiàn)不如人意。


        在深入思考這些研究難點(diǎn)后,微軟亞洲研究院的研究員們?yōu)橹芷谛詴r(shí)間序列的預(yù)測問題提出了一套新型的深度展開學(xué)習(xí)框架 DEPTS。該框架既可以刻畫多樣化的周期性成分,也能捕捉復(fù)雜的周期性依賴關(guān)系。


        圖片

        圖1:DEPTS 框架圖


        如圖1所示,DEPTS 主要包含兩大模塊:周期模塊(The Periodicity Module)和展開模塊(The Expansion Module)。首先,周期模塊負(fù)責(zé)對整條時(shí)間序列的全局周期進(jìn)行建模,接受全局時(shí)間作為輸入,推斷隱式的周期狀態(tài)作為輸出。為了有效刻畫多種不同模式的復(fù)合周期,這里使用了一組參數(shù)化的周期函數(shù)(如余弦級(jí)數(shù))來構(gòu)建周期模塊并使用相應(yīng)變換(如離散余弦變換)來進(jìn)行高效的參數(shù)初始化。


        然后,基于一段觀測的時(shí)間序列信號(hào)及其相應(yīng)的隱式周期狀態(tài),展開模塊負(fù)責(zé)捕捉觀測信號(hào)與隱式周期之間復(fù)雜的依賴關(guān)系并做出預(yù)測。在這里,研究員們拓展了經(jīng)典的深度殘差學(xué)習(xí)思想開發(fā)了一種深度展開學(xué)習(xí)架構(gòu)。在這個(gè)架構(gòu)中,研究員們會(huì)對輸入的時(shí)間序列及其隱式周期做逐層的依賴關(guān)系展開并得出相應(yīng)預(yù)測分量。在每一層中,由參數(shù)化的周期神經(jīng)網(wǎng)絡(luò)來決定本層聚焦的周期分量,并展開觀測信號(hào)的回看和預(yù)測分量。在進(jìn)入下一層前,研究員們會(huì)減去本層中產(chǎn)生的周期分量和回看分量,從而鼓勵(lì)后續(xù)的神經(jīng)網(wǎng)絡(luò)層聚焦于尚未展開的周期性依賴。按照這樣的模式堆疊 N 層就構(gòu)成了(深度)展開模塊。


        研究員們在生成數(shù)據(jù)和廣泛的真實(shí)數(shù)據(jù)上都進(jìn)行了實(shí)驗(yàn)驗(yàn)證,明確地揭示了現(xiàn)有方法在周期性時(shí)間序列預(yù)測方面的短板,并有力地證實(shí)了 DEPTS 框架的優(yōu)越性。值得注意的是,在一些周期模式很強(qiáng)的數(shù)據(jù)上,DEPTS 相對已有最佳方案的提升可達(dá)20%。


        此外,由于對周期性進(jìn)行了明確的建模并提供了預(yù)測值在全局周期和局部波動(dòng)兩方面的分量展開,DEPTS 天生帶有一定可解釋性。


        在基于模型的策略優(yōu)化算法中,模型的梯度信息是重要的

        圖片


        論文鏈接:https://www.microsoft.com/en-us/research/publication/gradient-information-matters-in-policy-optimization-by-back-propagating-through-model/


        基于模型的強(qiáng)化學(xué)習(xí)方法提供了一種通過與學(xué)到的環(huán)境進(jìn)行交互從而獲得最優(yōu)策略的高效機(jī)制。在這篇論文中,研究員們研究了其中模型學(xué)習(xí)與模型使用不匹配的問題。具體來說,為了獲得當(dāng)前策略的更新方向,一個(gè)有效的方法就是利用模型的可微性去計(jì)算模型的導(dǎo)數(shù)。 然而,現(xiàn)在常用的方法都只是簡單地將模型的學(xué)習(xí)看成是一個(gè)監(jiān)督學(xué)習(xí)的任務(wù),利用模型的預(yù)測誤差去指導(dǎo)模型的學(xué)習(xí),但是忽略了模型的梯度誤差。簡而言之,基于模型的強(qiáng)化學(xué)習(xí)算法往往需要準(zhǔn)確的模型梯度,但是在學(xué)習(xí)階段只減小了預(yù)測誤差,因此就存在目標(biāo)不一致的問題。


        本篇論文中,研究員們首先在理論上證明了模型的梯度誤差對于策略優(yōu)化是至關(guān)重要的。由于策略梯度的偏差不僅受到模型預(yù)測誤差的影響而且也受到模型梯度誤差的影響,因此這些誤差會(huì)最終影響到策略優(yōu)化過程的收斂速率。


        接下來,論文提出了一個(gè)雙模型的方法去同時(shí)控制模型的預(yù)測和梯度誤差。研究員們設(shè)計(jì)了兩個(gè)不同的模型,并且在模型的學(xué)習(xí)和使用階段分別讓這兩個(gè)模型承擔(dān)了不同的角色。在模型學(xué)習(xí)階段,研究員們設(shè)計(jì)了一個(gè)可行的方法去計(jì)算梯度誤差并且用其去指導(dǎo)梯度模型的學(xué)習(xí)。在模型使用階段,研究員們先利用預(yù)測模型去獲得預(yù)測軌跡,再利用梯度模型去計(jì)算模型梯度。結(jié)合上述方法,本篇論文提出了基于方向?qū)?shù)投影的策略優(yōu)化算法(DDPPO)。 最后,在一系列連續(xù)控制基準(zhǔn)任務(wù)上的實(shí)驗(yàn)結(jié)果證明了論文中提出的算法確實(shí)有著更高的樣本效率。


        圖片

        圖2: (a)模型學(xué)習(xí)和使用中的不一致。 (b)DDPPO 算法的示意圖。DDPPO 算法分別構(gòu)造了預(yù)測模型和梯度模型。DDPPO 算法使用不同的損失函數(shù)去分別訓(xùn)練這兩個(gè)模型,并且在策略優(yōu)化中分別恰當(dāng)?shù)厥褂盟麄儭?/span>



        RecurD遞歸解耦網(wǎng)絡(luò)


        圖片


        論文鏈接:https://www.microsoft.com/en-us/research/publication/recursive-disentanglement-network/


        機(jī)器學(xué)習(xí)的最新進(jìn)展表明,解耦表示的學(xué)習(xí)能力有利于模型實(shí)現(xiàn)高效的數(shù)據(jù)利用。其中 BETA-VAE 及其變體是解耦表示學(xué)習(xí)中應(yīng)用最為廣泛的一類方法。這類工作引入了多種不同的歸納偏差作為正則化項(xiàng),并將它們直接應(yīng)用于隱變量空間,旨在平衡解耦表示的信息量及其獨(dú)立性約束之間的關(guān)系。然而,深度模型的特征空間具有天然的組合結(jié)構(gòu),即每個(gè)復(fù)雜特征都是原始特征的組合。僅將解耦正則化項(xiàng)應(yīng)用于隱變量空間無法有效地在組合特征空間中傳播解耦表示的約束。


        本篇論文旨在結(jié)合組合特征空間的特點(diǎn)來解決解耦表示學(xué)習(xí)問題。首先,論文從信息論的角度定義了解耦表示的屬性,從而引入了一個(gè)新的學(xué)習(xí)目標(biāo),包括三個(gè)基本屬性:充分性、最小充分性和解耦性。從理論分析表明,本篇論文所提出的學(xué)習(xí)目標(biāo)是 BETA-VAE 及其幾個(gè)變種的一般形式。接下來,研究員們將所提出的學(xué)習(xí)目標(biāo)擴(kuò)展到了組合特征空間,以涵蓋組合特征空間中的解纏結(jié)表示學(xué)習(xí)問題,包括組合最小充分性和組合解耦性。


        基于組合解耦學(xué)習(xí)目標(biāo),本篇論文提出了對應(yīng)的遞歸解纏結(jié)網(wǎng)絡(luò)(Recursive disentanglement network, RecurD,在模型網(wǎng)絡(luò)中的組合特征空間內(nèi),遞歸地傳播解耦歸納偏置來指導(dǎo)解纏結(jié)學(xué)習(xí)過程。通過前饋網(wǎng)絡(luò),遞歸的傳播強(qiáng)歸納偏差是解耦表示學(xué)習(xí)的充分條件。實(shí)驗(yàn)表明,相較于 BETA-VAE 及其變種模型,RecurD 實(shí)現(xiàn)了更好的解耦表示學(xué)習(xí)。并且,在下游分類任務(wù)中,RecurD 也表現(xiàn)出了一定的有效利用數(shù)據(jù)的能力。


        圖片

        圖3:RecurD 網(wǎng)絡(luò)結(jié)構(gòu)


        04

        基于鏡像斯坦因算符的采樣方法


        圖片


        論文鏈接:https://www.microsoft.com/en-us/research/publication/sampling-with-mirrored-stein-operators/


        貝葉斯推理(Bayesian inference)等一些機(jī)器學(xué)習(xí)及科學(xué)計(jì)算問題都可歸結(jié)為用一組樣本來代表一個(gè)只知道未歸一化密度函數(shù)的分布。不同于經(jīng)典的馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo)方法,近年來發(fā)展起來的斯坦因變分梯度下降方法(Stein variational gradient descent,簡記為 SVGD)具有更好的樣本高效性,但對在受限空間(圖中Θ)上分布的采樣或?qū)π螤钆で姆植嫉牟蓸尤燥@吃力。


        圖片

        圖4:原樣本空間\Theta及其鏡像空間示意


        本篇論文中,研究員們借鑒優(yōu)化領(lǐng)域中鏡像下降方法(mirrored descent)的思想,推導(dǎo)設(shè)計(jì)出了一系列鏡像斯坦因算符(mirrored Stein operators)及其對應(yīng)的鏡像 SVGD 方法。原空間經(jīng)鏡像映射(圖中?ψ)所得的鏡像空間是不受限的并可體現(xiàn)分布的幾何信息,因而這些方法系統(tǒng)性地解決了上述問題。


        具體來說,SVGD 的原理是使用能最大化樣本分布與目標(biāo)分布之間 KL 散度減小率的更新方向來更新樣本,從而使樣本分布不斷逼近目標(biāo)分布,而這個(gè)減小率和更新方向都是由斯坦因算符給出的。因而論文首先推導(dǎo)出了鏡像空間中的斯坦因算符(圖中 M_(p,ψ))和樣本的更新方向(圖中 E_(θ~q_t ) [M_(p,ψ) K(θ_t,θ)])。


        研究員們進(jìn)而設(shè)計(jì)了三種計(jì)算更新方向所需的核函數(shù)(kernel function,圖中 K),分別可在單樣本情況下劃歸為針對鏡像空間及原空間上目標(biāo)分布峰值的梯度下降,以及原空間上的自然梯度下降。該論文還推導(dǎo)了所提方法的收斂性保證。實(shí)驗(yàn)發(fā)現(xiàn)所提方法比原本的 SVGD 有更好的收斂速度和精度。



        部署高效的強(qiáng)化學(xué)習(xí):理論下界與最優(yōu)算法
        圖片


        論文鏈接:https://www.microsoft.com/en-us/research/publication/towards-deployment-efficient-reinforcement-learning-lower-bound-and-optimality/


        傳統(tǒng)的(在線)強(qiáng)化學(xué)習(xí)(RL)的學(xué)習(xí)過程可以概括為兩部分的循環(huán):其一是根據(jù)收集的數(shù)據(jù)學(xué)習(xí)一個(gè)策略(policy);其二是將策略部署到環(huán)境中進(jìn)行交互,獲得新的數(shù)據(jù)用于接下來的學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的目標(biāo)就是在這樣的循環(huán)中完成對環(huán)境的探索,提升策略直至最優(yōu)。


        然而在一些實(shí)際應(yīng)用中,部署策略的過程會(huì)十分繁瑣,而相對來講,當(dāng)部署完新的策略之后,數(shù)據(jù)的收集過程是很快的。比如在推薦系統(tǒng)中,策略就是推薦方案,好的策略可以精準(zhǔn)地推送用戶所需要的內(nèi)容??紤]到用戶體驗(yàn),通常一家公司在上線新的推薦策略之前會(huì)進(jìn)行很長時(shí)間的內(nèi)部測試來檢驗(yàn)性能,由于龐大的用戶基數(shù),往往部署之后短時(shí)間內(nèi)就可以收集到海量的用戶反饋數(shù)據(jù)來進(jìn)行后續(xù)的策略學(xué)習(xí)。在這樣的應(yīng)用中,研究員們更傾向于選擇只需要很少部署次數(shù)(deployment complexity)就能學(xué)到好策略的算法。


        但是現(xiàn)有的強(qiáng)化學(xué)習(xí)算法以及理論和上述真實(shí)需求之間還有距離。在這篇論文中,研究員們嘗試去填補(bǔ)這個(gè)空白。研究員們首先從理論的角度上,對 deployment-efficient RL 這個(gè)問題提供了一個(gè)比較嚴(yán)謹(jǐn)?shù)亩x。之后以 episodic linear MDP 作為一個(gè)具體的設(shè)定,研究員們分別研究了最優(yōu)的算法能表現(xiàn)的怎樣(lower bound),以及提出了可以達(dá)到最優(yōu)的部署復(fù)雜度的算法設(shè)計(jì)方案(optimality)。


        其中,在 lower bound 部分,研究員們貢獻(xiàn)了理論下界的構(gòu)造與相關(guān)證明;在 upper bound 部分,研究員們提出了“逐層推進(jìn)”的探索策略(如圖5所示),并貢獻(xiàn)了基于協(xié)方差矩陣估計(jì)的新的算法框架,以及一些技術(shù)層面的創(chuàng)新。研究員們的結(jié)論也揭示了部署帶有隨機(jī)性的策略對于降低部署復(fù)雜度的顯著作用,這一點(diǎn)在之前的工作當(dāng)中往往被忽略了。


        圖片

        圖5:“逐層推進(jìn)”的探索策略(以3層的離散馬爾科夫決策過程為例)



        強(qiáng)化學(xué)習(xí)中的變分先知引導(dǎo)


        圖片


        論文鏈接:https://www.microsoft.com/en-us/research/publication/variational-oracle-guiding-for-reinforcement-learning/

        GitHub鏈接:https://github.com/Agony5757/mahjong


        深度強(qiáng)化學(xué)習(xí)(DRL最近在各種決策問題上都取得了成功,然而有一個(gè)重要的方面還沒有被充分探索——如何利用 oracle observation(決策時(shí)不可見,但事后可知的信息)來幫助訓(xùn)練。例如,人類****高手會(huì)在賽后查看比賽的回放,在回放中,他們可以分析對手的手牌,從而幫助他們更好地反思比賽中自己根據(jù)可見信息(executor observation)來做的決策是否可以改進(jìn)。這樣的問題被稱為 oracle guiding。


        在這項(xiàng)工作中,研究員們基于貝葉斯理論對 oracle guiding 的問題進(jìn)行了研究。本篇論文提出了一種新的基于變分貝葉斯方法(variational Bayes)的強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù),來利用 oracle observation 幫助訓(xùn)練。這項(xiàng)工作的主要貢獻(xiàn)是提出了一個(gè)通用的強(qiáng)化學(xué)習(xí)框架,稱為 Variational Latent Oracle Guiding (VLOG)。VLOG 具有許多優(yōu)異的性質(zhì),比如在各種任務(wù)上都有著良好且魯棒的表現(xiàn),而且 VLOG 可以與任何 value-based 的 DRL 算法相結(jié)合使用。


        圖片

        圖6:VLOG 在訓(xùn)練時(shí)和使用時(shí)的模型圖表(以 Q-learning 為例)。左:訓(xùn)練時(shí)(知道 oracle observation),分別用 executor observation 和 oracle observation 來估計(jì)一個(gè)貝葉斯隱變量z的先驗(yàn)(prior)和后驗(yàn)(posterior)分布。通過優(yōu)化 VLOG 變分下界(variational lower bound,后驗(yàn)?zāi)P偷膹?qiáng)化學(xué)習(xí)目標(biāo)函數(shù)減去z的后驗(yàn)和先驗(yàn)分布之間的KL散度)來訓(xùn)練整個(gè)模型。右:使用時(shí),基于可見信息來做出決策。


        研究員們對 VLOG 進(jìn)行了各種任務(wù)的實(shí)驗(yàn),包括一個(gè)迷宮,簡明版的 Atari Games,以及麻將。實(shí)驗(yàn)涵蓋了在線以及離線強(qiáng)化學(xué)習(xí)的不同情況,均驗(yàn)證了 VLOG 的良好表現(xiàn)。 此外,研究員們還開源了文中使用的麻將強(qiáng)化學(xué)習(xí)環(huán)境和對應(yīng)的離線強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,來作為未來 oracle guiding 問題和復(fù)雜決策環(huán)境研究的標(biāo)準(zhǔn)化測試環(huán)境 。


        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

        電容傳感器相關(guān)文章:電容傳感器原理


        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉