中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專(zhuān)欄

        EEPW首頁(yè) > 博客 > IJCAI 2021 | 一文了解微軟亞洲研究院機(jī)器學(xué)習(xí)方向前沿進(jìn)展(1)

        IJCAI 2021 | 一文了解微軟亞洲研究院機(jī)器學(xué)習(xí)方向前沿進(jìn)展(1)

        發(fā)布人:MSRAsia 時(shí)間:2021-09-20 來(lái)源:工程師 發(fā)布文章

        編者按:第30屆國(guó)際人工智能聯(lián)合大會(huì) IJCAI 2021 于8月19日-26日在線(xiàn)上正式召開(kāi)。此次大會(huì)共收到4204篇投稿,其中587篇論文被接收,接收率為13.9%。在本屆會(huì)議中,微軟亞洲研究院也有多篇論文入選,今天我們精選了其中的5篇來(lái)為大家進(jìn)行簡(jiǎn)要介紹。歡迎大家積極參與文末的投****活動(dòng),我們將邀請(qǐng)大家最感興趣的論文的作者進(jìn)行深度講解,與大家線(xiàn)上交流!

        01 利用獨(dú)立性的優(yōu)勢(shì)函數(shù)估計(jì)方法

        1.png

        論文鏈接:

        https://www.ijcai.org/proceedings/2021/0461.pdf

        在強(qiáng)化學(xué)習(xí)中,優(yōu)勢(shì)函數(shù)  (advantage function)  普遍采用蒙特卡洛  (MC)、時(shí)間差分  (TD),以及一種將前兩者結(jié)合的優(yōu)勢(shì)函數(shù)估計(jì)算法(GAE)  等進(jìn)行估計(jì),而這些算法都存在方差較高的問(wèn)題。因此,微軟亞洲研究院的研究員們首次提出通過(guò)利用環(huán)境中存在于當(dāng)前動(dòng)作和未來(lái)狀態(tài)之間的獨(dú)立性,來(lái)降低優(yōu)勢(shì)函數(shù)估計(jì)中的方差。

        在該方法中,存在于環(huán)境中的獨(dú)立性可以用來(lái)構(gòu)建一個(gè)基于重要性采樣 (importance sampling) 的優(yōu)勢(shì)函數(shù)估計(jì)量。該估計(jì)量可以忽略未來(lái)無(wú)關(guān)的部分獎(jiǎng)勵(lì),從而減小估計(jì)中的方差。為了進(jìn)一步減少優(yōu)勢(shì)函數(shù)估計(jì)的方差,研究員們把該估計(jì)量和已有的蒙特卡洛估計(jì)量進(jìn)行融合,并將最終的優(yōu)勢(shì)函數(shù)估計(jì)量命名為 IAE (Independence-aware Advantage Estimation)。實(shí)驗(yàn)結(jié)果表明,在策略?xún)?yōu)化算法中,IAE 與現(xiàn)有的優(yōu)勢(shì)函數(shù)估計(jì)方法  (GAE, MC)  相比,達(dá)到了更高的樣本利用率。

        事實(shí)上,現(xiàn)有方法往往先估計(jì)值函數(shù) Q(s,a) 和 V(s),再將二者相減,進(jìn)而估計(jì)優(yōu)勢(shì)函數(shù)。但當(dāng)值函數(shù)覆蓋的時(shí)間范圍較大時(shí),估計(jì)值函數(shù)就需要考慮未來(lái)較長(zhǎng)時(shí)間內(nèi)的總獎(jiǎng)勵(lì),因此導(dǎo)致了高方差的問(wèn)題。

        當(dāng)環(huán)境中存在獨(dú)立性時(shí),優(yōu)勢(shì)函數(shù)的估計(jì)就不需要考慮環(huán)境中的部分獎(jiǎng)勵(lì),從而使得估計(jì)中的方差減小。舉個(gè)例子:假設(shè)智能體當(dāng)前的任務(wù)是打乒乓球,在該環(huán)境下,智能體每贏得一分或輸?shù)粢环趾?,游戲的狀態(tài)都會(huì)被重新設(shè)置到起始狀態(tài),并繼續(xù)進(jìn)行下一輪游戲。當(dāng)對(duì)智能體每一個(gè)動(dòng)作的優(yōu)勢(shì)函數(shù)進(jìn)行估計(jì)時(shí),由于智能體每個(gè)動(dòng)作的影響都被限制在當(dāng)前回合內(nèi),所以下一輪及之后的獎(jiǎng)勵(lì)實(shí)質(zhì)上不影響優(yōu)勢(shì)函數(shù)的估計(jì)。

        上述例子表明,如果執(zhí)行當(dāng)前的動(dòng)作不影響未來(lái)某些狀態(tài)的概率,那么這些未來(lái)狀態(tài)上的獎(jiǎng)勵(lì)在估計(jì)優(yōu)勢(shì)函數(shù)時(shí)就可以被忽略。研究員們對(duì)上述觀察進(jìn)行了概括和抽象,并提出了基于重要性采樣的優(yōu)勢(shì)函數(shù)估計(jì)量。下面給出的是基于重要性采樣推導(dǎo)出來(lái)的該估計(jì)量的形式:

        2.png

        此公式證明了如下的估計(jì)量是優(yōu)勢(shì)函數(shù)的無(wú)偏估計(jì)量:

        3.png

        在后續(xù)推導(dǎo)中,研究員們進(jìn)一步將上述基于重要性采樣的估計(jì)量與基于蒙特卡洛的優(yōu)勢(shì)函數(shù)估計(jì)量進(jìn)行結(jié)合,并通過(guò)優(yōu)化結(jié)合后估計(jì)量的方差,使優(yōu)勢(shì)函數(shù)估計(jì)的方差更小。同時(shí),研究員們將組合后的優(yōu)勢(shì)函數(shù)估計(jì)量命名為 IAE,并在實(shí)驗(yàn)中測(cè)量了 IAE  的估計(jì)性能。最后,研究員們還提出了上述公式中重要性采樣的概率比值的估計(jì)方法,并且還利用其對(duì)該概率比值進(jìn)行了準(zhǔn)確的估計(jì)。

        在 tabular 設(shè)置下,研究員們構(gòu)建了多種包含3個(gè)狀態(tài)的馬爾可夫決策過(guò)程 (MDP),并且在這些設(shè)置中包含了不同的轉(zhuǎn)移函數(shù)設(shè)置和不同的獎(jiǎng)勵(lì)設(shè)置。研究員們比較了  IAE、蒙特卡洛、重要性采樣三種優(yōu)勢(shì)函數(shù)估計(jì)量在不同設(shè)置下的標(biāo)準(zhǔn)差,結(jié)果見(jiàn)表1。實(shí)驗(yàn)結(jié)果表明,IAE 的估計(jì)量的標(biāo)準(zhǔn)差顯著小于蒙特卡洛和重要性采樣的估計(jì)量的標(biāo)準(zhǔn)差。

        4.png

        表1:不同設(shè)置下 IAE、MC、IS 的標(biāo)準(zhǔn)差

        為了驗(yàn)證 IAE 在策略?xún)?yōu)化中的作用,研究員們將 IAE、蒙特卡洛、GAE 分別作為 PPO 算法中的優(yōu)勢(shì)函數(shù)估計(jì)方法,使用 PPO 算法進(jìn)行策略?xún)?yōu)化,并觀察不同優(yōu)勢(shì)函數(shù)估計(jì)方法在策略?xún)?yōu)化中的性能。該實(shí)驗(yàn)使用高維圖像作為狀態(tài),即智能體的策略和優(yōu)勢(shì)函數(shù)的估計(jì)均只使用圖像輸入。PPO 算法在不同優(yōu)勢(shì)函數(shù)估計(jì)方法下的訓(xùn)練曲線(xiàn)圖1,兩幅圖對(duì)應(yīng)于兩種不同的獎(jiǎng)勵(lì)設(shè)置。實(shí)驗(yàn)結(jié)果表明,IAE 作為優(yōu)勢(shì)函數(shù)估計(jì)算法時(shí),策略?xún)?yōu)化過(guò)程的樣本利用率更高。

        5.png

        圖1:PPO 算法在不同優(yōu)勢(shì)函數(shù)估計(jì)方法下的訓(xùn)練曲線(xiàn)

        02 面向合作與非合作任務(wù)的多智能體強(qiáng)化學(xué)習(xí)方法MFVFD

        6.png

        論文鏈接:

        https://www.ijcai.org/proceedings/2021/0070.pdf

        多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning, MARL) 有望幫助解決各種現(xiàn)實(shí)世界中的問(wèn)題。然而,追求有效的MARL 面臨著兩大挑戰(zhàn):部分可觀察性和可擴(kuò)展性限制。為了應(yīng)對(duì)這兩大挑戰(zhàn),并使得 MARL 適用于競(jìng)爭(zhēng)任務(wù)、合作任務(wù)以及混合任務(wù),微軟亞洲研究院和北京大學(xué)的研究員們?cè)谥行挠?xùn)練分散執(zhí)行(Centralized Training with Decentralized Execution,CTDE)的框架下,從個(gè)體值函數(shù)分解 (Value Function Decomposition,VFD)的角度,結(jié)合平均場(chǎng)理論(Mean Field Theory,共同提出了一種新穎的多智能體 Q 學(xué)習(xí)方法——MFVFD。

        正所謂“非宅是卜,唯鄰是卜”,如果鄰里和睦,則利人利己;而鄰里不和,則多是非。也就是說(shuō),在多智能體系統(tǒng)中,個(gè)體不僅要考量最大化自身的利益,也要考量其臨近智能體的行為對(duì)齊本身的影響。比如,在足球環(huán)境中,球員射門(mén)得分與否,除去依賴(lài)球員個(gè)體自身的射門(mén)能力之外,還會(huì)受到近鄰智能體的影響,即優(yōu)秀的隊(duì)友與糟糕的對(duì)手會(huì)促進(jìn)得分,而糟糕的隊(duì)友和優(yōu)秀的對(duì)手則會(huì)阻礙得分。

        為了研究多智能體如何在既有合作又有競(jìng)爭(zhēng)的環(huán)境下的表現(xiàn),研究員們基于平均場(chǎng)理論將個(gè)體在多智能體系統(tǒng)中基于全局信息的動(dòng)作值函數(shù),近似為基于局部信息估計(jì)的個(gè)體動(dòng)作值函數(shù)與基于近鄰信息的平均場(chǎng)影響函數(shù)的和,公式如下:

        7.png

        其中,Q_LOC^i 為基于局部信息的個(gè)體 i 的動(dòng)作值函數(shù),用于動(dòng)作選擇;Q_MF^i 為基于近鄰信息的平均場(chǎng)影響函數(shù),用于輔助對(duì) Q_LOC^i 的估計(jì)??紤]到智能體不同近鄰的重要性不同,所以研究員們使用注意力機(jī)制(Attention)建立了單體與近鄰的權(quán)重 λ^i (o^i,o^k,a^i,a^k),并基于此計(jì)算帶有重要性權(quán)重的近鄰觀測(cè)分布  μ_o (o^(-i) ) 和動(dòng)作分布 μ_a (a^(-i) ) ,以構(gòu)建平均場(chǎng)影響函數(shù) Q_MF^i。

        8.png

        圖2:MFVFD 網(wǎng)絡(luò)結(jié)構(gòu)圖

        在主試驗(yàn)部分,研究員們選取了 MAgent Battle 任務(wù),對(duì) MFVFD 在具有大規(guī)模智能體且具有部分觀測(cè)的限制下的性能進(jìn)行了驗(yàn)證。在該任務(wù)中,紅藍(lán)雙方各具有400個(gè)智能體,每個(gè)智能體具有局部觀測(cè),且無(wú)法通訊,其通過(guò)消滅敵人來(lái)獲得獎(jiǎng)勵(lì)。由于每個(gè)智能體以?xún)?yōu)化各自的獎(jiǎng)勵(lì)為目標(biāo),所以單體會(huì)與同伴競(jìng)爭(zhēng)殺敵數(shù)量,來(lái)獲取更多的個(gè)人獎(jiǎng)勵(lì)。除此之外,單體還會(huì)與同伴配合避免被殺害,以消滅所有敵人獲取更多的團(tuán)隊(duì)獎(jiǎng)勵(lì)。因此,這是一個(gè)合作和競(jìng)爭(zhēng)混合的復(fù)雜任務(wù)。如圖3所示,MFVFD(紅色)與基線(xiàn)方法的(藍(lán)色)相比,學(xué)會(huì)了更難的團(tuán)體配合的圍殲策略,取得了勝利。從對(duì)抗勝率上可以看出,MFVFD 在所有的基線(xiàn)方法中,幾乎處于不敗地位。

        9.png

        圖3:MFVFD 與基線(xiàn)方法相比

        此外,研究員們還選取了三個(gè)任務(wù)對(duì) MFVFD 方法進(jìn)行了理論分析,分別是:重復(fù)矩陣博弈任務(wù)----鷹鴿博弈與非單調(diào)合作博弈;合作導(dǎo)航任務(wù)----Cooperative Navigation;交通任務(wù)----Traffic Benchmark。從長(zhǎng)遠(yuǎn)來(lái)看,MFVFD 在實(shí)際環(huán)境中能夠有實(shí)際可行的研究?jī)r(jià)值。

        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專(zhuān)區(qū)

        關(guān)閉