中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專欄

        EEPW首頁 > 博客 > NüWA:女媧算法,多模態(tài)預(yù)訓(xùn)練模型,大殺四方!

        NüWA:女媧算法,多模態(tài)預(yù)訓(xùn)練模型,大殺四方!

        發(fā)布人:計算機視覺工坊 時間:2021-12-15 來源:工程師 發(fā)布文章

        1.png

        論文地址:https://arxiv.org/abs/2111.12417

        源代碼:https:// github.com/microsoft/NUWA

        一、前言

        今天分享的論文,主要提出了一個統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型,稱為NüWA,可以為各種視覺合成任務(wù)生成新的或操縱現(xiàn)有的視覺數(shù)據(jù)(即圖像和視頻)。針對不同場景同時覆蓋語言、圖像和視頻,設(shè)計了3D Transformer編碼器-****框架,不僅可以將視頻作為3D數(shù)據(jù)處理,還可以分別將文本和圖像作為1D和2D數(shù)據(jù)進行適配。還提出了3D Nearby Attention(3DNA)機制來考慮視覺數(shù)據(jù)的性質(zhì)并降低計算復(fù)雜度。在8個下游任務(wù)上評估NüWA。與幾個強大的基線相比,NüWA在文本到圖像生成、文本到視頻生成、視頻預(yù)測等方面取得了最先進的結(jié)果。此外,它還顯示了令人驚訝的良好的文本零樣本能力——引導(dǎo)圖像和視頻處理任務(wù)。

        2.png

        8個任務(wù)的案例

        二、背景

        如今,網(wǎng)絡(luò)變得比以往任何時候都更加視覺化,圖像和視頻已成為新的信息載體,并已被用于許多實際應(yīng)用中。在此背景下,視覺合成正成為越來越受歡迎的研究課題,其目的是構(gòu)建可以為各種視覺場景生成新的或操縱現(xiàn)有視覺數(shù)據(jù)(即圖像和視頻)的模型。

        自回歸模型【Auto-regressive models】在視覺合成任務(wù)中發(fā)揮著重要作用,因為與GAN相比,它們具有顯式的密度建模和穩(wěn)定的訓(xùn)練優(yōu)勢。早期的視覺自回歸模型,如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer,都是以“pixel-by-pixel”的方式進行視覺合成的。然而,由于它們在高維視覺數(shù)據(jù)上的高計算成本,這些方法只能應(yīng)用于低分辨率的圖像或視頻,并且難以擴展。

        最近,隨著VQ-VAE作為離散視覺標記化方法的出現(xiàn),高效和大規(guī)模的預(yù)訓(xùn)練可以應(yīng)用于圖像的視覺合成任務(wù)(例如DALL-E和CogView) 和視頻(例如GODIVA)。盡管取得了巨大的成功,但此類解決方案仍然存在局限性——它們分別處理圖像和視頻,并專注于生成它們中的任何一個。這限制了模型從圖像和視頻數(shù)據(jù)中受益。

        三、NüWA的表現(xiàn)

        Text-To-Image(T2I)

        3.png

        一只戴著護目鏡,盯著攝像機的狗

        4.png

        Sketch-To-Image (S2I)

        5.png

        草圖轉(zhuǎn)圖片任務(wù),就是根據(jù)草圖的布局,生成對應(yīng)的圖片

        Image Completion (I2I)

        6.png

        圖像補全,如果一副圖片殘缺了,算法可以自動“腦補”出殘缺的部分

        7.jpg

        Image Manipulation (TI2I)

        8.png

        圖片處理,根據(jù)文字描述,處理圖片

        例如:有一副草原的圖片,然后增加一段描述:一匹馬奔跑在草原上,然后就可以生成對應(yīng)的圖片。

        9.png

        Video

        10.png

        四、新框架

        11.png

        NüWA模型的整體架構(gòu)包含一個支持多種條件的 adaptive 編碼器和一個預(yù)訓(xùn)練的****,能夠同時使圖像和視頻的信息。對于圖像補全、視頻預(yù)測、圖像處理和視頻處理任務(wù),將輸入的部分圖像或視頻直接送入****即可。

        12.png

        而編碼****都是基于一個3D NEARBY SELF-ATTENTION(3DNA)建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:

        13.png

        W 表示可學(xué)習(xí)的權(quán)重,X 和 C 分別代表文本、圖像、視頻數(shù)據(jù)的 3D 表示。

        3DNA考慮了完整的鄰近信息,并為每個token動態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關(guān)注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

        3D DATA REPRESENTATION

        為了涵蓋所有文本、圖像和視頻或其草圖,研究者將它們?nèi)恳暈闃擞洸⒍x統(tǒng)一的 3D符號X∈Rh×w×s×d,其中h和w表示空間軸(分別為高度和寬度)中的標記數(shù)量,s表示時間軸上的標記數(shù)量,d是每個標記的維度。

        3D NEARBY SELF-ATTENTION

        基于之前的3D數(shù)據(jù)表示定義了一個統(tǒng)一的3D Nearby Self-Attention (3DNA) 模塊,支持自注意力和交叉注意力。首先給出方程中3DNA的定義:

        14.png

        并在如下等式中介紹詳細的實現(xiàn)。

        15.png16.png17.png

        3D ENCODER-DECODER

        開始介紹基于3DNA構(gòu)建的3D編碼-****。為了在C∈Rh′×w′×s′×din的條件下生成目標Y∈Rh×w×s×dout,Y和C的位置編碼通過考慮高度、寬度和時間軸的三個不同的可學(xué)習(xí)詞匯更新。

        18.png

        然后,條件C被輸入到具有L 3DNA層堆棧的編碼器中,以對自注意力交互進行建模,第l層在等式中表示:

        19.png

        同樣,****也是一堆L 3DNA層。****計算生成結(jié)果的自注意力以及生成結(jié)果和條件之間的交叉注意力。第l層表示如下等式。

        20.png

        五、實驗簡單分析

        21.png22.png

        其他實驗可在論文中獲?。?/p>

        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: 深度學(xué)習(xí)

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉