中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專欄

        EEPW首頁 > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎?(2)

        ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎?(2)

        發(fā)布人:計算機視覺工坊 時間:2023-07-04 來源:工程師 發(fā)布文章
        一、引言

        近年來,數(shù)據(jù)驅(qū)動的深度學習在人工智能系統(tǒng)中得到廣泛應用。計算硬件的進步極大地推動了機器智能的發(fā)展,并促進了一種新興的范式,即基于廣泛數(shù)據(jù)訓練的模型的知識轉(zhuǎn)移。

        • 自然語言處理 (NLP) 取得了巨大的成功,其中的模型旨在通過對極大規(guī)模數(shù)據(jù)進行自監(jiān)督學習來獲取通用表示。
        • 自從Transformer在視覺領域取得成功后,人們已經(jīng)做出了許多努力,將這種趨勢從NLP領域擴展到基于2D視覺理解的基礎模型中。

        與2D視覺和NLP相比,基于基礎的視覺計算在3D社區(qū)中發(fā)展滯后。提出以下問題:是什么使得3D表示學習比2D視覺或NLP更具挑戰(zhàn)性?

        從以下三個角度提供一些分析性答案:

        i. 架構不統(tǒng)一。先驅(qū)性架構如PointNet只能對3D坐標進行編碼,而無法應用于在NLP和2D視覺中取得成功的掩碼去噪自編碼(DAE)。然而,Transformer架構現(xiàn)在已經(jīng)彌補了這種架構上的差距,實現(xiàn)了跨所有模態(tài)格式的統(tǒng)一表示,并為擴展3D中的DAE帶來了巨大潛力。

        ii. 數(shù)據(jù)稀缺。與圖像和自由形式語言相比,收集和標注3D或4D數(shù)據(jù)更加困難,通常需要更昂貴且密集的工作。此外,考慮到數(shù)據(jù)規(guī)模,3D數(shù)據(jù)嚴重匱乏。這促使了跨模態(tài)知識轉(zhuǎn)移的使用。最近的研究要么與其他模態(tài)一起進行聯(lián)合訓練以實現(xiàn)更有效的對比,要么直接對在圖像數(shù)據(jù)上預訓練的2D Transformers進行微調(diào)。

        iii. 模式差異。表1顯示了語言、2D圖像和3D點云的數(shù)據(jù)模式比較??梢杂^察到:

        • (i)3D點云通常是非結(jié)構化的,包含稀疏語義,不同于語言。這導致在點云上進行掩碼去噪自編碼更加困難;
        • (ii)2D圖像在網(wǎng)格上均勻分布,而3D點云則是從對象表面不規(guī)則采樣。這種結(jié)構上的差異導致了單模態(tài)增強和跨模態(tài)對應的對比目標構建的困難;
        • (iii)如何設計具有豐富語義的更好表示成為自監(jiān)督3D理解的主要目標。

        在上述分析的推動下,作者提出了將Autoencoders作為跨模態(tài)教師進行訓練。

        • ACT利用基于2D圖像或自然語言預訓練的基礎Transformers作為跨模態(tài)教師,具有豐富的知識和強大的表示能力。通過這種方式,3D中的數(shù)據(jù)稀缺問題得到緩解。
        • Transformer被用作通用的3D學習器,彌補了掩碼建模表示學習方面的架構差距。通過以自監(jiān)督的方式在3D數(shù)據(jù)上微調(diào)預訓練的Transformers作為自編碼器,Transformers可以將3D點云轉(zhuǎn)化為具有豐富語義的表示形式。為了保留和繼承預訓練的基礎知識,使用了提示微調(diào)。

        因此,ACT使預訓練的Transformers成為自發(fā)的跨模態(tài)教師,為3D點云提供了語義豐富的掩碼建模目標。

        • 由于預訓練的Transformers被微調(diào)為3D自編碼器,在這種跨模態(tài)Transformer轉(zhuǎn)移過程中不需要任何圖像、語言數(shù)據(jù)或3D下游標注。
        • 此外,由于調(diào)整后的Transformers僅用作3D Transformer學生的教師,該方法在下游特征轉(zhuǎn)移過程中不會引入額外的計算或存儲成本。

        此外,進行了各種任務的大量實驗證明了ACT預訓練3D Transformers具有出色的泛化性能。

        • 例如,在ScanObjectNN數(shù)據(jù)集上實現(xiàn)了平均準確率提高%。

        據(jù)知,本文首次證明了預訓練的基礎Transformer可以幫助3D表示學習,而無需訪問任何2D、語言數(shù)據(jù)或3D下游標注。ACT是一個自監(jiān)督的框架,可以推廣到其他模態(tài)和任務,期望這能夠推動更多類似ACT風格的表示學習的探索。



        表1: 數(shù)據(jù)模式比較

        圖片

        二、相關背景自監(jiān)督的3D幾何處理表示學習

        自監(jiān)督的3D幾何處理表示學習目前在學術界引起了極大的興趣。

        • 傳統(tǒng)方法是基于重建的幾何理解預任務構建的,例如點云部分重排序,方向估計,局部和全局重建,流一致性,變形和遮擋。

        • 與此同時,Xie等人在PointContrast中提出了學習增強點云之間的區(qū)分性視角一致性的方法。在這個方向上,還提出了許多相關工作。

        最近,許多工作提出了應用點云Transformer的自編碼器(DAE)預訓練的方法,并取得了顯著的成功。

        • Yu等人通過擴展BERT-style預訓練的思想,結(jié)合全局對比目標,開創(chuàng)了這個方向。
        • Liu等人提出了添加一些噪聲點,并對每個掩碼位置的掩碼標記進行真假分類的方法,這與Selfie的模式相似,后者對掩碼圖像塊進行真假分類。
        • Pang等人提出了通過對3D點云坐標進行掩碼建模,在點云上探索MAE的方法。

        作者遵循這種DAE-style表示學習范式,但與之前的方法不同,工作旨在使用由預訓練基礎Transformer編碼的潛在特征作為掩碼建模目標。

        跨模態(tài)的3D表示學習

        跨模態(tài)的3D表示學習旨在利用除了3D點云之外的更多模態(tài)內(nèi)在的學習信號,例如,2D圖像被認為具有豐富的上下文和紋理知識,而自由形式的語言則具有密集的語義信息。主流方法基于全局特征匹配的對比學習進行開發(fā)。

        • 例如,Jing等人提出了一種判別性中心損失函數(shù),用于點云、網(wǎng)格和圖像的特征對齊。
        • Afham等人提出了一種在增強的點云和相應渲染的2D圖像之間進行的模態(tài)內(nèi)和模態(tài)間對比學習框架。

        通過利用幾何先驗信息進行密集關聯(lián),另一項工作探索了細粒度的局部特征匹配。

        • Liu等人提出了一種對比知識蒸餾方法,用于對齊細粒度的2D和3D特征。
        • Li等人提出了一個簡單的對比學習框架,用于模態(tài)內(nèi)和模態(tài)間的密集特征對比,并使用匈牙利算法進行更好的對應。

        最近,通過直接使用經(jīng)過監(jiān)督微調(diào)的預訓練2D圖像編碼器取得了很大的進展。

        • Image2Point 提出了通過卷積層膨脹來傳遞預訓練權重的方法。
        • P2P 提出了將3D點云投影到2D圖像,并通過可學習的上色模塊將其作為圖像主干網(wǎng)絡的輸入。

        一些工作也探索了預訓練基礎模型是否可以幫助3D學習。然而,本文作者的方法:

        (1)不使用預訓練的2D或語言模型作為推斷的主干模型;

        (2)在無下游3D標注的自監(jiān)督預訓練過程中探索使用來自其他模態(tài)的預訓練基礎模型;

        (3)不需要成對的點-圖像或點-語言數(shù)據(jù)。

        除了2D圖像之外,還有一些工作提出利用自然語言進行對比的3D表示學習,零樣本學習,以及場景理解。


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區(qū)

        關閉