中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專欄

        EEPW首頁 > 博客 > MVTN:用于3D形狀識(shí)別的多視圖轉(zhuǎn)換網(wǎng)絡(luò)(ICCV2021)

        MVTN:用于3D形狀識(shí)別的多視圖轉(zhuǎn)換網(wǎng)絡(luò)(ICCV2021)

        發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2021-11-07 來源:工程師 發(fā)布文章

        論文標(biāo)題:MVTN: Multi-View Transformation Network for 3D Shape Recognition

        論文、項(xiàng)目地址:在公眾號(hào)「計(jì)算機(jī)視覺工坊」,后臺(tái)回復(fù)「MVTN」,即可直接下載。

        1.png

        摘要:多視圖投影方法在3D形狀識(shí)別方面能達(dá)到先進(jìn)的性能,現(xiàn)有的這些方法學(xué)習(xí)從多個(gè)視圖聚合信息。然而,對于所有形狀,這些視圖的相機(jī)視點(diǎn)往往是啟發(fā)式設(shè)置和固定的。為了避免當(dāng)前固化的多視圖方法,研究人員引入了多視圖轉(zhuǎn)換網(wǎng)絡(luò) (MVTN),它基于可微渲染的最新研究進(jìn)展實(shí)現(xiàn)3D形狀識(shí)別的視點(diǎn)回歸。因此,MVTN可以與任何用于3D形狀分類的多視圖網(wǎng)絡(luò)一起進(jìn)行端到端的訓(xùn)練。研究人員將MVTN集成到可以渲染3D網(wǎng)格或點(diǎn)云的新型自適應(yīng)多視圖網(wǎng)絡(luò)中。MVTN在3D形狀分類和3D形狀檢索任務(wù)中表現(xiàn)出明顯的性能提升,而無需額外的訓(xùn)練監(jiān)督。在這些任務(wù)中,MVTN在ModelNet40、ShapeNet Core55和最新的ScanObjectNN數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能(提高了6%)。同時(shí)研究表明MVTN可以針對旋轉(zhuǎn)和遮擋提高網(wǎng)絡(luò)的魯棒性。

        研究貢獻(xiàn):

        1.提出了MVTN網(wǎng)絡(luò),利用可微分渲染器,支持3D形狀識(shí)別任務(wù)的端到端訓(xùn)練。

        2.將MVTN與多視圖方法相結(jié)合,在標(biāo)準(zhǔn)基線ModelNet40、ShapeNet Core55和ScanObjectNN上的3D分類和形狀檢索方面取得了當(dāng)前研究中的最佳結(jié)果。

        3.MVTN針對多視圖旋轉(zhuǎn)和遮擋問題,提高網(wǎng)絡(luò)的魯棒性,使MVTN在3D模型未完全對齊或部分裁剪的現(xiàn)實(shí)場景中更加實(shí)用。

        研究方法:

        1.MultiView 3D 識(shí)別概述

        3D多視圖識(shí)別通過從相同形狀S的多個(gè)視點(diǎn)渲染定義了M幅圖像,這些視圖被輸入至同一個(gè)骨干網(wǎng)絡(luò)f中,使用該網(wǎng)絡(luò)提取每個(gè)視圖的判別特征,然后將這些特征在視圖中進(jìn)行聚合,進(jìn)而用于下游任務(wù),例如分類或檢索。

        Training Multi-View Networks:

        2.png

        上述公式中的這些參數(shù)表示影響渲染圖像的屬性,包括相機(jī)視點(diǎn)、光線、對象顏色和背景等。其中R是渲染器,它將形狀Sn和參數(shù)u0作為輸入以生成每個(gè)形狀的M個(gè)多視圖圖像Xn。

        Canonical Views:

        以前的多視圖方法主要依賴于與整個(gè)3D數(shù)據(jù)集預(yù)定義相關(guān)的場景參數(shù)u0。特別是,固定的攝像機(jī)視點(diǎn)通常是運(yùn)用數(shù)據(jù)集中3D模型的對齊進(jìn)行選擇的。最常見的視圖配置是圓形和球形,圓形是在對象的一個(gè)圓上對齊視點(diǎn),球形是在對象的球體上對齊等距的視點(diǎn)。相比于上述方法,MVTN學(xué)習(xí)回歸每個(gè)形狀的觀點(diǎn),如下圖所示。

        3.png

        2.Multi-View Transformation Network (MVTN)

        以前的多視圖方法將多視圖圖像X作為3D形狀的唯一表示,其中X使用固定的場景參數(shù)u0進(jìn)行渲染。本文中考慮一般性的情況,其中u是可變的,但是其在±ubound范圍內(nèi)變化。該研究中,ubound是正數(shù),它定義了場景參數(shù)的允許范圍,將相對應(yīng)角的ubound設(shè)置為180°和90°。

        4.png

        Differentiable Renderer:

        5.png

        View-Points Conditioned on 3D Shape.:

        研究人員通過學(xué)習(xí)MVTN網(wǎng)絡(luò),將u設(shè)計(jì)為3D形狀的函數(shù)。與依賴于恒定不變的渲染參數(shù)的上述公式不同,MVTN針對每個(gè)對象形狀S自適應(yīng)地預(yù)測u,并與分類器C一起進(jìn)行優(yōu)化。經(jīng)過端到端訓(xùn)練,以最大限度地減少N個(gè)對象數(shù)據(jù)集上的損失:

        6.png

        該公式中,G通過編碼一個(gè)3D形狀以預(yù)測其針對特定任務(wù)的多視圖網(wǎng)絡(luò)C的最佳視點(diǎn)。由于G僅用于預(yù)測視點(diǎn)而不是對對象進(jìn)行分類,因此其架構(gòu)較為簡單輕便。因此,研究人員使用一個(gè)簡單的點(diǎn)編碼器(例如PointNet中的共享MLP),處理來自S的P個(gè)點(diǎn)并產(chǎn)生維度 b上的粗略形狀特征。然后,淺層MLP從全局形狀特征中回歸場景參數(shù)。為了控制預(yù)測參數(shù)u在允許的范圍ubound內(nèi),研究人員使用由ubound縮放的雙曲正切函數(shù)。

        MVTN for 3D Shape Classification:

        為了訓(xùn)練MVTN實(shí)現(xiàn)3D形狀分類,研究人員定義了交叉熵?fù)p失,但也可以使用其他損失和正則化器。多視圖網(wǎng)絡(luò)(C)和MVTN(G)在相同的損失上進(jìn)行聯(lián)合訓(xùn)練。該多視圖網(wǎng)絡(luò)的一個(gè)優(yōu)點(diǎn)是它能夠無縫處理3D點(diǎn)云,這在以前的多視圖方法中是不存在的。當(dāng)S是3D點(diǎn)云時(shí),簡單地將R定義為可微分點(diǎn)云渲染器。

        MVTN for 3D Shape Retrieval:

        三維形狀檢索任務(wù)定義如下:給定一個(gè)查詢形狀Sq,在大小為N的集合中找到最相似的形狀。對于這個(gè)任務(wù),研究人員遵循MVCNN中的檢索設(shè)置,并且考慮了C中分類器之前最后一層的深層特征表示,使用LFDA以減少將這些特征投影到更具表現(xiàn)力的空間中,并將減少的特征視為描述形狀的特征。

        7.png

        實(shí)驗(yàn)設(shè)置與結(jié)果:

        1.數(shù)據(jù)集:ModelNet40,ShapeNet Core55,ScanObjectNN

        2.Baseline:Voxel Networks,Point Cloud Networks,Multi-view Networks

        3.結(jié)構(gòu):研究人員選擇MVCNN、RotationNet和ViewGCN作為在MVTN管道中選擇的多視圖網(wǎng)絡(luò)。實(shí)驗(yàn)中,選擇 PointNet作為3D點(diǎn)編碼器網(wǎng)絡(luò)G,從每個(gè)網(wǎng)格中采樣P = 2048 個(gè)點(diǎn)作為點(diǎn)編碼器的輸入,并使用5層MLP進(jìn)行回歸網(wǎng)絡(luò),它將大小為b = 40的點(diǎn)編碼器提取的點(diǎn)特征作為輸入。所有MVTN變體和baseline多視圖網(wǎng)絡(luò)使用在ImageNet上預(yù)訓(xùn)練的ResNet-18作為C中的多視圖主干網(wǎng)絡(luò),輸出特征大小為d=1024。主要分類和檢索采用基于 MVTN-sphereal和ViewGCN的多視圖網(wǎng)絡(luò)C。

        4.實(shí)驗(yàn)結(jié)果:

        8.png9.png

        相關(guān)實(shí)驗(yàn)結(jié)果如上面幾個(gè)表格所示,其中表1在ModelNet40上比較了MVTN與其他方法的性能,與以前的方法相比,MVTN實(shí)現(xiàn)了93.8%的測試準(zhǔn)確率。ViewGCN依靠來自更先進(jìn)但不可微分的OpenGL渲染器的更高質(zhì)量的圖像來實(shí)現(xiàn)更高的分類性能。為了公平比較,研究人員使用MVTN中使用的渲染器生成的圖像報(bào)告了ViewGCN的性能。使用相同的渲染過程,使用MVTN提高了基線ViewGCN在12視圖和20視圖的分類性能。研究人員認(rèn)為可微渲染的進(jìn)展將彌合渲染圖像與原始高質(zhì)量預(yù)渲染圖像之間的差距。表2報(bào)告了12視圖MVTN在實(shí)際ScanObjectNN基準(zhǔn)測試上的分類精度。MVTN提高了數(shù)據(jù)集不同變體的性能。ScanObjectNN(PB_T50_RS)最困難的變體包括物體進(jìn)行平移和旋轉(zhuǎn)的挑戰(zhàn)性場景。本研究中的MVTN在這個(gè)變體上取得了最先進(jìn)的結(jié)果(+2.6%),突出了MVTN在逼真3D點(diǎn)云掃描方面的優(yōu)點(diǎn)。表3報(bào)告了MVTN的檢索mAP與最近在ModelNet40和ShapeNet Core55上的方法比較的結(jié)果。表4體現(xiàn)了對訓(xùn)練模型魯棒性的檢測。

        總結(jié):

        當(dāng)前的多視圖方法依賴于與數(shù)據(jù)集對齊的固定視圖。本研究中提出了MVTN,可以在完全可微中學(xué)習(xí)回歸任何多視圖網(wǎng)絡(luò)的視點(diǎn)。MVTN利用可微渲染的最新發(fā)展,并且不需要任何額外的培訓(xùn)監(jiān)督。上述實(shí)驗(yàn)結(jié)果體現(xiàn)了MVTN在3D分類和3D形狀檢索中的優(yōu)勢。MVTN未來的研究工作可能包括將其擴(kuò)展到其他3D視覺任務(wù),例如形狀和場景分割。此外,MVTN可以包括與攝像機(jī)視點(diǎn)不同的更復(fù)雜的場景參數(shù),例如光線和紋理。

        備注:作者也是我們「3D視覺從入門到精通」知識(shí)特邀嘉賓:一個(gè)超干貨的3D視覺學(xué)習(xí)社區(qū)

        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉