中文字幕另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sub id="3hn2b"><ol id="3hn2b"></ol></sub>

<xmp id="3hn2b"></xmp>

"); //-->

博客專欄

EEPW首頁 > 博客 > 爆火Sora參數(shù)規(guī)模僅30億？謝賽寧等大佬技術(shù)分析來了

爆火Sora參數(shù)規(guī)模僅30億？謝賽寧等大佬技術(shù)分析來了

發(fā)布人：傳感器技術(shù) 時間：2024-02-18 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

明敏豐色發(fā)自量子位

就說Sora有多火吧。

生成的視頻上線一個、瘋傳一個。

作者小哥新上傳的效果，很快引來圍觀。

失敗案例都讓人看得上癮。

將近1萬人點贊。

學(xué)術(shù)圈更炸開鍋了，各路大佬紛紛開麥。

紐約大學(xué)助理教授謝賽寧（ResNeXt的一作）直言，Sora將改寫整個視頻生成領(lǐng)域。

英偉達高級研究科學(xué)家Jim Fan高呼，這就是視頻生成的GPT-3時刻??！

尤其在技術(shù)報告發(fā)布后，討論變得更加有趣。因為其中諸多細節(jié)不是十分明確，所以大佬們也只能猜測。

包括“Sora是一個數(shù)據(jù)驅(qū)動的物理引擎”、“Sora建立在DiT模型之上、參數(shù)可能僅30億”等等。

所以，Sora為啥能如此驚艷？它對視頻生成領(lǐng)域的意義是？這不，很快就有了一些可能的答案。

視頻生成的GPT-3時刻

總的來說，Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴散模型，同時采用了Transformer架構(gòu)，也就是一種“擴散型Transformer”。

關(guān)于技術(shù)細節(jié)，官方報告簡單提了以下6點：

一是視覺數(shù)據(jù)的“創(chuàng)新轉(zhuǎn)化”。

與大語言模型中的token不同，Sora采用的是“Patches（補片）”來統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。

如下圖所示，在具體操作中，模型先將視頻壓縮到低維潛空間中，然后將它們表示分解為時空補片，從而將視頻轉(zhuǎn)換為補片。（啊這，說了又仿佛什么都沒說）

二是訓(xùn)練了一個視頻壓縮網(wǎng)絡(luò)。

它可以降低視覺數(shù)據(jù)維度，輸入視頻，輸出時空上壓縮的潛表示。

Sora就在這上面完成訓(xùn)練。相應(yīng)地，OpenAI也訓(xùn)練了一個專門的****。

三是時空補片技術(shù)（Spacetime latent patches）。

給定一個壓縮的輸入視頻，模型提取一系列時空補片，充當(dāng)Transformer的token。正是這個基于補片的表示讓Sora能夠?qū)Σ煌直媛?、持續(xù)時間和長寬比的視頻和圖像進行訓(xùn)練。

在推理時，模型則通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的補片來控制生成視頻的大小。

四是擴展Transformer也適用于視頻生成的發(fā)現(xiàn)。

OpenAI在這項研究中發(fā)現(xiàn)，擴散型Transformer同樣能在視頻模型領(lǐng)域中完成高效擴展。

下圖展示出隨著訓(xùn)練資源的增加，樣本質(zhì)量明顯提升（固定種子和輸入條件）。

五是視頻多樣化上的一些揭秘。

和其他模型相比，Sora能夠hold住各種尺寸的視頻，包括不同分辨率、時長、寬高比等等。

也在構(gòu)圖和布局上優(yōu)化了更多，如下圖所示，很多業(yè)內(nèi)同類型模型都會盲目裁剪輸出視頻為正方形，造成主題元素只能部分展示，但Sora可以捕捉完整的場景：

報告指出，這都要歸功于OpenAI直接在視頻數(shù)據(jù)的原始尺寸上進行了訓(xùn)練。

最后，是語言理解方面上的功夫。

在此，OpenAI采用了DALL·E 3中引入的一種重新標(biāo)注技術(shù)，將其應(yīng)用于視頻。

除了使用描述性強的視頻說明進行訓(xùn)練，OpenAI也用GPT來將用戶簡短的提示轉(zhuǎn)換為更長的詳細說明，然后發(fā)送給Sora。

這一系列使得Sora的文字理解能力也相當(dāng)給力。

關(guān)于技術(shù)的介紹報告只提了這么多，剩下的大篇幅都是圍繞Sora的一系列效果展示，包括文轉(zhuǎn)視頻、視頻轉(zhuǎn)視頻，以及圖片生成。

可以看到，諸如其中的“patch”到底是怎么設(shè)計的等核心問題，文中并沒有詳細講解。

有網(wǎng)友吐槽，OpenAI果然還是這么地“Close”（狗頭）。

正是如此，各路大佬和網(wǎng)友們的猜測也是五花八門。

謝賽寧分析：

1、Sora應(yīng)該是建立在DiT這個擴散Transformer之上的。

簡而言之，DiT是一個帶有Transformer主干的擴散模型，它= [VAE 編碼器 + ViT + DDPM + VAE ****]。

謝賽寧猜測，在這上面，Sora應(yīng)該沒有整太多花哨的額外東西。

2、關(guān)于視頻壓縮網(wǎng)絡(luò)，Sora可能采用的就是VAE架構(gòu)，區(qū)別就是經(jīng)過原始視頻數(shù)據(jù)訓(xùn)練。

而由于VAE是一個ConvNet，所以DiT從技術(shù)上來說是一個混合模型。

3、Sora可能有大約30億個參數(shù)。

謝賽寧認為這個推測不算不合理，因Sora可能還真并不需要人們想象中的那么多GPU來訓(xùn)練，如果真是如此，Sora的后期迭代也將會非?？?。

英偉達AI科學(xué)家Jim Fan則認為：

Sora應(yīng)該是一個數(shù)據(jù)驅(qū)動的物理引擎。

Sora是對現(xiàn)實或幻想世界的模擬，它通過一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺”物理、長鏡頭推理和語義基礎(chǔ)等。

比如這個效果中，提示詞是兩艘海盜船在一杯咖啡里航行廝殺的逼真特寫視頻。

Jim Fan分析，Sora首先要提供兩個3D資產(chǎn)：不同裝飾的海盜船；必須在潛在空間中解決text-to-3D的隱式問題；并且要兩艘船避開彼此的路線，兼顧咖啡液體的流體力學(xué)、保持真實感、帶來仿佛光追般的效果。

有一些觀點認為，Sora只是在2D層面上控制像素。Jim Fan明確反對這種說法。他覺得這就像說GPT-4不懂編碼，只是對字符串進行采樣。

不過他也表示，Sora還無法取代游戲引擎開發(fā)者，因為它對于物理的理解還遠遠不夠，仍然存在非常嚴(yán)重的“幻覺”。

所以他提出Sora是視頻生成的GPT-3時刻。

回到2020年，GPT-3不是一個很完美的模型，但是它有力證明了上下文學(xué)習(xí)的重要性。所以不要糾結(jié)于GPT-3的缺陷，多想想后面的GPT-4。

除此之外，還有膽大的網(wǎng)友甚至懷疑Sora用上了虛幻引擎5來創(chuàng)建部分訓(xùn)練數(shù)據(jù)。

他甚至挨個舉例分析了好幾個視頻中的效果以此佐證猜想：

不過反駁他的人也不少，理由包括“人走路的鏡頭明顯還是奇怪，不可能是引擎的效果”、“YouTube上有數(shù)十億小時的各種視頻，ue5的用處不大吧”……

如此種種，暫且不論。

最后，有網(wǎng)友表示，盡管不對OpenAI放出更多細節(jié)抱有期待，但還是很想知道Sora在視頻編碼、解碼，時間插值的額外模塊等方面是不是有創(chuàng)新。

OpenAI估值達800億美元

在Sora引發(fā)全球關(guān)注的同時，OpenAI的估值也再次拉高，成為全球第三高估值的科技初創(chuàng)公司。

隨著最新一要約收購?fù)瓿?，OpenAI的估值正式達到800億美元，僅次于字節(jié)跳動和SpaceX。

這筆交易由風(fēng)投公司Thrive Capital牽頭，外部投資者可以從一些員工手中購買股份，去年年初時OpenAI就完成過類似交易，使其當(dāng)時的估值達到290億美元。

而在Sora發(fā)布后，GPT-4 Turbo也大幅降低速率限制，提高TPM（每分鐘最大token數(shù)量），較上一次實現(xiàn)2倍提升。

總裁Brockman還親自帶貨宣傳。

但與此同時，OpenAI申請注冊“GPT”商標(biāo)失敗了。

理由是“GPT”太通用。

One More Thing

值得一提的是，有眼尖的網(wǎng)友發(fā)現(xiàn)，昨天Stability AI也發(fā)布了SVD 1.1。

但似乎在Sora發(fā)布不久后火速刪博。

有人銳評，這不是翻版汪峰么？不應(yīng)該刪，應(yīng)該返蹭個熱度。

這還玩?zhèn)€p啊。

還有人感慨，Sora一來，立馬就明白張楠為啥要聚焦剪映了。

以及賣課大軍也聞風(fēng)而動，把商機拿捏死死的。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Sora參數(shù)

相關(guān)推薦

焦點

推薦視頻

更多>>

技術(shù)專區(qū)

<small id="zevlo"><kbd id="zevlo"></kbd></small>

<p id="zevlo"><kbd id="zevlo"></kbd></p>

<address id="zevlo"></address>