中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專欄

        EEPW首頁 > 博客 > AMD將構(gòu)建全球最大AI訓(xùn)練集群,集成120萬片GPU

        AMD將構(gòu)建全球最大AI訓(xùn)練集群,集成120萬片GPU

        發(fā)布人:芯智訊 時間:2024-07-19 來源:工程師 發(fā)布文章

        image.png

        6月26日消息,據(jù)The Next Platform報道,近日AMD執(zhí)行副總裁兼數(shù)據(jù)中心解決方案集團總經(jīng)理Forrest Norrod在接受采訪時表示,AMD將助力構(gòu)建全球最大的單體人工智能(AI)訓(xùn)練集群,將集成高達120萬片的GPU。

        120萬片GPU 是一個非常驚人的數(shù)字,要知道目前全球最強的超級計算機Frontier 所配備的 GPU 數(shù)量才只有37888片,這也意味著AMD所支持的AI訓(xùn)練集群的GPU規(guī)模將達到Frontier的30多倍。不過,F(xiàn)orrest Norrod沒有透露哪個組織正在考慮構(gòu)建這種規(guī)模的AI系統(tǒng),但確實提到“非常清醒的人”正在考慮在AI訓(xùn)練集群上花費數(shù)百億到數(shù)千億美元。

        目前的AI訓(xùn)練集群通常由幾千個 GPU 構(gòu)建而成,這些 GPU 通過跨多個服務(wù)器機架或更少的高速互連連接。如果要創(chuàng)建一個擁有高達 120 萬個 GPU 的單體 AI 集群,意味著將會面臨極為復(fù)雜的高速互連網(wǎng)絡(luò),并且還會有延遲、功耗、硬件故障等諸多的問題,這似乎是難以實現(xiàn)的。

        比如,AI工作負載對延遲非常敏感,尤其是尾部延遲和異常值,其中某些數(shù)據(jù)傳輸比其他數(shù)據(jù)傳輸花費的時間要長得多,并且會中斷工作負載。此外,當今的超級計算機也會面臨每隔幾個小時就會發(fā)生的 GPU 或其他硬件故障。當擴展到當今最大的超級計算機集群的 30 倍時。更為關(guān)鍵的是,如此龐大的AI訓(xùn)練集群,將會產(chǎn)生極為龐大的能耗,不僅穩(wěn)定的供電將會是一個大難題,而且配套的散熱解決方案也面臨巨大挑戰(zhàn)。

        編輯:芯智訊-浪客劍


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: 芯片

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉