中文字幕 另类精品,亚洲欧美一区二区蜜桃,日本在线精品视频免费,孩交精品乱子片免费

<sup id="3hn2b"></sup>

    1. <sub id="3hn2b"><ol id="3hn2b"></ol></sub><legend id="3hn2b"></legend>

      1. <xmp id="3hn2b"></xmp>

      2. "); //-->

        博客專欄

        EEPW首頁 > 博客 > ICLR 2021 | 微軟亞洲研究院精選論文一覽(1)

        ICLR 2021 | 微軟亞洲研究院精選論文一覽(1)

        發(fā)布人:MSRAsia 時間:2021-05-07 來源:工程師 發(fā)布文章

        編者按:機器學習領域的全球頂會 ICLR 2021 將于5月3日至7日在線上舉行。今年的 ICLR 會議一共接收了860篇論文,接受率接近29%。其中,微軟亞洲研究院有多篇論文入選,今天我們精選了5篇為大家進行介紹。這5個工作的研究主題關鍵詞包括語音合成、代碼智能、自監(jiān)督、Transformer、復雜決策、預訓練、分類任務......

        AdaSpeech: 個性化定制的文本到語音合成系統(tǒng)

        1.png

        論文地址: https://arxiv.org/pdf/2103.00993.pdf

        語音個性化定制(Custom Voice)是一個非常重要的文本到語音合成(Text to speech, TTS)服務。它通過使用很少量的目標說話人的語音數據,來微調(適配)一個源 TTS 模型以合成目標說話人的聲音。然而,當前的語音個性化定制存在兩個獨特的挑戰(zhàn):1)為了支持不同類型的說話人,TTS 模型需要支持不同類型的聲學條件,比如不同的口音、說話風格、錄音環(huán)境等,這可能和訓練源 TTS 模型使用的聲音數據的聲學條件非常不一樣;2)為了支持大量的說話人,每個說話人所需要的微調參數量需要盡可能的小,否則將會極大地增加語音合成服務的模型存儲消耗,例如,支持上百萬用戶的參數量將達到上百 PB 的存儲大小。

        在本文中,微軟亞洲研究院的研究員們提出了 AdaSpeech,一個可適配的 TTS 系統(tǒng)來實現高質量和高效率的語音個性化定制。AdaSpeech 采用 FastSpeech 2 為基本的模型框架,如圖1所示。AdaSpeech 含有兩個重要的模塊來解決上述兩個個性化定制的挑戰(zhàn):1)為了支持含有不同類型聲學條件的語音數據,研究員們設計了不同粒度的聲學條件建模(Acoustic Condition Modeling);2)為了使用更少的適配參數同時又保證高的定制音質,研究員們提出了自適應層歸一化(Conditional Layer Normalization)并應用在模型的****中,當微調模型時,只需調整自適應層歸一化的參數就可極大降低適配參數。

        2.png

        圖1:AdaSpeech 模型架構

        聲學條件建模(Acoustic Condition Modeling)的結構如圖2所示。研究員們將聲學條件建模分為三個粒度:說話人級別(speaker level)、句子級別(utterance level)和音素級別(phoneme level),如圖2(a) 所示。在說話人級別,研究員們采用了常見的說話人嵌入向量來刻畫說話人特征。在句子級別,使用了一個聲學編碼器從參考語音中抽取句子級特征,如圖2(b)所示,其訓練過程中利用了目標語音作為參考語音,而測試中則隨機選用了該說話人的其它語音來作為參考語音。在音素級別,研究員們使用了另一個聲學編碼器從目標語音中抽取音素級別的特征,如圖2(c)所示。同時,研究員們還訓練了另一個音素級別的聲學預測器來預測這些特征,以便在測試時使用,如圖2(d)所示。

        3.png

        圖2:Acoustic Condition Modeling 的結構示意

        自適應層歸一化(Conditional Layer Normalization)的結構如圖3所示。在語音****的每一層中,自適應層歸一化通過兩個線性層從說話人嵌入表征里預測出層歸一化的 scale 和 bias 參數,以更加自適應地調節(jié)模型的隱層表征。在適配過程中,只需要調整自適應層歸一化的相關參數,極大降低了調整參數量,同時保證了定制音質。

        4.png

        圖3:Conditional Layer Normalization 的結構示意

        研究員們在 LibriTTS 數據集上訓練了源 TTS 模型,然后在 VCTK 和 LJSpeech 上進行了語音定制。對于每個定制的說話人,只使用了20條語音進行模型適配。結果如表1所示,1)與基線(spk emb)相比,AdaSpeech 在極低的適配參數下(4.9K),取得了極大的定制音質提升;2)與基線(decoder)相比,AdaSpeech 取得了相同或略好的定制音質前提下,還能極大降低所需參數量(4.9K vs 14.1M),很好的滿足了語音個性化定制場景的需求。

        5.png

        表1:AdaSpeech 的語音定制結果,MOS 和 SMOS 分別用來評估生成語音的自然度和相似度,分值范圍為0-5分,分值越高表示越好。

        GraphCodeBERT: 用代碼的語義結構學習代碼表示的預訓練模型

        6.png

        論文地址: https://openreview.net/pdf?id=jLoC4ez43PZ

        代碼地址: https://github.com/microsoft/CodeBERT

        近年來, 預訓練模型在代碼智能 (code intelligence) 領域中取得了巨大的成功,其能夠支持各種代碼相關的任務,如代碼檢索、補全、翻譯、糾錯等場景。目前的預訓練模型通常將代碼當作序列而忽視了代碼本身潛在的結構,如抽象語法樹和數據流等。然而,這些代碼結構提供了重要的語義信息,能夠幫助模型更好地理解代碼。因此,微軟亞洲研究院的研究員們提出了利用代碼的語義結構來學習代碼表示的預訓練模型 GraphCodeBERT。

        在本文中,研究員們使用了代碼的數據流結構來表示變量之間的依賴關系,如圖4所示。該數據流是一個圖結構,其中結點為變量而邊表示變量之間的信息流向。該語義結構對理解代碼提供了重要的語義信息。以 v=max_value-min_value 為例,程序員并不總是遵循命名約定,比如 v。而數據流提供了一種理解變量v的語義的方法,即 v的值來自 max_value 和 min_value。

        7.png

        圖4:源代碼(左側)中數據流(右側)的抽取過程

        基于數據流結構,研究員們提出了 GraphCodeBERT,如圖5所示。該模型將代碼、數據流和文本作為輸入,經過12層的 Transformers 得到代碼的表示。為了將圖結構信息引入 GraphCodeBERT,研究員們提出了基于圖的注意力機制來過濾不相關的信息,具體公式可參考論文。同時為了利用代碼的語義結構來學習代碼表示,研究員們還提出了兩個基于數據流的預訓練目標:代碼和數據流的變量對齊(橙色),數據流的邊預測(藍色)。

        8.png

        圖5:GraphCodeBERT 模型結構

        該模型在代碼搜索、克隆檢測、翻譯和糾錯四個任務都進行了評測。在這四個任務中,GraphCodeBERT 均取得了當前最好的成績,具體細節(jié)請見表2-5。

        9.jpg

        表2:代碼搜索任務上的模型性能對比

        10.jpg

        表3:代碼克隆檢測任務上的模型性能對比

        11.jpg

        表4:代碼翻譯任務上的模型性能對比

        12.jpg

        表5:代碼糾錯任務上的模型性能對比

        同時,通過樣例分析(如表6)可以看出,當做出一點改動,如 return a→return b和 sum→mean,文本和代碼的語義都將不匹配。如果不使用數據流,GraphCodeBERT 將預測錯誤。而使用了數據流之后,GraphCodeBERT 對于這些改動,仍然能夠預測正確,這說明了數據流對代碼理解的重要性。

        13.png

        表6:將文本和代碼作為輸入,利用 GraphCodeBERT 預測文本和代碼語義的匹配概率

        預訓練還需要監(jiān)督信息嗎?一文了解自監(jiān)督訓練的優(yōu)勢

        14.png

        論文地址: https://arxiv.org/pdf/2006.06606.pdf

        利用帶有大量人工標注標簽的數據集進行預訓練曾經是大多數視覺應用的標準做法。然而隨著自監(jiān)督在多項任務上完勝有監(jiān)督預訓練,成本高昂的人工標注似乎只是徒勞。本篇論文深入研究了為什么自監(jiān)督訓練在遷移任務上更有優(yōu)勢,以及結合新的發(fā)現,是否有可能改進有監(jiān)督的預訓練。

        一、透過遷移性能觀察預訓練

        結論一:圖像增強顯著影響遷移性能

        自監(jiān)督的對比學習通常依賴于強烈的圖像增強技術。這里,研究員們仔細對比了圖像增強技術對于自監(jiān)督模型以及有監(jiān)督模型的影響。在下表中,研究員們發(fā)現圖像增強對于自監(jiān)督和有監(jiān)督模型均是有效的,但是對于自監(jiān)督模型的影響尤為明顯。

        15.jpg

        表7:預訓練階段的圖像增強對于遷移學習的影響顯著

        結論二:自監(jiān)督的預訓練模型主要遷移了低層和中層的特征,而非高層語義

        自監(jiān)督在線性分類任務上取得了不錯的性能,似乎印證了自監(jiān)督學習也學習到了高層次的語義信息,但本篇論文通過實驗質疑了這個結論。當嘗試在不同數據集上進行預訓練時,即使這些數據和下游任務包含的圖像大相徑庭(比如人臉),也能取得不錯的遷移性能。嘗試的數據集如表8所示。相反,當預訓練數據集和下游數據集的底層信息不同時,比如利用游戲合成的駕駛場景數據集,性能會有一定程度的下降。因此驗證了對比學習主要遷移了底層和中層特征。

        16.jpg

        表8:遷移學習對于預訓練數據的語義信息沒有明顯的依賴

        *博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 機器學習

        相關推薦

        技術專區(qū)

        關閉