我們提出了Imagen,一個文本到圖像的擴(kuò)散模型,具有前所未有的寫實主義程度和深度的語言理解。Imagen建立在理解文本的大型變壓器語言模型的基礎(chǔ)上,并依賴于在高保真圖像生成中擴(kuò)散模型的強(qiáng)度。我們的關(guān)鍵發(fā)現(xiàn)是,在純文本語料庫上進(jìn)行預(yù)訓(xùn)練的通用大型語言模型(例如T5)在編碼用于圖像合成的文本方面驚人地有效:在Imagen中增加語言模型的大小比增加
圖像擴(kuò)散模型的大小更能提高樣本保真度和圖像-文本對齊。Imagen在沒有經(jīng)過COCO訓(xùn)練的情況下,在COCO數(shù)據(jù)集上獲得了7.27的最新FID分?jǐn)?shù),并且人類評分者發(fā)現(xiàn)Imagen樣本在圖像-文本對齊方面與COCO數(shù)據(jù)本身不相上下。為了更深入地評估文本到圖像模型,我們引入了DrawBench,這是一個全面且具有挑戰(zhàn)性的文本到圖像模型基準(zhǔn)測試。使用DrawBench,我們將Imagen與最近的方法進(jìn)行了比較,包括VQ-GAN+CLIP、潛在擴(kuò)散模型和DALL-E 2,并發(fā)現(xiàn)人類評分者在并排比較中更喜歡Imagen,無論是在樣本質(zhì)量還是圖像-文本對齊方面。
特別聲明
本站有啊網(wǎng)站百科提供的“Imagen”來源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時,對于該外部鏈接的指向,不由“有啊網(wǎng)站百科”實際控制,在“2024-01-12 08:41:48”收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,“有啊網(wǎng)站百科”不承擔(dān)任何責(zé)任。