擴(kuò)散模型以其令人印象深刻的生成高質(zhì)量圖像的能力而聞名,它們是流行的文本到圖像模型(例如DALL-E、Stable Diffusion和Midjourney)中使用的主要架構(gòu)。
然而,擴(kuò)散模型不只是用于生成圖像。Meta公司、普林斯頓大學(xué)和德克薩斯大學(xué)奧斯汀分校的研究人員最近聯(lián)合發(fā)表的一篇研究報(bào)告表明,擴(kuò)散模型可以幫助創(chuàng)建更好的強(qiáng)化學(xué)習(xí)系統(tǒng)。
該報(bào)告引入了一種使用基于擴(kuò)散的世界模型來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)代理的技術(shù)。擴(kuò)散世界模型(DWM)通過(guò)預(yù)測(cè)未來(lái)多個(gè)步驟的環(huán)境,增強(qiáng)了當(dāng)前基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng)。
無(wú)模型的強(qiáng)化學(xué)習(xí)vs基于模型的強(qiáng)化學(xué)習(xí)
無(wú)模型的強(qiáng)化學(xué)習(xí)算法直接從與環(huán)境的交互中學(xué)習(xí)策略或價(jià)值函數(shù),而無(wú)需預(yù)測(cè)未來(lái)環(huán)境。與其相反,基于模型的強(qiáng)化學(xué)習(xí)算法通過(guò)世界模型來(lái)模擬它們的環(huán)境。這些模型使他們能夠預(yù)測(cè)他們的行為將如何影響他們的環(huán)境,并相應(yīng)地調(diào)整政策。
基于模型的強(qiáng)化學(xué)習(xí)的一個(gè)關(guān)鍵優(yōu)勢(shì)是它需要更少的來(lái)自真實(shí)環(huán)境的數(shù)據(jù)樣本。這對(duì)于自動(dòng)駕駛汽車和機(jī)器人等應(yīng)用尤其有用。在這些應(yīng)用中,從現(xiàn)實(shí)世界收集數(shù)據(jù)可能成本高昂或者存在風(fēng)險(xiǎn)。
然而,基于模型的強(qiáng)化學(xué)習(xí)高度依賴于世界模型的準(zhǔn)確性。在實(shí)踐中,世界模型中的不準(zhǔn)確性導(dǎo)致基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng)比無(wú)模型的強(qiáng)化學(xué)習(xí)表現(xiàn)得更差。
傳統(tǒng)的世界模型使用單步動(dòng)態(tài)(one-step dynamics)模式,這意味著它們只能根據(jù)當(dāng)前狀態(tài)和動(dòng)作預(yù)測(cè)獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)。當(dāng)規(guī)劃未來(lái)的多個(gè)步驟時(shí),強(qiáng)化學(xué)習(xí)系統(tǒng)使用自己的輸出遞歸地調(diào)用模型。這種方法帶來(lái)的問(wèn)題是,小誤差可能在多個(gè)步驟中疊加,使長(zhǎng)期預(yù)測(cè)變得不可靠和不準(zhǔn)確。
擴(kuò)散世界模型(DWM)的前提是學(xué)會(huì)一次預(yù)測(cè)未來(lái)的多個(gè)步驟。如果做得正確,這種方法可以減少長(zhǎng)期預(yù)測(cè)中的錯(cuò)誤,并提高基于模型的強(qiáng)化學(xué)習(xí)算法的性能。
擴(kuò)散世界模型的工作原理
擴(kuò)散世界模型的工作原理很簡(jiǎn)單:它們通過(guò)反轉(zhuǎn)一個(gè)逐漸向數(shù)據(jù)添加噪聲的過(guò)程來(lái)學(xué)習(xí)生成數(shù)據(jù)。例如,當(dāng)訓(xùn)練生成圖像時(shí),擴(kuò)散世界模型會(huì)逐漸向圖像添加噪聲層,然后嘗試反轉(zhuǎn)過(guò)程并預(yù)測(cè)原始圖像。通過(guò)重復(fù)這個(gè)過(guò)程并添加更多的噪聲層,它學(xué)會(huì)了從純?cè)肼曋猩筛哔|(zhì)量的圖像。條件擴(kuò)散模型通過(guò)將模型的輸出條件轉(zhuǎn)化為特定輸入(例如圖像附帶的字幕)來(lái)添加一層控制。這使開(kāi)發(fā)人員能夠?yàn)檫@些模型提供文本描述并接收相應(yīng)的圖像。
但是,雖然擴(kuò)散模型以其生成高質(zhì)量圖像的能力而聞名,但它們也可以應(yīng)用于其他數(shù)據(jù)類型。
擴(kuò)散世界模型(DWM)使用相同的原理來(lái)預(yù)測(cè)強(qiáng)化學(xué)習(xí)系統(tǒng)的長(zhǎng)期結(jié)果。擴(kuò)散世界模型(DWM)以當(dāng)前狀態(tài)、操作和預(yù)期回報(bào)為條件,而不是文本描述。它的輸出是多個(gè)步驟的狀態(tài)和對(duì)未來(lái)的獎(jiǎng)勵(lì)。
擴(kuò)散世界模型(DWM)框架有兩個(gè)訓(xùn)練階段。在第一階段,擴(kuò)散模型在從環(huán)境中收集的一系列軌跡上進(jìn)行訓(xùn)練。它從一個(gè)強(qiáng)大的世界模型中學(xué)習(xí),可以一次預(yù)測(cè)多個(gè)步驟,使其在長(zhǎng)期模擬中比其他基于模型的方法更穩(wěn)定。
在第二階段,使用Actor-Critic 算法和擴(kuò)散世界模型訓(xùn)練離線強(qiáng)化學(xué)習(xí)策略。使用離線強(qiáng)化學(xué)習(xí)消除了訓(xùn)練過(guò)程中在線交互的需求,從而提高了速度,降低了成本和風(fēng)險(xiǎn)。
對(duì)于每個(gè)步驟,代理使用擴(kuò)散世界模型(DWM)來(lái)生成未來(lái)的軌跡,并模擬其動(dòng)作的回報(bào)。研究人員稱之為“擴(kuò)散模型價(jià)值擴(kuò)展”(Diffusion MVE)。雖然強(qiáng)化學(xué)習(xí)系統(tǒng)在訓(xùn)練期間使用擴(kuò)散世界模型(DWM),但生成的策略是無(wú)模型的,這具有更快推理的好處。
研究人員寫道:“擴(kuò)散模型價(jià)值擴(kuò)展(Diffusion MVE)可以解釋為通過(guò)生成建模對(duì)離線強(qiáng)化學(xué)習(xí)進(jìn)行的值正則化,或者可以解釋為使用合成數(shù)據(jù)進(jìn)行離線Q學(xué)習(xí)的一種方法。”
在更高的層面,擴(kuò)散世界模型(DWM)背后的主要思想是預(yù)測(cè)未來(lái)世界的多個(gè)狀態(tài)。因此,可以用另一個(gè)序列模型替換擴(kuò)散模型。研究人員也對(duì)Transformer模型進(jìn)行了實(shí)驗(yàn),但發(fā)現(xiàn)擴(kuò)散世界模型(DWM)更有效。
運(yùn)行擴(kuò)散世界模型(DWM)
為了測(cè)試擴(kuò)散世界模型(DWM)的有效性,研究人員將其與基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng)和無(wú)模型的強(qiáng)化學(xué)習(xí)系統(tǒng)進(jìn)行了比較。他們從D4RL數(shù)據(jù)集中試驗(yàn)了三種不同的算法和九種運(yùn)動(dòng)任務(wù)。
結(jié)果表明,擴(kuò)散世界模型(DWM)比單步世界模型顯著提高了44%的性能。當(dāng)單步世界模型應(yīng)用于無(wú)模型強(qiáng)化學(xué)習(xí)算法時(shí),它通常會(huì)降低性能。然而,研究人員發(fā)現(xiàn),當(dāng)與擴(kuò)散世界模型(DWM)結(jié)合使用時(shí),無(wú)模型強(qiáng)化系統(tǒng)的表現(xiàn)優(yōu)于原始版本。
研究人員寫道:“這要?dú)w功于擴(kuò)散模型的強(qiáng)大表現(xiàn)力和對(duì)整個(gè)序列的一次性預(yù)測(cè),這規(guī)避了傳統(tǒng)的單步動(dòng)態(tài)模型在多個(gè)步驟推出時(shí)的復(fù)合誤差問(wèn)題。我們的方法實(shí)現(xiàn)了最先進(jìn)的(SOTA)性能,消除了基于模型算法和無(wú)模型算法之間的差距。”
擴(kuò)散世界模型(DWM)是在非生成任務(wù)中使用生成模型的更廣泛趨勢(shì)的一部分。在過(guò)去的一年,由于生成式人工智能模型的進(jìn)步,機(jī)器人研究取得了飛躍式的進(jìn)展。大型語(yǔ)言模型正在幫助彌合自然語(yǔ)言命令和機(jī)器人運(yùn)動(dòng)命令之間的差距。Transformers還幫助研究人員將從不同形態(tài)和設(shè)置中收集的數(shù)據(jù)整合在一起,并訓(xùn)練可以推廣到不同機(jī)器人和任務(wù)的模型。