注冊(cè)帳號(hào)丨忘記密碼?
1.點(diǎn)擊網(wǎng)站首頁(yè)右上角的“充值”按鈕可以為您的帳號(hào)充值
2.可選擇不同檔位的充值金額,充值后按篇按本計(jì)費(fèi)
3.充值成功后即可購(gòu)買網(wǎng)站上的任意文章或雜志的電子版
4.購(gòu)買后文章、雜志可在個(gè)人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要:離線-在線強(qiáng)化學(xué)習(xí)旨在使用少量在線微調(diào)來提高預(yù)訓(xùn)練模型的性能?,F(xiàn)有方法主要包括無約束微調(diào)與約束微調(diào)。前者往往由于分布偏移過大而導(dǎo)致嚴(yán)重的策略崩潰;后者由于保留離線約束導(dǎo)致性能提升緩慢,影響訓(xùn)練效率。為了改善上述問題,可視化對(duì)比分析兩類方法的微調(diào)過程,發(fā)現(xiàn)不準(zhǔn)確的Q值估計(jì)是影響性能的主要原因,并提出了一種動(dòng)態(tài)策略約束的雙Q值強(qiáng)化學(xué)習(xí)算法(DPC-DQRL)。(剩余23284字)
登錄龍?jiān)雌诳W(wǎng)
購(gòu)買文章
DPC-DQRL:動(dòng)態(tài)行為克隆約束的離線-在線雙Q值強(qiáng)化學(xué)習(xí)
文章價(jià)格:6.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會(huì)員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報(bào)電話:400-106-1235
舉報(bào)郵箱:longyuandom@163.com