注冊(cè)帳號(hào)丨忘記密碼?
1.點(diǎn)擊網(wǎng)站首頁(yè)右上角的“充值”按鈕可以為您的帳號(hào)充值
2.可選擇不同檔位的充值金額,充值后按篇按本計(jì)費(fèi)
3.充值成功后即可購(gòu)買網(wǎng)站上的任意文章或雜志的電子版
4.購(gòu)買后文章、雜志可在個(gè)人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要:離線強(qiáng)化學(xué)習(xí)作為一種新興范式,憑借其無(wú)需與環(huán)境交互即可利用大量離線數(shù)據(jù)進(jìn)行策略學(xué)習(xí)的特性,展現(xiàn)出了很高的應(yīng)用潛力和價(jià)值,特別是在醫(yī)療、自動(dòng)駕駛等高風(fēng)險(xiǎn)領(lǐng)域中具有顯著優(yōu)勢(shì)。從離線強(qiáng)化學(xué)習(xí)的基本概念、核心問題、主要方法依次展開,重點(diǎn)介紹多種緩解主要問題的方法:分布偏移的策略,包括約束目標(biāo)策略與行為策略對(duì)齊、價(jià)值函數(shù)約束、模型不確定性量化以及基于模型的離線強(qiáng)化學(xué)習(xí)方法。(剩余729字)
登錄龍?jiān)雌诳W(wǎng)
購(gòu)買文章
基于離線強(qiáng)化學(xué)習(xí)的研究綜述
文章價(jià)格:3.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會(huì)員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報(bào)電話:400-106-1235
舉報(bào)郵箱:longyuandom@163.com