Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong · Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data · SlidesLive

Kategorie

CS

Přihlásit se Kontaktujte nás

Další

Živý přenos začne již brzy!

Živý přenos již skončil.

Prezentace ještě nebyla nahrána!

SlidesLive

title: Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data

0:00 / 0:00

Nahlásit chybu
Nastavení
Playlisty
Záložky
Titulky Off
Rychlost přehrávání
Kvalita

Nastavení
Debug informace
Server sl-yoda-v2-stream-010-alpha.b-cdn.net
Velikost titulků Střední

Záložky

Server
sl-yoda-v2-stream-010-alpha.b-cdn.net
sl-yoda-v2-stream-010-beta.b-cdn.net
1759419103.rsc.cdn77.org
1016618226.rsc.cdn77.org

Titulky
Off
English

Rychlost přehrávání

Kvalita

Velikost titulků
Velké
Střední
Malé

Mode
Video Slideshow
Audio Slideshow
Slideshow
Video

Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data

Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data

10. prosince 2023

Řečníci

Jose Blanchet

Řečník · 1 sledující

Miao Lu

Řečník · 0 sledujících

Tong Zhang

Řečník · 0 sledujících

O prezentaci

We study distributionally robust offline reinforcement learning (RL), which seeks to find an optimal robust policy purely from an offline dataset that can perform well in perturbed environments. We propose a generic algorithm framework Doubly Pessimistic Model-based Policy Optimization (P^2MPO) for robust offline RL, which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. Here the double pessimism principle is crucial to ove…

Organizátor

NeurIPS 2023

Účet · 648 sledujících

Baví vás formát? Nechte SlidesLive zachytit svou akci!

Profesionální natáčení a streamování po celém světě.

Sdílení

Doporučená videa

Prezentace na podobné téma, kategorii nebo přednášejícího

Counterfactually Comparing Abstaining Classifiers

05:02

Counterfactually Comparing Abstaining Classifiers

Zhlédnout později

Oblíbené

Yo Joong Choe, …

NeurIPS 2023 16 months ago

Context-PIPs: Persistent Independent Particles Demands Spatial Context Features

04:40

Context-PIPs: Persistent Independent Particles Demands Spatial Context Features

Zhlédnout později

Oblíbené

Weikang Bian, …

NeurIPS 2023 16 months ago

Opening Remarks

03:53

Opening Remarks

Zhlédnout později

Oblíbené

Ananth Balashankar, …

NeurIPS 2023 16 months ago

Boosting Adversarial Transferability by Achieving Flat Local Maxima

05:33

Boosting Adversarial Transferability by Achieving Flat Local Maxima

Zhlédnout později

Oblíbené

NeurIPS 2023 16 months ago

RADAR: Robust AI-Text Detection via Adversarial Learning

03:25

RADAR: Robust AI-Text Detection via Adversarial Learning

Zhlédnout později

Oblíbené

Xiaomeng Hu, …

NeurIPS 2023 16 months ago

Moment Matching Denoising Gibbs Sampling

04:42

Moment Matching Denoising Gibbs Sampling

Zhlédnout později

Oblíbené

Mingtian Zhang, …

NeurIPS 2023 16 months ago