Další
Živý přenos začne již brzy!
Živý přenos již skončil.
Prezentace ještě nebyla nahrána!
  • title: Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data
      0:00 / 0:00
      • Nahlásit chybu
      • Nastavení
      • Playlisty
      • Záložky
      • Titulky Off
      • Rychlost přehrávání
      • Kvalita
      • Nastavení
      • Debug informace
      • Server sl-yoda-v2-stream-010-alpha.b-cdn.net
      • Velikost titulků Střední
      • Záložky
      • Server
      • sl-yoda-v2-stream-010-alpha.b-cdn.net
      • sl-yoda-v2-stream-010-beta.b-cdn.net
      • 1759419103.rsc.cdn77.org
      • 1016618226.rsc.cdn77.org
      • Titulky
      • Off
      • English
      • Rychlost přehrávání
      • Kvalita
      • Velikost titulků
      • Velké
      • Střední
      • Malé
      • Mode
      • Video Slideshow
      • Audio Slideshow
      • Slideshow
      • Video
      Moje playlisty
        Záložky
          00:00:00
            Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data
            • Nastavení
            • Sync diff
            • Kvalita
            • Nastavení
            • Server
            • Kvalita
            • Server

            Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage Data

            10. prosince 2023

            Řečníci

            JB

            Jose Blanchet

            Řečník · 1 sledující

            ML

            Miao Lu

            Řečník · 0 sledujících

            TZ

            Tong Zhang

            Řečník · 0 sledujících

            O prezentaci

            We study distributionally robust offline reinforcement learning (RL), which seeks to find an optimal robust policy purely from an offline dataset that can perform well in perturbed environments. We propose a generic algorithm framework Doubly Pessimistic Model-based Policy Optimization (P^2MPO) for robust offline RL, which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. Here the double pessimism principle is crucial to ove…

            Organizátor

            N2
            N2

            NeurIPS 2023

            Účet · 648 sledujících

            Baví vás formát? Nechte SlidesLive zachytit svou akci!

            Profesionální natáčení a streamování po celém světě.

            Sdílení

            Doporučená videa

            Prezentace na podobné téma, kategorii nebo přednášejícího

            Counterfactually Comparing Abstaining Classifiers
            05:02

            Counterfactually Comparing Abstaining Classifiers

            Yo Joong Choe, …

            N2
            N2
            NeurIPS 2023 16 months ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Context-PIPs: Persistent Independent Particles Demands Spatial Context Features
            04:40

            Context-PIPs: Persistent Independent Particles Demands Spatial Context Features

            Weikang Bian, …

            N2
            N2
            NeurIPS 2023 16 months ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Opening Remarks
            03:53

            Opening Remarks

            Ananth Balashankar, …

            N2
            N2
            NeurIPS 2023 16 months ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Boosting Adversarial Transferability by Achieving Flat Local Maxima
            05:33

            Boosting Adversarial Transferability by Achieving Flat Local Maxima

            Zhijin Ge, …

            N2
            N2
            NeurIPS 2023 16 months ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            RADAR: Robust AI-Text Detection via Adversarial Learning
            03:25

            RADAR: Robust AI-Text Detection via Adversarial Learning

            Xiaomeng Hu, …

            N2
            N2
            NeurIPS 2023 16 months ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Moment Matching Denoising Gibbs Sampling
            04:42

            Moment Matching Denoising Gibbs Sampling

            Mingtian Zhang, …

            N2
            N2
            NeurIPS 2023 16 months ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Zajímají Vás podobná videa? Sledujte NeurIPS 2023