Další
Živý přenos začne již brzy!
Živý přenos již skončil.
Prezentace ještě nebyla nahrána!
  • title: Fine-tuning Offline Policies with Optimistic Action Selection
      0:00 / 0:00
      • Nahlásit chybu
      • Nastavení
      • Playlisty
      • Záložky
      • Titulky Off
      • Rychlost přehrávání
      • Kvalita
      • Nastavení
      • Debug informace
      • Server sl-yoda-v2-stream-008-alpha.b-cdn.net
      • Velikost titulků Střední
      • Záložky
      • Server
      • sl-yoda-v2-stream-008-alpha.b-cdn.net
      • sl-yoda-v2-stream-008-beta.b-cdn.net
      • 1159783934.rsc.cdn77.org
      • 1511376917.rsc.cdn77.org
      • Titulky
      • Off
      • English
      • Rychlost přehrávání
      • Kvalita
      • Velikost titulků
      • Velké
      • Střední
      • Malé
      • Mode
      • Video Slideshow
      • Audio Slideshow
      • Slideshow
      • Video
      Moje playlisty
        Záložky
          00:00:00
            Fine-tuning Offline Policies with Optimistic Action Selection
            • Nastavení
            • Sync diff
            • Kvalita
            • Nastavení
            • Server
            • Kvalita
            • Server

            Fine-tuning Offline Policies with Optimistic Action Selection

            2. prosince 2022

            Řečníci

            MSM

            Max Sobol Mark

            Řečník · 1 sledující

            AG

            Ali Ghadirzadeh

            Řečník · 0 sledujících

            XC

            Xi Chen

            Řečník · 0 sledujících

            O prezentaci

            Offline reinforcement learning algorithms can train performant policies for hard tasks using previously-collected datasets. However, the quality of the offline dataset often limits the levels of performance possible. We consider the problem of improving offline policies through online fine-tuning. Offline RL requires a pessimistic training objective to mitigate distributional shift between the trained policy and the offline behavior policy, which will make the trained policy averse to picking no…

            Organizátor

            N2
            N2

            NeurIPS 2022

            Účet · 962 sledujících

            Baví vás formát? Nechte SlidesLive zachytit svou akci!

            Profesionální natáčení a streamování po celém světě.

            Sdílení

            Doporučená videa

            Prezentace na podobné téma, kategorii nebo přednášejícího

            k-Sliced Mutual Information: A Quantitative Study of Scalability with Dimension
            05:00

            k-Sliced Mutual Information: A Quantitative Study of Scalability with Dimension

            Ziv Goldfeld, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            A Non-asymptotic Analysis of Non-parametric Temporal-Difference Learning
            01:02

            A Non-asymptotic Analysis of Non-parametric Temporal-Difference Learning

            Eloïse Berthier, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training
            04:33

            Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

            Renrui Zhang, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Causal Structural Hypothesis Testing and Data Generative Models
            02:16

            Causal Structural Hypothesis Testing and Data Generative Models

            Jeffrey Jiang, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos
            04:51

            SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos

            Gamaleldin F. Elsayed, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Towards Low Cost Automated Monitoring of Life Below Water to De-risk Ocean-Based Carbon Dioxide Removal and Clean Power
            04:45

            Towards Low Cost Automated Monitoring of Life Below Water to De-risk Ocean-Based Carbon Dioxide Removal and Clean Power

            Kameswari Devi Ayyagari, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Pro uložení prezentace do věčného trezoru hlasovalo 0 diváků, což je 0.0 %

            Zajímají Vás podobná videa? Sledujte NeurIPS 2022