Další
Živý přenos začne již brzy!
Živý přenos již skončil.
Prezentace ještě nebyla nahrána!
  • title: Bayesian Q-learning With Imperfect Expert Demonstrations
      0:00 / 0:00
      • Nahlásit chybu
      • Nastavení
      • Playlisty
      • Záložky
      • Titulky Off
      • Rychlost přehrávání
      • Kvalita
      • Nastavení
      • Debug informace
      • Server sl-yoda-v2-stream-007-alpha.b-cdn.net
      • Velikost titulků Střední
      • Záložky
      • Server
      • sl-yoda-v2-stream-007-alpha.b-cdn.net
      • sl-yoda-v2-stream-007-beta.b-cdn.net
      • 1678031076.rsc.cdn77.org
      • 1932936657.rsc.cdn77.org
      • Titulky
      • Off
      • English
      • Rychlost přehrávání
      • Kvalita
      • Velikost titulků
      • Velké
      • Střední
      • Malé
      • Mode
      • Video Slideshow
      • Audio Slideshow
      • Slideshow
      • Video
      Moje playlisty
        Záložky
          00:00:00
            Bayesian Q-learning With Imperfect Expert Demonstrations
            • Nastavení
            • Sync diff
            • Kvalita
            • Nastavení
            • Server
            • Kvalita
            • Server

            Bayesian Q-learning With Imperfect Expert Demonstrations

            2. prosince 2022

            Řečníci

            FC

            Fengdi Che

            Sprecher:in · 0 Follower:innen

            XZ

            Xiru Zhu

            Sprecher:in · 0 Follower:innen

            DP

            Doina Precup

            Sprecher:in · 17 Follower:innen

            O prezentaci

            Guided exploration with expert demonstrations improves data efficiency for reinforcement learning, but current algorithms often overuse expert information. We propose a novel algorithm to speed up Q-learning with the help of a limited amount of imperfect expert demonstrations. The algorithm is based on a Bayesian framework to model suboptimal expert actions and derives Q-values' update rules by maximizing the posterior probability. It weighs expert information by the uncertainty of learnt Q-valu…

            Organizátor

            N2
            N2

            NeurIPS 2022

            Konto · 962 Follower:innen

            Baví vás formát? Nechte SlidesLive zachytit svou akci!

            Profesionální natáčení a streamování po celém světě.

            Sdílení

            Doporučená videa

            Prezentace na podobné téma, kategorii nebo přednášejícího

            GlanceNets: Interpretable, Leak-proof Concept-based Models
            08:06

            GlanceNets: Interpretable, Leak-proof Concept-based Models

            Emanuele Marconato, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Ewigspeicher-Fortschrittswert: 0 = 0.0%

            Stochastic Gradient-Free Methods for  Nonsmooth Nonconvex Optimization
            05:24

            Stochastic Gradient-Free Methods for Nonsmooth Nonconvex Optimization

            Tianyi Lin, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Ewigspeicher-Fortschrittswert: 0 = 0.0%

            Beyond Mahalanobis Distance for OOD Detection
            04:59

            Beyond Mahalanobis Distance for OOD Detection

            Pierre Colombo, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Ewigspeicher-Fortschrittswert: 0 = 0.0%

            Panchromatic and Multispectral Image Fusion via Alternating Reverse Filtering Network
            01:00

            Panchromatic and Multispectral Image Fusion via Alternating Reverse Filtering Network

            Keyu Yan, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Ewigspeicher-Fortschrittswert: 0 = 0.0%

            Panel: Greenhouse gas emissions and climate vulnerability impact assessment
            59:48

            Panel: Greenhouse gas emissions and climate vulnerability impact assessment

            Peetak Mitra, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Ewigspeicher-Fortschrittswert: 0 = 0.0%

            Support Recovery in Sparse PCA with Incomplete Data
            05:10

            Support Recovery in Sparse PCA with Incomplete Data

            Hanbyul Lee, …

            N2
            N2
            NeurIPS 2022 2 years ago

            Ewigspeicher-Fortschrittswert: 0 = 0.0%

            Zajímají Vás podobná videa? Sledujte NeurIPS 2022