Jiamin He, Yi Wan, Rupam Mahmood · The Emphatic Approach to Average-Reward Policy Evaluation · SlidesLive

Kategorie

CS

Přihlásit se Kontaktujte nás

Další

Živý přenos začne již brzy!

Živý přenos již skončil.

Prezentace ještě nebyla nahrána!

SlidesLive

title: The Emphatic Approach to Average-Reward Policy Evaluation

0:00 / 0:00

Nahlásit chybu
Nastavení
Playlisty
Záložky
Titulky Off
Rychlost přehrávání
Kvalita

Nastavení
Debug informace
Server sl-yoda-v2-stream-010-alpha.b-cdn.net
Velikost titulků Střední

Záložky

Server
sl-yoda-v2-stream-010-alpha.b-cdn.net
sl-yoda-v2-stream-010-beta.b-cdn.net
1759419103.rsc.cdn77.org
1016618226.rsc.cdn77.org

Titulky
Off
English

Rychlost přehrávání

Kvalita

Velikost titulků
Velké
Střední
Malé

Mode
Video Slideshow
Audio Slideshow
Slideshow
Video

The Emphatic Approach to Average-Reward Policy Evaluation

The Emphatic Approach to Average-Reward Policy Evaluation

2. prosince 2022

Řečníci

Jiamin He

Sprecher:in · 0 Follower:innen

Yi Wan

Sprecher:in · 0 Follower:innen

Rupam Mahmood

Sprecher:in · 0 Follower:innen

O prezentaci

Off-policy policy evaluation has been a longstanding problem in reinforcement learning. This paper looks at this problem under the average-reward formulation with function approximation. Differential temporal-difference (TD) learning has been proposed recently and has shown great potential compared to previous average-reward learning algorithms. In the tabular setting, off-policy differential TD is guaranteed to converge. However, the convergence guarantee cannot be carried through the function…

Organizátor

NeurIPS 2022

Konto · 961 Follower:innen

Baví vás formát? Nechte SlidesLive zachytit svou akci!

Profesionální natáčení a streamování po celém světě.

Sdílení

Doporučená videa

Prezentace na podobné téma, kategorii nebo přednášejícího

Discovered Policy Optimisation

05:26

Discovered Policy Optimisation

Später ansehen

Favorit

NeurIPS 2022 2 years ago

Vision GNN: An Image is Worth Graph of Nodes

07:44

Vision GNN: An Image is Worth Graph of Nodes

Später ansehen

Favorit

NeurIPS 2022 2 years ago

One Layer is All You Need

04:25

One Layer is All You Need

Später ansehen

Favorit

NeurIPS 2022 2 years ago

Losses Can Be Blessings: Routing Self-Supervised Speech Representations Towards Efficient Multilingual and Multitask Speech Processing

05:10

Losses Can Be Blessings: Routing Self-Supervised Speech Representations Towards Efficient Multilingual and Multitask Speech Processing

Später ansehen

Favorit

Yonggan Fu, …

NeurIPS 2022 2 years ago

Combinatorial Bandits with Linear Constraints: Beyond Knapsacks and Fairness

05:03

Combinatorial Bandits with Linear Constraints: Beyond Knapsacks and Fairness

Später ansehen

Favorit

Qingsong Liu, …

NeurIPS 2022 2 years ago

Accelerating Perturbed Stochastic Iterates in Asynchronous Lock-Free Optimization

04:33

Accelerating Perturbed Stochastic Iterates in Asynchronous Lock-Free Optimization

Später ansehen

Favorit

Kaiwen Zhou, …

NeurIPS 2022 2 years ago