Optimistic Thompson Sampling-based algorithms for episodic reinforcement learning.

AllBooks Videos Images Maps News Shopping

Scholarly articles for Optimistic Thompson Sampling-based algorithms for episodic reinforcement learning.

scholar.google.com › citations

… sampling-based algorithms for episodic reinforcement …
Hu · Cited by 3

Optimistic Thompson Sampling-based algorithms for ...

We propose two Thompson Sampling-like, model-based learning algorithms for episodic Markov decision processes (MDPs) with a finite time horizon.

[PDF] Optimistic Thompson Sampling-based Algorithms for ...

openreview.net › pdf

We propose two Thompson Sampling-like, model- based learning algorithms for episodic Markov de- cision processes (MDPs) with a finite time hori-.

[PDF] Optimistic Thompson Sampling-Based Algorithms for ...

tianyuehz.github.io › UAI_poster

Optimistic Thompson Sampling-Based Algorithms for Episodic Reinforcement Learning. •Real-world environments are complex and uncertain. •Training data is ...

Optimistic thompson sampling-based algorithms for episodic ...

dl.acm.org › doi

Jul 31, 2023 · Abstract. We propose two Thompson Sampling-like, modelbased learning algorithms for episodic Markov decision processes (MDPs) with a finite time ...

‪Tianyue H. Zhang‬ - ‪Google Scholar‬

scholar.google.com › citations

Optimistic Thompson sampling-based algorithms for episodic reinforcement learning ... sampling: strategic exploration in bandits and reinforcement learning.

Efficient Model-Based Reinforcement Learning Through Optimistic ... - arXiv

arxiv.org › html

Oct 7, 2024 · Thompson sampling is a provably efficient exploration algorithm in RL (Thompson, 1933) . This approach implicitly balances exploration and ...

[PDF] Optimistic posterior sampling for reinforcement learning - NIPS papers

papers.neurips.cc › paper › 6718-o...

We present an algorithm based on posterior sampling (aka Thompson sampling) that achieves near-optimal worst-case regret bounds when the underlying Markov.

[PDF] Optimistic Thompson Sampling: Strategic Exploration in Bandits and ...

open.library.ubc.ca › download › pdf

In this work, we revisit the classical bandit algorithms: upper confidence bound (UCB) and Thompson sampling (TS). We also provide a novel theoretical analysis ...

[PDF] arXiv:2410.04988v1 [cs.LG] 7 Oct 2024

arxiv.org › pdf

Oct 7, 2024 · Our primary contribution is the first practical model-based RL algorithm, called. Hallucination-based Optimistic Thompson sampling with Gaussian ...

[PDF] Efficient Model-Based Reinforcement Learning through Optimistic Policy ...

papers.nips.cc › paper › file

Model-based reinforcement learning algorithms with probabilistic dynamical models are amongst the most data-efficient learning methods. This is often.