cmdps_via_bvf

Constrained Markov Decision Processes via Backward Value Functions

Example to run for PPO:

python train.py --num-steps 10 --num-episodes 1000 --eval-every 5 --log-every 5 --reset-dir --num-envs 1 --d0 5 --traj-len 10 --agent ppo --env pg --target

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
agents		agents
common		common
envs		envs
models		models
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

cmdps_via_bvf

About

Releases

Packages

Languages

hercky/cmdps_via_bvf

Folders and files

Latest commit

History

Repository files navigation

cmdps_via_bvf

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages