Module relearn::envs[−][src]

Expand description

Reinforcement learning environments

Structs

Bandit

A multi-armed bandit

Chain

Chain Environment

DirichletRandomMdps

Random distribution over MDPs with Dirichlet sampled transition probabilities.

InnerEnvStructure

Wrapper that provides the inner environment structure of a meta environment.

MemoryGame

Memory Game Environment

MetaEnv

A meta reinforcement learning environment with internal state.

MetaEnvConfig

Configuration for MetaEnv

MetaPomdp

A meta reinforcement learning environment that treats RL itself as an environment.

MetaState

The state of a MetaPomdp.

OneHotBandits

Distribution over deterministic bandits in which one arm has reward 1 and the rest have 0.

PomdpEnv

Wraps a Pomdp as a Environment.

StepLimit

Environment wrapper that cuts off episodes after a set number of steps.

StoredEnvStructure

Stored copy of an environment structure.

UniformBernoulliBandits

A distribution over Beroulli bandit environments with uniformly sampled means.

Wrapped

A basic wrapped object.

Enums

BuildEnvError

Error building an environment

Traits

BuildEnv

Build an Environment.

BuildEnvDist

Build an EnvDistribution.

BuildPomdp

Build a Pomdp.

BuildPomdpDist

Build a PomdpDistribution.

CloneBuild

Marker indiciating that this object can build itself by cloning.

EnvDistribution

A distribution of environments sharing the same external structure.

EnvStructure

The external structure of a reinforcement learning environment.

Environment

A reinforcement learning environment with internal state.

IntoEnv

Convert into an Environment.

Mdp

A Markov decision process (MDP).

Pomdp

A partially observable Markov decision process (POMDP).

PomdpDistribution

A distribution of Pomdp sharing the same external structure.

StructuredEnvironment

An Environment with consistent EnvStructure.

Type Definitions

BernoulliBandit

A multi-armed bandit where each arm samples from a Bernoulli distribution.

DeterministicBandit

A multi-armed bandit where each arm has a determistic distribution.

MetaObservationSpace

Meta-environment observation space. See MetaPomdp for details.

WithStepLimit

Wrap an environment with a per-episode step limit.