parent: SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards

Discriminator-actor-critic: Addressing sample inefficiency and reward bias in adversarial imitation learning

This note has no content.

Reinforcement learning
Saliency maps
Monte Carlo tree search
MuJoCo
Maybe try dm_control
dm_control
NEAT algorithm
Center for Human-Compatible Artificial Intelligence
DeepMind
Anthropic
Imitation learning
- Soft Q imitation learning
  - SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards
    - sqil_imitation_learning_via_re-Original Pdf.pdf
    - Generative adversarial imitation learning
      - 1606.03476.pdf
    - Reinforcement learning and control as probabilistic inference: Tutorial and review
      - 1805.00909.pdf
    - Why does L1 penalty encourage sparsity?
    - Deep reinforcement learning that matters
    - Discriminator-actor-critic: Addressing sample inefficiency and reward bias in adversarial imitation learning
    - Sample efficient imitation learning for continuous control
    - Random expert distillation: Imitation learning via expert policy support estimation
- Behavior cloning
- MineRL Basalt competition
- Inverse soft Q-learning
- DAgger algorithm
Stein variational gradient descent
Overcooked-AI
Sequence modeling
- Transformers
- Language modeling
  - Language model fine-tuning
  - Nucleus sampling
Redwood Research
Iterated distillation and amplification
AI safety
Causal influence diagrams
Inverse reinforcement learning
Value learning
Function optimization
- Cross-entropy method
Interpretability
Architecture
GLUE benchmark
AI governance
Transfer learning
Calibration
Adversarial approaches
Benchmarks
Fairness
Imitative generalization
Unrestricted Adversarial Examples Challenge
Anomaly detection
Algorithm learning
Distillation
Generative models
- Image synthesis
Reinforcement learning from human feedback
Expert iteration
Multi-step reasoning
Low-rank structure
Bootstrap aggregating
Active learning
Dataset
Retrieval
Scaling
Imitation learning
Robotics
Diffusion
Reward tampering
Sparsity
Self-improvement
Code generation
Out-of-distribution robustness
Optimized inference/training
- Quantization
Multi-objective reinforcement learning
Sample efficiency
Reward hacking
Goodhart's law