parent: AI

Reinforcement learning from human feedback

This note has no content.

Reinforcement learning
Saliency maps
Monte Carlo tree search
MuJoCo
Maybe try dm_control
dm_control
NEAT algorithm
Center for Human-Compatible Artificial Intelligence
DeepMind
Anthropic
Imitation learning
Stein variational gradient descent
Overcooked-AI
Sequence modeling
- Transformers
- Language modeling
  - Language model fine-tuning
  - Nucleus sampling
Redwood Research
Iterated distillation and amplification
AI safety
Causal influence diagrams
Inverse reinforcement learning
Value learning
Function optimization
- Cross-entropy method
Interpretability
Architecture
GLUE benchmark
AI governance
Transfer learning
Calibration
Adversarial approaches
Benchmarks
Fairness
Imitative generalization
Unrestricted Adversarial Examples Challenge
Anomaly detection
Algorithm learning
Distillation
Generative models
- Image synthesis
Reinforcement learning from human feedback
Expert iteration
Multi-step reasoning
Low-rank structure
Bootstrap aggregating
Active learning
Dataset
Retrieval
Scaling
Imitation learning
Robotics
Diffusion
Reward tampering
Sparsity
Self-improvement
Code generation
Out-of-distribution robustness
Optimized inference/training
- Quantization
Multi-objective reinforcement learning
Sample efficiency
Reward hacking
Goodhart's law