Super HN - Super Hacker News

Scaling Reinforcement Learning: Environments, Reward Hacking, Agents, Data (semianalysis.com) 1 point by mfiguiere 2 minutes ago