强化学习也涌现自监督RL扩展到1000层网络，机器人任务提升50

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍
机器之心报道机器之心编辑部虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。pa
强化学习也涌现自监督RL扩展到1000层网络，机器人任务提升50倍
admin5小时前
40