首页
运维笔记
SEO心得
软件程序
网站源码
旗下网站
programmer
登录
标签
解密prompt系列51 R1实验的一些细节讨论
解密prompt系列51. R1实验的一些细节讨论
DeepSeek R1出来后业界都在争相复现R1的效果,这一章我们介绍两个复现项目SimpleRL和LogicRL,还有研究模型推理能力的Cognitive Behaviour,项目在复现R1的同时还针对R1训练策略中的几个关键点进行了讨论
解密prompt系列51 R1实验的一些细节讨论
admin
5小时前
1
0