大年初四Daya Guo发了一条推文,透露了新年期间让他最振奋的工作,亲眼见证了R1-Zero模型功能曲线的 “持续增长”,而且直言感触到了 强化学习(RL)的强壮力气。
Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的方案,只能说DeepSeek的R1仅仅仅开端,内部研讨还在快速推动,DeepSeek的研讨员新年都没歇,一直在爆肝推动研讨,接下来DeepSeek还有大招。
网友发问:“若不是隐秘的话:这次RL练习跑了多久?”对此,Daya Guo表明,660B参数的R1-Zero和R1是在V3发布之后才开端跑的,练习大约花了2-3周。
此外,他还表明在测验将R1应用于形式化证明环境,期望尽快向社区发布更好的模型。听Daya Guo的意思,他们在这方面已经有发展,未来可能会呈现更重磅的模型发布!等待值拉满!
17173全新怀旧频道已上线!引荐怀旧网游,重温老玩家故事。点此进入怀旧频道