DeepSeek研讨员在线爆料：新年都没歇还有大招！_实木地热系列

热点新闻

DeepSeek研讨员在线爆料：新年都没歇还有大招！

TIME: 2025.02.10

大年初四Daya Guo发了一条推文，透露了新年期间让他最振奋的工作，亲眼见证了R1-Zero模型功能曲线的 “持续增长”，而且直言感触到了强化学习（RL）的强壮力气。

Daya Guo回复了网友有关DeepSeek R1的一些问题，以及接下来的公司的方案，只能说DeepSeek的R1仅仅仅开端，内部研讨还在快速推动，DeepSeek的研讨员新年都没歇，一直在爆肝推动研讨，接下来DeepSeek还有大招。

网友发问：“若不是隐秘的话：这次RL练习跑了多久？”对此，Daya Guo表明，660B参数的R1-Zero和R1是在V3发布之后才开端跑的，练习大约花了2-3周。

此外，他还表明在测验将R1应用于形式化证明环境，期望尽快向社区发布更好的模型。听Daya Guo的意思，他们在这方面已经有发展，未来可能会呈现更重磅的模型发布！等待值拉满！

17173全新怀旧频道已上线！引荐怀旧网游，重温老玩家故事。点此进入怀旧频道

上一篇: 微软发布 Zero Day Quest 白帽安全比赛

下一篇: 揭秘：五大电子档杆类型与未来发展的新趋势原来汽车科技如此迷人！

产品中心