昨日晚间,深度求索旗下的大语言模型DeeoSeek-R1悄悄进行了一次小版本升级,但并未在官网发布更新公告,仅仅是在官方交流群中进行了通知,目前在官网、APP、小程序上均已可用。如果不出所料,近日官网将会发布更新公告。
根据Live CodeBench编程代码测试平台的评分,更新到0528版本的DeepSeek-R1的代码编程性能超越了OpenAI于今年年初推出的o3 mini high。
根据知乎博主@toyama nao的测试,DeepSeek-R1 0528版本的逻辑成绩有14.4%的大幅提升,更新之后再次跻身推理模型的第一梯队,其中模型使用成本最亮眼,只有OpneAI o3 (high)的5%,不过通过测试的平均耗时较长。
在外网博主@Lech Mazur基于《纽约时报》解谜游戏的所设计的基准测试Extended NYT Connections中,DeepSeek-R1 0528版本的得分由38.6提升49.8,提升幅度高达29%。在Thematic Generation benchmark测试中,DeepSeek-R1 0528版本的得分(越低越好)由1.80缩减至1.74,排名则是由第9名跃升至第5名。
DeepSeek团队还是非常谦虚,仅仅是一个小版本升级就有如此高的性能提升,换成别家说不定都命名成新模型了。
发表评论注册|登录