用微信扫码二维码
分享至好友和朋友圈
1月20日发布的deepseek-R1模型让开发公司DeepSeek在全球的热度持续攀升。1月27日,DeepSeek接连登顶苹果中国和美国地区应用商城的免费应用排行榜,甚至超越了大众熟知的ChatGPT。
诸多测评结果显示,DeepSeek旗下模型R1在多个基准测试下都能匹敌甚至超越OpenAI、谷歌和Meta的大模型,而且成本更低。在聊天机器人竞技场综合榜单上,DeepSeek-R1已经升至全类别大模型第三,其中,在风格控制类模型(StyleCtrl)分类中与顶尖推理模型OpenAI o1并列第一。其竞技场得分达到1357分,略超OpenAI o1的1352分。
据外媒报道,Meta专门成立了四个专门研究小组来研究DeepSeek的工作原理,并基于此来改进旗下大模型Llama。
其中两个小组正在试图了解DeepSeek如何降低训练和运行成本;第三个研究小组则在研究DeepSeek训练模型可能用到的数据;第四个小组正在考虑基于DeepSeek模型属性重构Meta模型。
难度I|三个灯泡问题:五大模型全部通关
五个模型都很快得出了正确答案,在这个简单的问题上没有分出区别。
难度II|囚犯帽子颜色推理:DeepSeek、Kimi犯错,Gemini耗时最短且完全正确
接下来问题升级:有四位囚犯排队站好,囚犯1号能看见囚犯2号和囚犯3号;囚犯2号可以看见囚犯3号;囚犯3号看不见任何人;囚犯4号也看不见任何人。他们知道一共有4顶帽子,2黑2白,但并不知道自己头顶的帽子是什么颜色。请问谁会是第一个知道自己头顶的帽子是什么颜色并且迅速喊出来的人?
在这个问题上,DeepSeek和Kimi都犯错了,两者在推理过程中推导出了一种情况,但正确选项应该是两种。
而Gemini、豆包和o1都回答正确。其中,Gemini推理速度最快,仅用了6.8秒就得出了结果,最慢的是o1,耗时1分02秒。
难度III|研究生级别数学题:DeepSeek-R1完胜,且用时最短
在这一问题上,DeepSeek-R1没有“辜负”评测,表现最好,找出了三个解。除o1外的其他模型只找出了两个解,而且,Kimi在推理过程中还开启了联网查询功能进行辅助推理,但仍然少了一个解。
虽然o1也找出了三个解,但耗时更长,用了4分17秒得出答案,而DeepSeek-R1只花费了2分18秒。
综合各项测试来看,DeepSeek存在一个反常识的问题,即在难度不高的问题上表现不如其他模型好,甚至可能会出现其他模型不会出现的错误。但是当难度提升到专家级别的程度上时,DeepSeek的表现反而变成了最好的模型。
这就是说,对于需要专业知识辅导的从业人员或研究人员来说,DeepSeek是一个好的选择。
DeepSeek力压ChatGPT登顶苹果应用榜
1月27日,苹果App Store中国区免费榜显示,近一周全球刷屏的DeepSeek一举登上首位。同时,DeepSeek在美国区苹果App Store免费榜从前一日的第六位飙升至第一位,超越ChatGPT、Meta旗下的社交媒体平台Threads、Google Gemini,以及Microsoft Copilot等AI产品。
许多科技界人士都在大肆宣扬该公司所取得的成就及其对AI领域的意义。
例如,著名投资公司A16z创始人马克安德森27日表示,DeepSeek-R1是AI的斯普特尼克时刻(注:这是指1957年10月4日苏联抢先美国成功发射斯普特尼克1号人造卫星,令西方世界陷入一段恐惧和焦虑的时期)。
DeepSeek-R1在一些AI基准测试上匹敌甚至超越了OpenAI的o1模型。DeepSeek-R1在聊天机器人竞技场综合榜单上排名第三,与顶尖推理模型o1并列。
在高难度提示词、代码和数学等技术性极强的领域,DeepSeek-R1拔得头筹,位列第一。
在风格控制方面,DeepSeek-R1与o1并列第一,意味着模型在理解和遵循用户指令,并按照特定风格生成内容方面表现出色。
在高难度提示词与风格控制结合的测试中,DeepSeek-R1与o1也并列第一,进一步证明了其在复杂任务和精细化控制方面的强大能力。
Artificial-Analysis对DeepSeek-R1的初始基准测试结果也显示,DeepSeek-R1在AI分析质量指数中取得第二高分,价格是o1的约三十分之一。
预训练时代将终结,推理正在崛起
DeepSeek旗下模型极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降。
“AI预训练时代无疑将终结。”2024年12月13日,在温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家伊利亚•苏茨克维尔(Ilya Sutskever)直言。
预训练是指使用大量数据训练AI模型的过程,通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成,耗时较长,成本高昂。推理是指将训练好的模型应用于实际任务(如生成文本、识别图像、推荐商品等),通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备(如手机、自动驾驶汽车)上进行。
推理模型其最突出的地方在于,在给出回答之前,模型会思考,通过产生一个很长的内部思维链(CoT),逐步推理,模仿人类思考复杂问题的过程。
随着各类大模型的成熟,许多企业和开发者可以直接使用预训练模型,而不需要从头训练。对于特定任务,企业通常只需对预训练模型进行微调,而不需要大规模训练,这减少了对训练算力的需求。预训练时代或许行将落幕,推理正在崛起。
巴克莱12月的报告预计,AI推理计算需求将快速提升,预计其将占通用人工智能总计算需求的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。英伟达GPU目前在推理市场中市占率约80%,但随着大型科技公司定制化ASIC芯片不断涌现,这一比例有望在2028年下降至50%左右。
本文地址:http://www.lianjie99.cn/article/1195.html