链接99自动秒收录

对话周鸿祎、方汉:DeepSeek能否改写AI战局?|疯狂|傅盛|黄仁勋|大模型|人工智能


文章编号:129 / 更新时间:2025-01-29 13:22:27 / 浏览:

用微信扫码二维码

分享至好友和朋友圈

“DeepSeek在基座大模型上做出的突破,是天才级别的。”

对话周鸿祎、方汉:DeepSeek能否改写AI战局?|疯狂|傅盛|黄仁勋|大模型|

1月28日,大洋彼岸的人工智能巨头Open AI CEO山姆·奥特曼(Sam Altman)发文回应DeepSeek带来的挑战:“DeepSeek推出的R1令人影响深刻,我们当然会推出更好的模型,有新的竞争对手也令人振奋。”

与之对比的是在产品上的快速迭代:除夕当天,DeepSeek悄无声息地发布开源多模态模型Janus-Pro。此前1月27日早间,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费app下载排行榜,在美区下载榜上超越chatgpt

“现在硅谷都把DeepSeek叫做来自东方的神秘力量,中国AI公司的创造力已经刹不住车了。”周鸿祎表示。

AI军备竞赛已进入深水期,曾有观点认为,在字节、阿里、腾讯等大厂包围下,AI创业公司将面临洗牌,难逃被并购的命运,而杀出重围的却是似乎“名不见经传”的DeepSeek。DeepSeek走红的秘密是什么,为国内大模型行业带来哪些启示?

“DeepSeek公司高层明确对商业化不感兴趣,只想做技术研究,这样的高度一般人达不到。”

尽管在外界眼中,DeepSeek仿佛是一夜爆红,但此前早有多项成就引发行业关注。2024年,在大模型行业率先发起价格战的正是DeepSeek,但并未引起外界关注,此后智谱、字节跳动等跟进,才引发整个行业的降价潮流。

对话周鸿祎、方汉:DeepSeek能否改写AI战局?|疯狂|傅盛|黄仁勋|大模型|

当时的DeepSeek,还未真正让他人看到它的实力。2024年,智谱AI COO张帆在接受采访时曾开玩笑说:“我们是主流厂商中第一个降价的。”当时有人提醒,首个降价的厂商其实是DeepSeek,张帆表示:“我说的是主流厂商”。

DeepSeek最引人瞩目的,是其显著降低了大模型开发成本。1月20日,DeepSeek正式发布推理模型R1,其API(编程接口)服务定价为每百万输入tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。DeepSeek的定价约等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。

其次,DS-V3在训练方法上进行了重要创新。采用FP8混合精度训练,效率是常规BF16精度的约1.6倍;同时优化了并行流水线,提升了训练和推理效率。这些优化加上训练的一次成功,使得V3的训练成本降至约550万美元。

而在最新发布的DS-R1中,DeepSeek采用了创新性的GRPO(组相关策略优化)强化学习方法,无需庞大的人类标注数据库。通过让模型自主生成并验证结果的方式,R1展现出了强大的推理能力。随着训练步数增加,其思维链(Chain-of-Thought,CoT)的长度不断增长,模型甚至开始在推理过程中进行自我反思。

有意思的是,如果问DeepSeek自己R1模型相比OpenAI有哪些特点,DeepSeek的回答是,创新点可能在“注意力机制”和“参数效率”,R1在处理长文本时更聚焦关键部分(比如法律合同中的条款),减少计算量,类似“读书时用荧光笔划重点,只反复看关键段落”。在参数效率方面,用类似MoE(混合专家系统)的结构,把模型分成多个“子专家”,不同任务激活不同部分,既节省算力又提升效果(类似“看病时分科室挂号,心脏问题找心内科专家,不用让全科医生从头学到尾”)

DeepSeek自我评价道,“DeepSeek像一家精品店,在特定领域更专精;OpenAI像大型超市,啥都有但价格高。”

谈到DeepSeek,离不开创始人梁文锋。这位在外人眼中朴素、低调的“85后”企业家,最近也站在了媒体的聚光灯下。

根据公开报道,梁文锋从小就表露在数学领域的天赋和兴趣,曾是高考状元,在浙大求学期间就与同学一起积累市场行情数据和探索全自动量化交易。

2008年金融危机期间,他带领团队使用机器学习等技术探索全自动量化交易。2015年创立对冲基金“幻方量化”,2021年资产管理规模突破千亿大关。2023年创办深度求索DeepSeek,专注于通用人工智能(AGI)的突破。

“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”在公开采访中,梁文锋本人曾经如此谈论他心中的AGI(通用人工智能)。

在另一段采访中,他提到,中国AI不可能永远处在跟随的位置,“我们经常说中国 AI 和美国有一两年差距,但真实的Gap(差距)是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”

他认为,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果,“中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。”

梁文锋不打无准备之仗。幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。

2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。

梁文锋曾在采访中表示,最早的一张卡到1万张卡,这个过程是逐步发生的,而这里面主要是好奇心驱动,“对AI能力边界的好奇”。

“中国可能取代美国在基座大模型的统治地位,这是美国十分担忧的。”方汉坦言。

美国AI初创公司Perplexity首席执行官在接受采访时认为,DeepSeek的模型堪称“疯狂”。“这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。”

据美国全国广播公司(NBC)报道,美国总统特朗普当地时间1月27日在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的AI技术给美国科技企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利”。

DeepSeek的成功,暴击AI硬件龙头英伟达。

当地时间1月27日,英伟达(Nasdaq:NVDA)股价暴跌16.86%收于每股118.58美元,跌至过去10月以来的最低点;总市值2.90万亿美元,一日蒸发5900亿美元(约合人民币4.28万亿元),创史上最大单日个股市值蒸发纪录。

英伟达的暴跌也使得创始人黄仁勋的身家大幅缩水210亿美元。

对话周鸿祎、方汉:DeepSeek能否改写AI战局?|疯狂|傅盛|黄仁勋|大模型|

DeepSeek在国际范围内的成功,也为中国AI初创企业带来“DeepSeek效应”。

“DeepSeek的成功,说明中国人工智能企业已进入世界第一梯队。尽管我们要承认中美在人工智能上确实有原创性的差距,但是R1的发布将会很大程度影响这个行业的发展,2025年中国在AI领域的创新相当值得期待。”资深AI从业者、猎豹移动董事长兼CEO傅盛表示。

而方汉认为,要谈中国在AI上的能力完全赶超美国,还为时尚早,但是DeepSeek的表现,说明中国AI在发展空间上确实为人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量,“在AI领域,中国和美国的优势相比其他国家是巨大的。”

“如果要双方真正平起平坐地竞争,还是需要解决算力卡脖子问题。”方汉坦言,“但是我预计将在2-3年内彻底解决这个问题。相信在不久之后,能看到两个国家真正实现你追我赶、公平竞争。”

对话周鸿祎、方汉:DeepSeek能否改写AI战局?|疯狂|傅盛|黄仁勋|大模型|


相关标签: 疯狂傅盛方汉周鸿祎黄仁勋大模型人工智能机器学习

本文地址:http://www.lianjie99.cn/article/129.html

上一篇:热搜爆了机器人扭秧歌出圈,导演为张艺谋人形...
下一篇:重磅决议前新美联储通讯社放风关税是未来联...

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="http://www.lianjie99.cn/" target="_blank">链接99自动秒收录</a>