巨量的关注再次 " 挤崩 "DeepSeek。
1 月 27 日 11 点左右,DeepSeek 官网一度显示 "DeepSeek 网页 /API 不可用 ",截至发稿,功能已恢复。而在昨日(26 日),DeepSeek 也 " 崩 " 了两次。就此,《每日经济新闻》记者联系了 DeepSeek 客服。客服人员回答称:" 稍后再试。"当记者进一步追问是否由于服务器过载导致此次服务中断时,客服人员未给予答复。
与此同时,DeepSeek 在海外又一次掀起巨浪。1 月 27 日早间,DeepSeek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区下载榜上超越了 ChatGPT。
近期,包括纽约时报、经济学人、华尔街日报等在内的多家英美主流媒体都报道了 DeepSeek 的研究进展,高度赞扬其模型的强大性能。
当地时间 1 月 23 日,一位德国顶尖的人工智能研发人员对《自然》评论说,比起 OpenAI 公司那些闭源的 AI 模型,DeepSeek 的开源程度 " 相当优秀 "。《纽约时报》引用一位在加拿大从事科技咨询工作的人士的说法称,DeepSee-R1 才是他们符合他们需求的工具,因为性价比很高。
然而,DeepSeek 背后的团队和领头人却非常低调且神秘,公司创始人梁文锋在网上的公开采访只有寥寥几篇。每经记者尝试联系到 DeepSeek 的一名员工,他表示,公司规定,不能够对外接受采访。
此外,每经记者加入了 DeepSeek 的官方交流群。该群的群公告写道," 暂不对外进行项目合作,不提供私有化部署及相关支持服务;DeepSeek 将集中研发精力奉上更强的模型,敬请期待!"
每经记者深入探究梁文锋及其 DeepSeek 团队的核心成员,揭开它如何从一个默默无闻的小公司,一步步崛起成为震动全球 AI 圈的 " 东方神秘力量 " 的背后故事。
创始人梁文锋是浙江大学信息与通信工程专业的硕士,在他带领下的 DeepSeek 对人才极其看重,不看经验,只看能力。据多位与 DeepSeek 有过接触的行业人士表述,DeepSeek 的优势之处就在于人才密度极高,且多来自于中国本土市场。DeepSeek 团队规模并不大,不到 140 人,工程师和研发人员几乎都来自清北等国内顶尖高校,鲜有 " 海归 ",而且工作时间都不长,不少还是在读博士。
从廉价出租屋到 AI" 风暴眼 ",DeepSeek 创始人梁文锋:我们要做 AGI
在刚刚成立的一年多时间里,DeepSeek 一直不声不响,V2 模型的发布成为其破圈的关键。2024 年 5 月发布的 DeepSeek V2 提供了一种史无前例的性价比:推理成本被降到每百万 token 仅 1 块钱,约等于 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一,DeepSeek 因此被业内戏称为 "AI 界拼多多 "。此外,因为其低调的作风,DeepSeek 又被称 " 来自东方的神秘力量 "。
这之后,DeepSeek 也引发了硅谷的恐慌,OpenAI 迎来一个最强劲的对手。实际上,DeepSeek 背后并不是什么互联网科技大厂,而是来自金融领域的头部量化:幻方量化。
梁文锋(右) 图片来源:新闻截图
2023 年,全球 AI 热潮爆发,梁文锋也来到了他创业之路的第十个年头。当年 5 月,38 岁的梁文锋宣布要做通用人工智能(AGI)。同年 7 月,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)成立,专注于 AI 大模型的研究与开发。梁文锋也成为量化投资者投身 AI 创业的 " 第一人 "。梁文锋是幻方量化的实际控制人,天眼查信息显示,他在 DeepSeek 最终受益的股份比例超 80%。
图片来源:天眼查
1985 年,梁文锋出生于广东湛江的一个五线城市。其具体的童年成长轨迹已不可考,从公开信息唯一可知的是,梁文锋有在采访中提到过自己的父亲是一名小学老师。
2002 年,17 岁的梁文锋凭借优异成绩考入浙江大学电子信息工程专业。2007 年,22 岁的梁文锋又考上了浙江大学信息与通信工程专业硕士,师从项志宇,主要做机器视觉研究。
2008 年,在浙大读书期间,23 岁的梁文锋与同学一起组团队开始积累市场行情数据、金融市场其他相关数据以及宏观经济等数据。
2010 年 6 月,25 岁的梁文锋从浙江大学信息与通信工程专业硕士毕业,其毕业论文题目为《一种鲁棒的 PTZ 摄像机目标跟踪算法》。
毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多场景中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方量化。
他主导的幻方量化在 2016 年首次上线 AI 策略,并于 2017 年实现投资策略全面 AI 化,成为量化投资领域的创新先锋。幻方量化成立仅 6 年,管理规模曾达到千亿,被称为 " 量化四大天王 " 之一。它也是国内唯一公开宣称有拥有万张英伟达 A100 显卡的企业,其算力储备量就算是在一众互联网公司科技公司里,也毫不逊色。
在此前接受媒体采访时,梁文锋表示,幻方量化进入 AI 领域并非偶然,而是源于对 AI 的深厚兴趣与坚定信念。早在浙江大学攻读 AI 时,梁文锋就坚信 "AI 一定会改变世界 ",尽管当时这一观点并不被广泛认同。
梁文锋强调,幻方量化进入 AI 领域并非为了复刻 ChatGPT,而是希望通过研究和探索,解开 AGI 的更多未知之谜。他们将从语言大模型入手,逐步拓展到视觉等领域,致力于打造真正人类级别的 AI。
梁文锋告诉媒体," 我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。"
时至今日,梁文锋的日常依旧是看论文、写代码、参与小组讨论,是少有的能堪比一线研究员能力的公司掌舵者。一位 AI 创业者在社交媒体上爆料称,他去年问过 DeepSeek 团队的一名成员:" 为什么你们的 AI 表现这么好?" 那位成员回答:" 因为我们的 CEO 自己读论文、写代码、招募人才。"
不到 140 人!DeepSeek 团队成员揭秘:年轻化,清北应届生领衔,还有在读生
便宜!开源!好用!
凭借集齐这三大优势的 AI 大模型,DeepSeek 一飞冲天,成为了全球 AI 圈热议的对象。
据多位与 DeepSeek 有过接触的行业人士表述,DeepSeek 的优势之处就在于人才密度极高,且多来自于中国本土市场。另一位与 DeepSeek 有过接触的行业人士称,"DeepSeek 给出的薪酬待遇非常具有竞争力,这让其一直对人才有很强的吸引力 "。
在接受媒体采访时,梁文锋认为,如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。" 不一定是做过这件事的人才能做这件事。我们招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。"
这一原则贯穿到了 DeepSeek 的团队组成中,最大的特点就是年轻。应届生、在读生,特别是来自清北的应届生在其中非常活跃。
"只招 1% 的天才,去做 99% 中国公司做不到的事情。" 面试过 DeepSeek 的应届生这样评价其招聘风格。这也使得 DeepSeek 全员上下,都保持着极致的创新动力。
DeepSeek 团队规模并不大,不到 140 人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有 " 海归 ",而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。
梁文锋曾说过,"V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。"
让 DeepSeek 破圈的 V2 模型最重要的创新是提出了一种新型注意力,在 Transformer 架构的基础上,用 MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。
在一众贡献者中,高华佐和曾旺丁为 MLA 架构做出了关键创新,两人都刚从学校出来没几年。高华佐非常低调,目前只知道是北大物理系毕业;曾旺丁来自北京邮电大学,研究生导师是北京邮电大学人工智能与网络搜索教研中心主任张洪刚。
DeepSeek 大模型的另一大突破,是通过一种名为 GRPO 的算法,创新训练方法,大大降低了成本。
核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的 AI 系统有着独特见解。他曾服务于微软研究院,加入 DeepSeek 团队之后,参与了多个重要项目的研发,包括 DeepSeek-Math、DeepSeek-Prover 和 DeepSeek-Coder-v2 等。
朱琪豪 图片来源:北京大学程序设计语言研究室网站截图
GRPO 算法创新的另一重要贡献者是朱琪豪,是北京大学计算机学院 2024 届的博士毕业生,专注于深度代码学习研究。
他的同学代达劢则在更早的时候加入这个团队,参与了 DeepSeek 大模型从 V1 到 V3 每一代的研发,已经是元老级研发人员,也在学生时代获得多项论文奖。
负责 DeepSeek 大模型训练及推理基础架构的,是同样刚毕业的工程师赵成钢。加入 DeepSeek 之前,他曾在英伟达公司实习。
DeepSeek 团队中其他核心人员还包括:Peiyi Wang(北大博士生)、王炳宣(清华博士生)、吴作凡(中山大学博士生)、任之洲(中山大学博士生)、周雨杨(中山大学博士生)和罗翔煜(中山大学博士生)等。
这些一边搞研发一边写论文的年轻人,也一次又一次带给梁文锋惊喜。
来源:每日经济新闻
有话要说...