在当今人工智能蓬勃发展的时代,DeepSeek 无疑是一颗璀璨的新星,吸引着全球的目光。
DeepSeek,全称 “杭州深度求索人工智能基础技术研究有限公司” ,自 2023 年 7 月成立以来,发展势头迅猛。它由量化资管巨头幻方量化创立,创始人梁文锋在量化投资和高性能计算领域有着深厚的背景和丰富的经验,为 DeepSeek 的技术研发和创新奠定了坚实基础。
2024 年,DeepSeek 不断推出令人瞩目的成果。4 月,其大语言模型算法备案通过,这是其技术发展中的一个重要里程碑。同年,DeepSeek 陆续发布了多个版本的模型,如 DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 等,每个模型都在不同领域展现出了卓越的性能。特别是在 2024 年 12 月发布的 DeepSeek-V3,更是在全球 AI 领域掀起了巨大波澜。
DeepSeek-V3 以极低的训练成本,实现了与 GPT-4o 等顶尖模型相媲美的性能,震惊业界。其训练成本仅为 560 万美元,远远低于美国开放人工智能研究中心、谷歌、“元” 公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。这一 “高性价比” 的优势,使得 DeepSeek 在激烈的市场竞争中脱颖而出。在知识类任务(MMLU、MMLU-pro、GPQA、SimpleQA)上,DeepSeek-V3 的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 anthropic 公司于 10 月发布的 Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME2024, Math)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。另外,在生成速度上,DeepSeek-V3 的生成吐字速度从 20tps 大幅提高至 60tps,相比 V2.5 模型实现了 3 倍的提升,能够带来更加流畅的使用体验。
2025 年 1 月,DeepSeek 再次成为焦点。随着新模型 DeepSeek-R1 的推出,1 月 27 日,Deepseek 应用登顶苹果中国地区和美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越 ChatGPT。DeepSeek-R1 在技术上实现了重要突破,它用纯深度学习的方法让 AI 自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI-o1 模型正式版,并且延续了该公司高性价比的优势。
然而,DeepSeek 在快速发展的过程中也并非一帆风顺。1 月 28 日,DeepSeek 于服务状态页面公告,近期线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了 + 86 手机号以外的注册方式,而已注册用户可以正常登录。1 月 27 日,DeepSeek 官网显示网页 / API 不可用,26 日也曾出现短时闪崩现象。据 DeepSeek 回应,其服务再次 “宕机”,源自新模型发布后,用户访问量激增所致。
尽管面临挑战,但 DeepSeek 的完全开源策略为其发展带来了独特的优势。这种策略不仅降低了用户的使用门槛,还促进了 AI 开发者社区的协作生态。通过开源,DeepSeek 吸引了大量开发者和研究人员的关注,他们可以在平台上自由获取和修改模型代码,共同推动 AI 技术的发展。脸书母公司 Meta 已成立专门小组对 DeepSeek 展开研究和学习,北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟表示,DeepSeek 最大优势在于算法的改进和优化,如果说 OpenAI 是 “大力出奇迹”,那么 DeepSeek 小力也可以出奇迹。
展望未来,DeepSeek 有望在人工智能领域继续深耕,凭借其技术优势和开源策略,不断推动 AI 技术的进步,为全球用户带来更多创新的应用和服务,在激烈的市场竞争中持续书写属于自己的辉煌篇章。