029-88787776

 近年来,人工智能领域发展迅猛,OpenAI更是掀起了全球AI发展热潮。2017年,Google推出Transformer架构,带来了自然语言处理的革命性变化。2022年11月,OpenAI推出具有强大语言理解和生成能力的ChatGPT,引发全球范围的广泛关注和讨论,推动AI技术在各个领域的应用和发展。OpenAI的成功,展示了AI技术的巨大潜力,也吸引了大量资本和人才进入,促使全球各大科技公司纷纷加大在AI领域的研发投入。各类AI 技术、商业与开源大模型涌现,拉开了全球大模型竞赛的帷幕。

 

在这场激烈的“百模大战”中,DeepSeek脱颖而出引发全球热潮,是多种因素共同作用的结果。从技术层面来看,DeepSeek展现出非凡实力,特别是在特定领域展现出卓越的性能及持续优化的通用语言模型能力。在顶尖芯片受限的情况下,它通过技术创新,将低性能芯片的利用率发挥到极致,以高效的架构和训练方法创造出可媲美ChatGPT的AI大模型,打破算力垄断;而短频快的商业模式、清晰的定位、积极的社区互动,使得DeepSeek的技术得到快速迭代与应用。此外,DeepSeek的开源策略,为全球技术人员提供了宝贵的资源,极大推动了AI行业发展,无私的开源精神为它赢得了良好口碑和广泛支持

 

DeepSeek从崭露头角到引领AI领域的重大变革,已经逐渐成为全球科技创新的重要力量。本文将详细梳理DeepSeek在发展过程中所引发的关键事件,深入分析其在全球AI竞争中的独特地位及其对国际AI格局的深远影响。同时,我们还将探讨DeepSeek在网络安全领域带来的新机遇,并详细分析大模型在安全性方面的挑战与风险。


01 DeepSeek的起源与发展

 

DeepSeek是一家总部位于中国杭州的人工智能公司,起源与幻方量化密切相关。成立于2015年的幻方量化是国内头部量化私募基金,在量化投资领域成绩显著,管理资金规模曾达到千亿级别。


DeepSeek成立于2023年7月17日,由幻方量化孵化并全资控股,被其定位为通用人工智能(AGI)和大模型研发的技术引擎。公司专注于自然语言处理、代码生成和多模态数据处理等领域,致力于开发先进的大语言模型(LLM)及相关技术。

DeepSeek团队是一群来自中国顶尖高校和研究机构的AI人才,包括多位来自清华大学和北京大学的博士生,在深度学习、强化学习和模型优化等领域积累了丰富的经验,并取得了显著的研究成果。例如他们提出的新型的多头潜在注意力(MLA)架构,以及一种名为GRPO(Group Relative Policy Optimization)的强化学习算法,在提升模型性能的同时,显著降低了训练资源的需求。

1. DeepSeek的发展脉络

DeepSeek的发展历程可以追溯到幻方量化自主研发的 “萤火一号” 训练平台。2023年,在ChatGPT引发市场关注后,幻方量化的创始人梁文锋宣布正式进军通用人工智能领域,并创办DeepSeek,专注于AI大模型的研究和开发。DeepSeek成立后,迅速推出了一系列具有创新性的大模型,包括DeepSeek V1、V2、V3和DeepSeek-R1。其迭代历程简要展示如下:

平台/模型名称

发布时间

描述

萤火1号

2019

2019年,幻方量化为提升自身在量化投资领域的竞争力,AI软硬件研发团队自研"萤火1号"集群,于2020年正式投入使用,总投资近2亿元人民币,搭载约1100块GPU,为量化交易策略的研发提供了初步的算力支持,同时也为后续Al技术研发奠定了坚实基础。

 

萤火2号

2021

2021年幻方AI投入十亿建设「萤火二号」。「萤火二号」一期确立以任务级分时调度共享AI算力的技术方案,从软硬件两方面共同发力:高性能加速卡、节点间200Gbps高速网络互联、自研分布式并行文件系统(3FS)、网络拓扑通讯方案(hfreduce)、算子库(hfai.nn),高易用性应用层等,将「萤火二号」的性能发挥至极限。

DeepSeekCoder

2023年11月2日

DeepSeek发布了首个开源代码大模型DeepSeekCoder,该模型支持多种编程语言的代码生成、调试和数据分析任务。

DeepSeekLLM

2023年11月29日

DeepSeek推出了参数规模达670亿的通用大模型DeepSeekLLM,其中包括7B和67B的base及chat版本。

DeepSeek-V2

2024年5月

DeepSeek进一步扩展了模型规模,总参数达到2360亿,同时优化了训练方法,降低了计算成本,提升了模型的语言理解和生成能力。

DeepSeek-V2.5

2024年9月5日

该版本合并了DeepSeek Coder V2和DeepSeek V2 Chat两个模型。

DeepSeek-VL2

2024年12月13日

DeepSeek发布了用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,该模型在多种任务中展现了卓越的能力。

DeepSeek-V3

2024年12月26日

DeepSeek发展历程中的一个重要里程碑:DeepSeek发布了总参数高达6710亿的最新版本DeepSeek-V3,因其卓越的性能和高效的训练方式引起广泛关注。该版本引入了FP8混合精度训练和自定义多GPU通信协议,采用了 “数据蒸馏” 技术,使得模型在仅使用 2048 张 GPU 运行两个月,总成本控制在 600 万美元左右的情况下,就能接近 OpenAI 最新版本的数理推理能力。

DeepSeek-R1

2025年1月20日

DeepSeek发布了专注于推理能力的模型DeepSeek-R1:该模型通过强化学习和知识蒸馏技术,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版,但其训练价格非常便宜,在海外开发者社区中引发了轰动。DeepSeek R1 在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于 OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了 OpenAI o1 。

Janus-Pro-7B

2025年1月28日

发布Janus-Pro多模态大模型,进军文生图领域,该模型在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E 3,还击败了Stable Diffusion、Emu3-Gen等热门模型。同时,Janus Pro采用MIT开源协议,这意味着可无限制用于商业场景。


2. DeepSeek的突破与优势

DeepSeek的核心突破在于通过“架构优化+算法创新”实现性能与成本的平衡:采用”MoE动态路由“ 技术解决了解决传统大模型“算力浪费”问题;利用纯强化学习驱动模型训练摆脱了对人工标注数据的依赖,使模型通过自我博弈持续进化。与其他大模型相比,DeepSeek的优势有:

(1)功能强大:核心能力与应用场景

DeepSeek系列模型通过多项技术创新,在功能上实现了广泛覆盖与垂直领域的高效应用:

• 多任务处理能力:支持自然语言理解、代码生成、多模态数据分析(文本+图像)、科学推理等复杂任务。
• 长文本处理:借助多头潜在注意力(MLA)技术,可高效处理长达 128k token的上下文,适用于长文档摘要、法律合同分析等场景。
• 代码生成与调试:在代码补全、错误修复、代码重构等任务中表现优异,例如为开发者生成Python函数时准确率超过90%。
• 数学与科学推理:通过纯强化学习驱动的训练方式(DeepSeek-R1),模型可解决高等数学题、物理公式推导等复杂问题。

(2)性能优势:效率与效果的革命性提升

DeepSeek在性能上实现了“更低成本、更高效率”的突破:

• 计算效率:

 

1)混合专家架构(MoE):以DeepSeek-V3(6710 亿参数)为例,每个输入仅激活370亿参数,显存占用减少60%,推理速度提升4倍。
2)FP8混合精度训练:相比传统FP16训练,FP8可以在不显著牺牲精度的情况下大幅减少内存占用和计算需求,从而降低了硬件成本和能耗。

• 任务性能:

 

1)在自然语言处理基准测试(如MMLU、C-Eval)中,DeepSeek-V3 综合得分超越GPT-4o-0513。
2)在编程任务(HumanEval-MUL)中,DeepSeek-V3的准确率达 82.6%。
3)在数学推理(MATH-500)中,DeepSeek-V3的准确率90.2%,这一成绩显著高于其他一些知名模型,例如GPT-4o-0513的准确率为74.6%,Claude-3.5-Sonnet-1022的准确率为78.3%。

• 成本控制:

 

1)DeepSeek-V3训练成本仅557.6万美元,相比同规模模型(如 GPT-3的1200万美元)降低53.5%。
2)DeepSeek V3采用FP8精度和DualPipe并行性,减少了GPU的闲置时间,从而降低了能耗。

3. DeepSeek开源引发关注

DeepSeek的开源策略是其成功的关键之一。2025年1月,DeepSeek团队发布了DeepSeek-R1的开源版本,同步公开了模型权重(允许研究者和开发者自由使用和改进模型)和技术文档(详细介绍了模型架构、训练方法和优化策略)。这一举措迅速引发了全球AI社区的关注,许多研究机构和开发者尝试复现其成果,并在此基础上进行创新。

DeepSeek开源的举动在AI领域引发了广泛关注,影响主要体现在以下方面:

• 促进全球协作:在技术传播方面,DeepSeek公开相关技术细节,技术研究人员可以基于此进行学习、研究和改进;开源模式吸引了全球开发者的参与,加大了AI技术的传播速度和范围。
• 降低技术门槛:在应用层面,DeepSeek的开源模型支持免费商用、任意修改和衍生开发,使全球中小企业和独立开发者能够以较低的成本使用高性能AI技术,推动了AI技术的普及和应用。
• 挑战闭源巨头:DeepSeek的开源策略直接挑战了OpenAI等闭源巨头的市场地位,推动了AI领域的竞争格局重塑。

与此同时,DeepSeek的开源行为引发了激烈争议:

• 关于开源程度的争议:一些人认为DeepSeek虽然开源了模型,但可能存在部分核心技术或数据未完全公开的情况,质疑其开源的诚意和完整性。而另一些人则表示理解,出于商业利益和技术保护的考虑,保留一定的核心技术是合理的,企业需要在开源和自身发展之间找到平衡。
• 关于技术竞争和市场格局的争议:开源促进了技术的共享和创新,打破了技术垄断,有利于推动整个AI行业的发展;但也有人担心,DeepSeek的开源策略可能会引发行业内的恶性竞争,导致市场秩序混乱。一些企业可能会过度依赖开源模型,忽视自身的技术研发能力建设,从而影响整个行业的技术创新能力和可持续发展。
• 国际竞争与合作:DeepSeek的崛起引发了国际关注,部分美国专家呼吁美国加大开源AI研发力度,同时也引发了中美之间在AI领域竞争与合作的讨论。

02 DeepSeek大事记

 

作为领先的AI大模型之一,DeepSeek迅速在国内外爆红,随着DeepSeek持续的技术发布与产品迭代,引发了全球范围内的高度关注,同时安全问题也逐渐浮出水面。

以下是我们梳理的DeepSeek相关的一些大事记:

1. 行业影响与认可类事件

• 2025年1月24日,DeepSeek-R1在国外大模型排名Arena上基准测试升至全类别大模型第三,在风格控制类模型分类中与OpenAI o1并列第一。
• 2025年1月25日,AMD宣布将DeepSeek-V3模型集成至AMD Instinct GPU。
• 2025年1月26日,DeepSeek 应用登顶苹果中国和美国应用商店免费下载排行榜,在美区下载榜超越ChatGPT。
• 2025年1月27日,《纽约时报》评价发文高度评价DeepSeek,从技术原理、性能表现到应用场景等多维度对其进行了深入分析,称其可与ChatGPT媲美;DeepSeek持续霸榜,引发英伟达股价重挫,市值蒸发近6000亿美元。
• 2025年2月,苹果、微软、Meta、阿斯麦等科技巨头高管在财报电话会议上热议 DeepSeek。
• 2025年2月3日:百度智能云、阿里云、华为云、腾讯云等国内主流云平台纷纷宣布支持 DeepSeek 模型。此外,无问芯穹、联通云等平台也相继跟进。

2. 争议与审查类事件

• 2025年1月28日,美国多名官员称DeepSeek存在“偷窃”行为,美国海军以“潜在安全与道德风险”为由,发出邮件示警:“不得以任何形式下载、安装或使用DeepSeek模型”,并对DeepSeek开展国家安全调查。
• 2025年1月29日,美国推出相关法案《Decoupling America’s Artificial Intelligence Capabilities from China Act of 2025》,禁止美国个人及企业使用DeepSeek等中国AI或生成式AI技术,限制美国与中国在人工智能领域合作与技术交流和技术出口转移。
• 2025年1月31日,意大利数据保护局,因数据保护问题,决定在该国封禁 DeepSeek。
• 2025年2月1日,韩国水电与核电公司发布DeepSeek禁令。
• 2025年2月4日,澳大利亚宣布禁止在政府系统和设备上使用DeepSeek。

3. 网络攻击与安全类事件

以下是迄今为止我们了解到的与DeepSeek模型相关的主要安全事件,包括数据泄露、越狱攻击和DDoS等。

(1)大规模DDoS攻击事件:2025年1月3日起,DeepSeek遭受多轮大规模网络攻击,1月27-30日达到高峰,至少有2个僵尸网络参与攻击。

2025年1月,DeepSeek遭受了多轮DDoS攻击。攻击主要针对 DeepSeek的API接口和聊天系统,攻击方法包括NTP反射攻击和 Memcached反射攻击等。攻击导致DeepSeek服务中断,新用户无法注册,但已注册用户仍可正常登录。这些攻击对DeepSeek的服务造成了严重的干扰,影响了用户体验和业务运营。