近年来,人工智能领域发展迅猛,OpenAI更是掀起了全球AI发展热潮。2017年,Google推出Transformer架构,带来了自然语言处理的革命性变化。2022年11月,OpenAI推出具有强大语言理解和生成能力的ChatGPT,引发全球范围的广泛关注和讨论,推动AI技术在各个领域的应用和发展。OpenAI的成功,展示了AI技术的巨大潜力,也吸引了大量资本和人才进入,促使全球各大科技公司纷纷加大在AI领域的研发投入。各类AI 技术、商业与开源大模型涌现,拉开了全球大模型竞赛的帷幕。
在这场激烈的“百模大战”中,DeepSeek脱颖而出引发全球热潮,是多种因素共同作用的结果。从技术层面来看,DeepSeek展现出非凡实力,特别是在特定领域展现出卓越的性能及持续优化的通用语言模型能力。在顶尖芯片受限的情况下,它通过技术创新,将低性能芯片的利用率发挥到极致,以高效的架构和训练方法创造出可媲美ChatGPT的AI大模型,打破算力垄断;而短频快的商业模式、清晰的定位、积极的社区互动,使得DeepSeek的技术得到快速迭代与应用。此外,DeepSeek的开源策略,为全球技术人员提供了宝贵的资源,极大推动了AI行业发展,无私的开源精神为它赢得了良好口碑和广泛支持
DeepSeek从崭露头角到引领AI领域的重大变革,已经逐渐成为全球科技创新的重要力量。本文将详细梳理DeepSeek在发展过程中所引发的关键事件,深入分析其在全球AI竞争中的独特地位及其对国际AI格局的深远影响。同时,我们还将探讨DeepSeek在网络安全领域带来的新机遇,并详细分析大模型在安全性方面的挑战与风险。
01 DeepSeek的起源与发展 DeepSeek是一家总部位于中国杭州的人工智能公司,起源与幻方量化密切相关。成立于2015年的幻方量化是国内头部量化私募基金,在量化投资领域成绩显著,管理资金规模曾达到千亿级别。
平台/模型名称 |
发布时间 |
描述 |
萤火1号 |
2019 |
2019年,幻方量化为提升自身在量化投资领域的竞争力,AI软硬件研发团队自研"萤火1号"集群,于2020年正式投入使用,总投资近2亿元人民币,搭载约1100块GPU,为量化交易策略的研发提供了初步的算力支持,同时也为后续Al技术研发奠定了坚实基础。
|
萤火2号 |
2021 |
2021年幻方AI投入十亿建设「萤火二号」。「萤火二号」一期确立以任务级分时调度共享AI算力的技术方案,从软硬件两方面共同发力:高性能加速卡、节点间200Gbps高速网络互联、自研分布式并行文件系统(3FS)、网络拓扑通讯方案(hfreduce)、算子库(hfai.nn),高易用性应用层等,将「萤火二号」的性能发挥至极限。 |
DeepSeekCoder |
2023年11月2日 |
DeepSeek发布了首个开源代码大模型DeepSeekCoder,该模型支持多种编程语言的代码生成、调试和数据分析任务。 |
DeepSeekLLM |
2023年11月29日 |
DeepSeek推出了参数规模达670亿的通用大模型DeepSeekLLM,其中包括7B和67B的base及chat版本。 |
DeepSeek-V2 |
2024年5月 |
DeepSeek进一步扩展了模型规模,总参数达到2360亿,同时优化了训练方法,降低了计算成本,提升了模型的语言理解和生成能力。 |
DeepSeek-V2.5 |
2024年9月5日 |
该版本合并了DeepSeek Coder V2和DeepSeek V2 Chat两个模型。 |
DeepSeek-VL2 |
2024年12月13日 |
DeepSeek发布了用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,该模型在多种任务中展现了卓越的能力。 |
DeepSeek-V3 |
2024年12月26日 |
DeepSeek发展历程中的一个重要里程碑:DeepSeek发布了总参数高达6710亿的最新版本DeepSeek-V3,因其卓越的性能和高效的训练方式引起广泛关注。该版本引入了FP8混合精度训练和自定义多GPU通信协议,采用了 “数据蒸馏” 技术,使得模型在仅使用 2048 张 GPU 运行两个月,总成本控制在 600 万美元左右的情况下,就能接近 OpenAI 最新版本的数理推理能力。 |
DeepSeek-R1 |
2025年1月20日 |
DeepSeek发布了专注于推理能力的模型DeepSeek-R1:该模型通过强化学习和知识蒸馏技术,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版,但其训练价格非常便宜,在海外开发者社区中引发了轰动。DeepSeek R1 在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于 OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了 OpenAI o1 。 |
Janus-Pro-7B |
2025年1月28日 |
发布Janus-Pro多模态大模型,进军文生图领域,该模型在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E 3,还击败了Stable Diffusion、Emu3-Gen等热门模型。同时,Janus Pro采用MIT开源协议,这意味着可无限制用于商业场景。 |
• 计算效率:
• 任务性能:
• 成本控制:
02 DeepSeek大事记
2025年1月,DeepSeek遭受了多轮DDoS攻击。攻击主要针对 DeepSeek的API接口和聊天系统,攻击方法包括NTP反射攻击和 Memcached反射攻击等。攻击导致DeepSeek服务中断,新用户无法注册,但已注册用户仍可正常登录。这些攻击对DeepSeek的服务造成了严重的干扰,影响了用户体验和业务运营。