目录
1.各个模型架构
DeepSeek-R1:未明确有特殊架构说明,但属于推理模型,可能在Transformer架构基础上针对推理做了优化,通过强化学习训练实现大量反思和验证。
DeepSeek-V3:是混合专家(MoE)语言模型,采用Transformer架构。
DeepSeek-VL:整体上是 decoder-only 的 LLaVA 风格架构,包括视觉编码器、视觉语言适配器、专家混合语言模型三个核心模块。
DeepSeek-V2:采用 Transformer 架构,引入 MLA(Multi – head Latent Attention)架构和自研 Sparse 结构 DeepSeekMoE。
DeepSeek-R1-Zero:架构与 DeepSeek-R1 类似,但可能在一些细节上针对无人工标注数据训练进行了优化。
2.训练方式
DeepSeek-R1:在后训练阶段大规模使用强化学习技术,结合DeepSeek IE Zero 与DeepSeek IE 两种核心模型,利用机器生成数据训练。
DeepSeek-V3:使用传统的深度学习训练方法,依赖大量数据来增强模型的通用能力。
DeepSeek-VL:训练过程包括视觉-语言对齐、视觉 – 语言预训练、监督微调(SFT)三个阶段。
DeepSeek-V2:基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。
DeepSeek-R1-Zero:几乎不依赖任何人类数据,完全依靠机器生成数据来进行强化学习训练。
3.模型参数与规模
DeepSeek-R1:参数为 660B。
DeepSeek-V3:拥有 6710 亿参数,其中激活参数为 370 亿。
DeepSeek-VL:DeepSeek-VL2 系列有 DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 10 亿、28 亿和 45 亿个激活参数。
DeepSeek-V2:有 2360 亿参数,其中每个 token 210 亿个活跃参数。
DeepSeek-R1-Zero:参数为 660B。
4.应用场景
DeepSeek-R1:在数学、代码以及各种复杂逻辑推理任务上应用出色,主要用于科学研究、复杂问题求解和逻辑分析。
DeepSeek-V3:应用场景包括聊天和编码场景、多语言自动翻译、图像生成和 AI 绘画等多模态场景。
DeepSeek-VL:用于 VQA、OCR、文档 / 表格 / 图表理解和视觉定位等多模态理解任务。
DeepSeek-V2:能处理自然语言处理中的多种任务,在中文综合能力等方面表现出色。
DeepSeek-R1-Zero:与 DeepSeek-R1类似,在复杂推理等任务上有应用,不过因训练数据特点,可能在一些无人工标注数据相关场景更具优势。
5.性能表现
DeepSeek-R1:在推理任务上表现卓越,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。
DeepSeek-V3:在知识类任务、算法类代码场景、工程类代码场景、中文能力、数学能力等方面有一定优势,在多语言编程测试排行榜中,仅次于 OpenAI o1大模型。
DeepSeek-VL:在各种多模态任务中展示了优越的能力,在激活参数相似或更少的情况下实现了具有竞争力或最先进的性能。
DeepSeek-V2:性能达 GPT-4级别,中文综合能力在众多开源模型中最强,英文综合能力与最强的开源模型 LLaMA3-70B处于同一梯队。
DeepSeek-R1-Zero:因和 DeepSeek-R1开源权重相同,性能应该在推理等方面有类似表现,但可能在无人工数据场景更优。
6.发布时间
DeepSeek-R1:2025年1月20日正式发布。
DeepSeek-V3:2024年12月26日推出首个版本。
DeepSeek-VL:DeepSeek-VL2于2024 年12月发布。
DeepSeek-V2:2024 年5月发布。
DeepSeek-R1-Zero:与DeepSeek-R1在2025年1月20日左右同步开源。
7.价格
DeepSeek-R1:API服务定价为每百万输入tokens 1元 (缓存命中)/4元 (缓存未命中),每百万输出 tokens 16 元。
DeepSeek-V3:API服务定价为每百万输入 tokens 为0.5元 (缓存命中)/2元 (缓存未命中),每百万输出 tokens 价格为8元。
DeepSeek-V2:API接口价格为每百万 tokens 输入1元、输出2元 (32K 上下文)。
原文链接:https://blog.csdn.net/ccsss22/article/details/145395875?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522de19cbf56f88d7b0bbfe7e7f208604ab%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=de19cbf56f88d7b0bbfe7e7f208604ab&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-22-145395875-null-null.nonecase&utm_term=deepseek