DeepSeek AI 开源的大语言模型,是其开源的第三代大语言模型。DeepSeek V3 是一个混合专家架构的模型(Mixture-of-Experts),总参数量 6810 亿,每次推理会激活其中 370 亿的参数。DeepSeek V3 模型在 14.8 万亿 tokens 上完成训练,花费了 278.8 万个 H800 小时训练完成,其各项评测结果都十分优异。
DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。
在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。