DeepSeek 是杭州深度求索人工智能基础技术研究有限公司

基本信息

 

  • 成立时间:2023 年 5 月。
  • 创始人:梁文锋。
  • 总部地点:浙江杭州。

发展历程

 

  • 2023 年 4 月,由量化投资公司 High-Flyer 宣布成立独立主体来研究通用人工智能,与金融业务分离。
  • 2023 年 11 月 2 日,发布首个模型 DeepSeek Coder,可免费商用并完全开源。
  • 2023 年 11 月 29 日,推出 DeepSeek LLM,规模达 67B 参数,并发布聊天版本 DeepSeek Chat。
  • 2024 年 5 月,推出 DeepSeek-V2,以低价高性能著称,引发中国 AI 模型价格战。
  • 2024 年 11 月,发布 DeepSeek R1-lite-preview,在逻辑推理、数学推理和实时问题解决等任务中表现出色。
  • 2024 年 12 月,推出 DeepSeek-V3,拥有 6710 亿参数,在约 55 天内完成训练,成本 558 万美元,性能表现出色,在部分基准测试中与 GPT-4O 和 Claude 3.5 相当。

技术特点

 

  • 高效的训练性能:DeepSeek V3 的训练周期仅需 280 万 GPU 时,相比 Meta Llama3.1 的 3080 万 GPU 时,极大地节约了计算资源,降低了训练成本。
  • 创新的技术路线:在通信和显存优化、推理专家的负载均衡及 FP8 混合精度训练等方面进行了显著改进。

产品与服务

 

  • 主要产品:包括 DeepSeek Coder、DeepSeek LLM、DeepSeek V2、DeepSeek V3 等模型,涵盖了代码编写、文本生成、逻辑推理、数学推理等多个领域。
  • 服务内容:提供模型训练、优化、定制等服务,以满足不同用户的需求。

市场影响

 

  • 引发价格战:DeepSeek-V2 发布后,因其低价策略引发了国内其他大模型厂商的价格战,降低了 AI 技术的准入门槛,使更多企业和个人能够参与到 AI 领域。
  • 提升行业创新:其开源模式和高性能低成本的特点,鼓励了更多企业和研究团队进行技术创新和应用探索,推动了整个 AI 行业的发展。

挑战与机遇

 

  • 面临的挑战:目前强项主要集中在推理、数学和编程等领域,在多模态和娱乐化应用方面仍有所欠缺。此外,其团队的极客文化使其商业化策略相对保守,未来需要平衡技术创新与商业拓展。
  • 发展机遇:随着 AI 技术的不断发展和应用场景的不断拓展,DeepSeek 在通用人工智能领域的技术积累和创新能力有望使其在未来的市场竞争中占据一席之地。同时,其开源模式也有助于吸引更多的合作伙伴和用户,共同推动公司的发展。

发表评论

相关新闻和洞察