中国AI公司DeepSeek近日在业界掀起热潮,其于去年12月26日和今年1月20日先后推出的开源大型语言模型(LLM)——DeepSeek-V3和DeepSeek-R1,被外界认为性能接近甚至超越OpenAI的o1与Meta的Llama系列,引发全球科技界的热烈讨论,更被称为让硅谷感到“恐慌”的新兴力量。
DeepSeek高效突破引发关注
DeepSeek-V3被称为专为AI推论打造的突破性模型。据悉,DeepSeek仅耗资550万美元,便训练出这一模型,与传统AI模型开发数亿美元的成本形成鲜明对比。DeepSeek-V3拥有6710亿参数,而Meta的Llama 3.1虽然参数规模较小(4050亿参数),却需要1.6万个辉达H100晶片和54天的训练周期,成本高昂。相比之下,DeepSeek仅使用2048个H800晶片,在短短两个月内完成训练,效率高出11倍。
尤其值得关注的是,DeepSeek-R1作为开源模型,允许开发者自由下载和定制化应用,这一策略打破了现有语言模型以商业封闭为主的局面,对当前AI行业的商业模式构成直接冲击。目前,DeepSeek-V3已登顶中国App Store下载榜首,进一步证明其市场吸引力。
AMD与DeepSeek合作,推动GPU性能优化
美国芯片巨头AMD也迅速看中DeepSeek的潜力,上周五(1月24日)宣布将DeepSeek-V3整合到其Instinct MI300X GPU中。AMD强调,这一模型能够显著提升AI推论的效率,为AI应用领域带来革命性优化。
H100晶片争议与禁令困境
然而,DeepSeek的快速崛起也伴随争议。根据《CNBC》报道,美国AI公司Scale AI创始人Alexandr Wang透露,DeepSeek拥有约5万个辉达H100晶片。值得注意的是,自2022年起,美国拜登政府已禁止出口先进AI晶片(如H100、H200)至中国公司,DeepSeek的晶片来源因此备受质疑。
Alexandr Wang指出,DeepSeek可能通过隐秘渠道获取这些受限晶片,这显然违反了美国的出口管制政策。此外,即便是专供中国市场的低算力版本晶片(如H800和A800),近来也受到进一步限制。美国商务部已对此展开调查,试图查明是否存在通过白手套公司或其他手段走私AI晶片的行为。
Meta内部恐慌与全球竞争
据中国媒体《每日经济新闻》报道,有Meta工程师爆料称,DeepSeek-V3的表现让Meta内部感到压力。DeepSeek-V3在多项基准测试中超过了尚未发布的Llama 4,这令Meta倍感威胁。更令人震撼的是,DeepSeek仅用550万美元便完成了这一成就,远低于Meta数亿美元的研发成本。这篇爆料文章的真实性尚未核实,但足以反映全球科技巨头对DeepSeek的关注与焦虑。
DeepSeek的崛起标志着AI行业在技术效率和商业模式上的新突破,也凸显了中国AI企业在全球限制下的创新能力。虽然晶片来源问题仍存争议,但这一事件无疑加剧了全球AI领域的竞争态势,也给行业未来发展带来了更多的不确定性和想象空间。