中国新创AI公司DeepSeek近期发布的两款模型引发全球关注,而阿里云也迅速推出最新的「通义千问」Qwen 2.5-Max,并声称在测试表现上超越了DeepSeek V3。

通义千问Qwen 2.5-Max采用MoE(Mixture of Experts)架构,训练过程中使用了超过20兆token的预训练数据,并结合精心设计的后训练方案,以提升模型能力。

阿里云对比了Qwen 2.5-Max与其他主流指令模型的性能,包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet。在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中,Qwen 2.5-Max的表现优于DeepSeek V3,同时在MMLU-Pro等测试中也展现了强劲的竞争力。

在基座模型的比较方面,由于GPT-4o和Claude-3.5-Sonnet为闭源模型,阿里云将Qwen 2.5-Max与当前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen 2.5-72B进行对比。结果显示,Qwen 2.5-Max在大多数基准测试中均展现出明显优势。

研发团队表示,随着后训练技术的持续优化,未来版本的Qwen 2.5-Max将达到更高水平。目前,用户可通过API访问该模型,或登录Qwen Chat体验,包括直接与模型对话、使用artifacts及搜索等功能。

上一则新闻水族馆惊险瞬间 美人鱼整颗头被巨鱼吞入口中
下一侧新闻“1款薯片”食用恐出人命 Lay’s高级别召回产品