号称赢过DeepSeek 阿里巴巴发布新AI

2025年1月30日

中国新创AI公司DeepSeek近期发布的两款模型引发全球关注，而阿里云也迅速推出最新的「通义千问」Qwen 2.5-Max，并声称在测试表现上超越了DeepSeek V3。

通义千问Qwen 2.5-Max采用MoE（Mixture of Experts）架构，训练过程中使用了超过20兆token的预训练数据，并结合精心设计的后训练方案，以提升模型能力。

阿里云对比了Qwen 2.5-Max与其他主流指令模型的性能，包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet。在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中，Qwen 2.5-Max的表现优于DeepSeek V3，同时在MMLU-Pro等测试中也展现了强劲的竞争力。

在基座模型的比较方面，由于GPT-4o和Claude-3.5-Sonnet为闭源模型，阿里云将Qwen 2.5-Max与当前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B，以及同样位列开源稠密模型前列的Qwen 2.5-72B进行对比。结果显示，Qwen 2.5-Max在大多数基准测试中均展现出明显优势。

研发团队表示，随着后训练技术的持续优化，未来版本的Qwen 2.5-Max将达到更高水平。目前，用户可通过API访问该模型，或登录Qwen Chat体验，包括直接与模型对话、使用artifacts及搜索等功能。