克日,超大界限的 MoE 模子(搀和专家模子)通义千问 Qwen2.5-Max 正式上线,通义千问团队运用高出 20 万亿 token 的预锻炼数据及谨慎策画的后锻炼计划举行锻炼。
通义千问团队暗示,“此日,咱们很夷愉能给行家分享 Qwen2.5-Max 目前所赢得的收获。行家能够正在Qwen Chat 直接体验,或是通过阿里云百炼平台挪用 API 供职。”
同时,通义千问还将 Qwen2.5-Max 与业界当先的模子(无论是闭源仍是开源)正在一系列广受合切的基准测试长举行了比拟评估。这些基准测试蕴涵测试大学秤谌常识的 MMLU-Pro、评估编程才智的 LiveCodeBench,通盘评估归纳才智的 LiveBench,以及近似人类偏好的 Arena-Hard。评估结果涵盖了基座模子和指令模子的本能得分。
起初,通义千问直接比拟了指令模子的本能发挥。指令模子即咱们往常运用的能够直接对话的模子。通义千问将 Qwen2.5-Max 与业界当先的模子(蕴涵 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的本能结果举行了比拟。
通义千问的基座模子正在公共半基准测试中都显现出了明显的上风。“咱们信托,跟着后锻炼工夫的连续先进,下一个版本的 Qwen2.5-Max 将会抵达更高的秤谌。”
通义千问暗示,将不断晋升数据界限和模子参数界限可以有用晋升模子的智能秤谌。“接下来,咱们将不断寻找,除了正在预锻炼的 scaling 一直寻找表,将大肆参加加强进修的 scaling,愿望能告终超越人类的智能,驱动 AI 寻找未知之境。”