Qwen3-Max-Preview vs Claude-Opus 4：非推理模型的极限在哪里？

数码发烧友 发表于 2025-9-8 15:46:59

深度对比显示，Qwen3-Max-Preview在多语言翻译（BLEU+5.2）、代码生成（LiveCodeBench+8.7）等场景超越Claude-Opus 4，但复杂逻辑推理（Arena-Hard v2）仍落后3.5分。技术专家指出，非推理架构通过工程优化缩小与推理模型差距，但深度推理任务仍需依赖专用模型。
新智元评测
https://m.toutiao.com/article/7546805995066884658/?use_xbridge3=true&loader_name=forest&need_sec_link=1&sec_link_scene=im&theme=light
结论：非推理模型更适合对速度和成本敏感的场景，如实时客服、内容生成。

页: [1]

万狸社区-免费活跃数码论坛，手机/电脑/汽车+旅游美食游戏兴趣社区's Archiver

Qwen3-Max-Preview vs Claude-Opus 4：非推理模型的极限在哪里？