QwQ-32B：320亿参数推理新星，媲美尖端模型

昨天，千问团队发布 QwQ-32B，这是一款全新的推理模型，它拥有 320 亿个参数，性能足以媲美 DeepSeek-R1 等尖端推理模型。

强化学习驱动性能飞跃

本次，千问团队深入探索了扩展强化学习（RL）的方法，并在 Qwen2.5-32B 的基础上取得了显著成果。研究表明，RL 训练能够持续提升模型性能，特别是在数学和编程方面。更令人振奋的是，持续扩展 RL 可以帮助中等规模的模型达到与大型 MoE 模型相媲美的性能。

价格更新：

价格更新

OpenRouter 上线，免费体验： QwQ-32B 已在 OpenRouter 上线，现在可以免费体验。

OpenRouter