阿里巴巴 · 通义实验室（Qwen）

Qwen RL（实习 / 全职）· 2026-05-20

国内大厂北京 / 杭州正式实习

介绍

正在大力拓展 Qwen 模型的 RL 训练，推动以 RL 为中心的 post-train 迭代范式。刚发布的新一代旗舰模型 Qwen3.7-Max 正是在 RL 上大力投入的产物。欢迎优秀的同学（实习或全职）加入，共同促进团队 RL 技术的进步，参与下一代 Qwen 模型的研发。简历需 pdf 格式，并注明联系方式。

描述

- 基于任务特性（单轮、多轮、harness、多模态等），优化 RL 训练策略，提升 Qwen 模型在基准评测、真实任务与用户体感上的表现 - 协助 infra 联合调优，提升 RL 训练的效率与算力利用

要求

- 计算机科学相关专业背景，博士及硕士优先 - 熟悉 LLM RL 训练流程与算法（GRPO、routing replay 等），有 30B 以上 MoE RL 训练经历的优先 - 熟悉 verl、slime 等 RL 训练框架，熟悉 sglang、vllm 等推理框架 - 有基模团队实习或工作经历的优先 - （对于实习）可长期实习的优先