阿里巴巴 · 通义实验室(Qwen)
Qwen RL(实习 / 全职)· 2026-05-20
介绍
正在大力拓展 Qwen 模型的 RL 训练,推动以 RL 为中心的 post-train 迭代范式。刚发布的新一代旗舰模型 Qwen3.7-Max 正是在 RL 上大力投入的产物。欢迎优秀的同学(实习或全职)加入,共同促进团队 RL 技术的进步,参与下一代 Qwen 模型的研发。 简历需 pdf 格式,并注明联系方式。
描述
- 基于任务特性(单轮、多轮、harness、多模态等),优化 RL 训练策略,提升 Qwen 模型在基准评测、真实任务与用户体感上的表现 - 协助 infra 联合调优,提升 RL 训练的效率与算力利用
要求
- 计算机科学相关专业背景,博士及硕士优先 - 熟悉 LLM RL 训练流程与算法(GRPO、routing replay 等),有 30B 以上 MoE RL 训练经历的优先 - 熟悉 verl、slime 等 RL 训练框架,熟悉 sglang、vllm 等推理框架 - 有基模团队实习或工作经历的优先 - (对于实习)可长期实习的优先