IQuest · 基座大模型后训练团队

大模型后训练实习生（LLM/RL 方向）· 2026-06-11

北京实习

介绍

IQuest 基座大模型后训练团队招实习生，诚邀 LLM/RL 方向的同学加入，工作地点北京五道口。

描述

工作内容： - 数据优化：Mid-train 与 SFT 数据优化，高质量数据合成，优化模型在复杂指令遵循、推理、创作、幻觉、安全等方面的基础能力，提升用户体验。 - Reward Model：从效果、鲁棒性和可解释性等方面优化 Reward Model，探索 Agentic 场景下的 GRM/PRM。 - RL 算法优化：优化解决 RL 训练中的训练效果、稳定性、Reward-hack 等问题，优化多目标 RL 以及多任务联合训练，探索新的 RL 范式。

要求

职位要求： - 有数据合成或 LLM 训练经验，熟悉或实践过 Pretrain、SFT、PPO、GRPO 等方法。 - 硕士/博士优先（或能力极强的本科生），对 RL 有较好的理解。 - 强工程和算法落地能力，重视工程实现和可靠性。 - 有开源项目、顶会论文、基座模型训练经验的相关研究经验者优先。 - 每周工作 4 天及以上，实习至少 4 个月。