IQuest · 基座大模型后训练团队

大模型后训练实习生(LLM/RL 方向)· 2026-06-11

北京 实习

IQuest 基座大模型后训练团队招实习生,诚邀 LLM/RL 方向的同学加入,工作地点北京五道口。

工作内容: - 数据优化:Mid-train 与 SFT 数据优化,高质量数据合成,优化模型在复杂指令遵循、推理、创作、幻觉、安全等方面的基础能力,提升用户体验。 - Reward Model:从效果、鲁棒性和可解释性等方面优化 Reward Model,探索 Agentic 场景下的 GRM/PRM。 - RL 算法优化:优化解决 RL 训练中的训练效果、稳定性、Reward-hack 等问题,优化多目标 RL 以及多任务联合训练,探索新的 RL 范式。

职位要求: - 有数据合成或 LLM 训练经验,熟悉或实践过 Pretrain、SFT、PPO、GRPO 等方法。 - 硕士/博士优先(或能力极强的本科生),对 RL 有较好的理解。 - 强工程和算法落地能力,重视工程实现和可靠性。 - 有开源项目、顶会论文、基座模型训练经验的相关研究经验者优先。 - 每周工作 4 天及以上,实习至少 4 个月。

在 Offer岛 浏览更多 AI 岗位 →