Mind Lab
RL Infra Intern· 2026-05-14
介绍
Mind Lab 致力于建设可以同时并行训练「千万」级 LoRA 的「万亿」参数大模型训练 Infra,方向聚焦 LoRA、Agentic RL 训练。
描述
- 维护 / 迭代内部 RL 框架(agentic / joint RL,algorithm-system co-design) - 设计 API 与执行层,将训练服务化(配置化、一键跑、可复现) - 实验迭代:结果分析、性能监控、可视化(Agent 辅助) - 方向定位:在现有训练引擎之上做 RL 框架抽象与工程落地,非纯算法岗、非 CUDA 底层
要求
- 工程能力强 + RL 基础(on / off-policy、PG、TD) - 可实习 4-6 个月 - 加分项:开源协作、OpenClaw / Hermes、LLM-RL 框架经验(verl / slime / areal / OpenRLHF) - 投递邮件标题格式:RLInfraIntern-姓名-学校-可实习时长-到岗时间