RL Infra Intern· 2026-05-14

知名初创广东实习

介绍

Mind Lab 致力于建设可以同时并行训练「千万」级 LoRA 的「万亿」参数大模型训练 Infra，方向聚焦 LoRA、Agentic RL 训练。

描述

- 维护 / 迭代内部 RL 框架（agentic / joint RL，algorithm-system co-design） - 设计 API 与执行层，将训练服务化（配置化、一键跑、可复现） - 实验迭代：结果分析、性能监控、可视化（Agent 辅助） - 方向定位：在现有训练引擎之上做 RL 框架抽象与工程落地，非纯算法岗、非 CUDA 底层

要求

- 工程能力强 + RL 基础（on / off-policy、PG、TD） - 可实习 4-6 个月 - 加分项：开源协作、OpenClaw / Hermes、LLM-RL 框架经验（verl / slime / areal / OpenRLHF） - 投递邮件标题格式：RLInfraIntern-姓名-学校-可实习时长-到岗时间