阶跃星辰 · 预训练团队
多模态数据算法实习生· 2026-06-09
介绍
阶跃星辰多模态预训练团队招募数据算法实习生,你产出的数据将进入真正在训的 frontier 模型。
描述
多模态大模型的能力上限由数据决定,而今天最好的数据还远未被构建出来。我们要做的,是把多模态预训练数据从"靠经验和人力堆砌"变成一门可验证、可复现、由模型自身驱动的工程科学。如果你想亲手定义下一代模型认知世界的方式,这里有真实的数据、算力和问题等你。 我们能给你什么: 1. 在一线 frontier 团队走完整套多模态基模预训练。我们已迭代出 Step 1o、Step 3 VL 10B、Step 3.7 Flash 等一系列 frontier 级别的开源与闭源模型;你将在这样的团队里全流程参与预训练迭代,你产出的数据会进入真正在训的模型。 2. 最高可匹配人才计划的有竞争力薪资,表现优秀可获转正机会。
要求
1. 认同数据是模型能力的决定性因素。愿意为所产出数据的质量负责到底,把数据工作视为核心研究,而非辅助性任务。 2. 具备数据科学的思维与实践能力。能主动判断当前最具价值的数据方向,并通过对照实验完成闭环验证,而非依赖经验与直觉。 3. 具备较强的 agentic 工程能力。能驱动自身、并调度 agent 与自动化工具搭建数据闭环,朝 Agent AI build AI 的方向推进。 4. 熟练使用 Python,能独立完成数据处理脚本开发;专业不限;每周到岗 ≥ 4 天,可持续 3 个月以上;不要求论文发表。