阶跃星辰 · 预训练团队

多模态数据算法实习生· 2026-06-09

独角兽北京实习

介绍

阶跃星辰多模态预训练团队招募数据算法实习生，你产出的数据将进入真正在训的 frontier 模型。

描述

多模态大模型的能力上限由数据决定，而今天最好的数据还远未被构建出来。我们要做的，是把多模态预训练数据从"靠经验和人力堆砌"变成一门可验证、可复现、由模型自身驱动的工程科学。如果你想亲手定义下一代模型认知世界的方式，这里有真实的数据、算力和问题等你。我们能给你什么： 1. 在一线 frontier 团队走完整套多模态基模预训练。我们已迭代出 Step 1o、Step 3 VL 10B、Step 3.7 Flash 等一系列 frontier 级别的开源与闭源模型；你将在这样的团队里全流程参与预训练迭代，你产出的数据会进入真正在训的模型。 2. 最高可匹配人才计划的有竞争力薪资，表现优秀可获转正机会。

要求

1. 认同数据是模型能力的决定性因素。愿意为所产出数据的质量负责到底，把数据工作视为核心研究，而非辅助性任务。 2. 具备数据科学的思维与实践能力。能主动判断当前最具价值的数据方向，并通过对照实验完成闭环验证，而非依赖经验与直觉。 3. 具备较强的 agentic 工程能力。能驱动自身、并调度 agent 与自动化工具搭建数据闭环，朝 Agent AI build AI 的方向推进。 4. 熟练使用 Python，能独立完成数据处理脚本开发；专业不限；每周到岗 ≥ 4 天，可持续 3 个月以上；不要求论文发表。