阶跃星辰 · 基模组

2 个岗位· 2026-06-17

独角兽北京 · 上海正式

团队介绍

阶跃星辰基模组招聘预训练数据研究员/算法专家，覆盖代码与多模态方向。

LLM 预训练 Code 数据研究员/算法专家

描述

负责代码大模型预训练数据体系的建设与迭代，包括代码语料清洗、质量评估、去重、去污染、数据配比、课程学习与数据飞轮设计，持续提升模型代码、数学、Reasoning 与工具使用能力。负责 Agentic Pretrain Data 的研究与构建，探索基于真实开发流程、代码仓库、测试反馈、工具调用、执行轨迹、Issue/PR/Commit 等信号的数据生成与训练范式，提升模型在复杂工程任务中的自主规划、调试、修改和验证能力。参与代码模型训练全流程，包括数据构建、训练目标设计、实验分析、评测体系搭建和模型迭代。

要求

具备扎实的机器学习、深度学习或大模型基础，有独立研究能力，发表过机器学习、NLP、代码智能、程序分析或相关方向论文者优先。具备优秀的编程和工程实现能力，熟悉 Python/C++/Go/Java/JavaScript 等至少一种主流编程语言，能够独立完成数据处理、训练实验、评测分析和系统构建。熟悉大模型预训练流程，对数据质量、数据配比、tokenizer、训练目标、scaling law、评测体系等有实践经验或深入理解。有代码大模型、代码智能、程序分析、自动化测试、代码生成、Agentic Coding、工具调用、多轮任务数据构建等相关经验者优先。熟悉代码数据处理链路者优先，包括 GitHub 语料处理、repo 级数据构建、代码去重、许可证过滤、执行环境构建、单测验证、benchmark contamination 检测等。

多模态预训练数据研究员/算法专家

描述

主导阶跃多模态大模型预训练数据的生产与质控体系建设，覆盖采集、解析、合成、清洗、配比全链路，规模达万亿 token 量级。以 data-centric 方法量化数据到模型能力的因果关系，设计配比与采样策略，通过对照实验沉淀可复现结论。探索 agentic data construction，让模型参与数据生成、清洗、质检与配比决策。攻坚工程图、CAD、文档、学科题等领域多模态数据的合成与对齐，构建可验证的高价值数据。

要求

从根本上认可数据的价值，相信做好数据本身是一等公民的研究工作，而非模型训练的附属环节。熟悉大规模数据处理技术栈，有 TB-PB 级数据 pipeline 实战经验，能独立完成数据处理、合成与质控。具备数据科学认知，习惯用对照实验和量化指标判断数据价值，对数据到模型效果有可验证的因果认知。计算机、人工智能等相关专业，具备 1 年以上大规模数据或多模态预训练相关经验。加分项包括 agentic data construction、model-in-the-loop、可验证数据自动生成等方向实战经验；具备工程图、CAD、文档、学科题等领域数据的合成与对齐经验；主导或深度参与过有影响力的开源数据集或 benchmark。