2 个岗位· 2026-06-17
阶跃星辰基模组招聘预训练数据研究员/算法专家,覆盖代码与多模态方向。
LLM 预训练 Code 数据研究员/算法专家
负责代码大模型预训练数据体系的建设与迭代,包括代码语料清洗、质量评估、去重、去污染、数据配比、课程学习与数据飞轮设计,持续提升模型代码、数学、Reasoning 与工具使用能力。负责 Agentic Pretrain Data 的研究与构建,探索基于真实开发流程、代码仓库、测试反馈、工具调用、执行轨迹、Issue/PR/Commit 等信号的数据生成与训练范式,提升模型在复杂工程任务中的自主规划、调试、修改和验证能力。参与代码模型训练全流程,包括数据构建、训练目标设计、实验分析、评测体系搭建和模型迭代。
具备扎实的机器学习、深度学习或大模型基础,有独立研究能力,发表过机器学习、NLP、代码智能、程序分析或相关方向论文者优先。具备优秀的编程和工程实现能力,熟悉 Python/C++/Go/Java/JavaScript 等至少一种主流编程语言,能够独立完成数据处理、训练实验、评测分析和系统构建。熟悉大模型预训练流程,对数据质量、数据配比、tokenizer、训练目标、scaling law、评测体系等有实践经验或深入理解。有代码大模型、代码智能、程序分析、自动化测试、代码生成、Agentic Coding、工具调用、多轮任务数据构建等相关经验者优先。熟悉代码数据处理链路者优先,包括 GitHub 语料处理、repo 级数据构建、代码去重、许可证过滤、执行环境构建、单测验证、benchmark contamination 检测等。
多模态预训练数据研究员/算法专家
主导阶跃多模态大模型预训练数据的生产与质控体系建设,覆盖采集、解析、合成、清洗、配比全链路,规模达万亿 token 量级。以 data-centric 方法量化数据到模型能力的因果关系,设计配比与采样策略,通过对照实验沉淀可复现结论。探索 agentic data construction,让模型参与数据生成、清洗、质检与配比决策。攻坚工程图、CAD、文档、学科题等领域多模态数据的合成与对齐,构建可验证的高价值数据。
从根本上认可数据的价值,相信做好数据本身是一等公民的研究工作,而非模型训练的附属环节。熟悉大规模数据处理技术栈,有 TB-PB 级数据 pipeline 实战经验,能独立完成数据处理、合成与质控。具备数据科学认知,习惯用对照实验和量化指标判断数据价值,对数据到模型效果有可验证的因果认知。计算机、人工智能等相关专业,具备 1 年以上大规模数据或多模态预训练相关经验。加分项包括 agentic data construction、model-in-the-loop、可验证数据自动生成等方向实战经验;具备工程图、CAD、文档、学科题等领域数据的合成与对齐经验;主导或深度参与过有影响力的开源数据集或 benchmark。