多模态 Agent 算法实习生· 2026-05-19

独角兽北京实习

介绍

实习岗位可转正。团队既出论文也出基座模型 —— 学术侧年均产出约 10 篇顶会（ICLR / NeurIPS / ICML / CVPR / ECCV 等，含 Spotlight 与 Oral）；工程侧深度参与 Step3-VL-10B、Step-3.5-Flash 等基座模型的设计与生产。关键词：多模态 × Agentic RL × Web Coding。团队氛围鼓励大胆假设、小心求证，给热爱技术的同学最硬核的挑战和没有天花板的成长空间。投递邮件主题格式：姓名 - 多模态 Agent 算法实习生 - 最快到岗时间。

描述

- 多模态 Agent 数据设计（Pre-training & Mid-training）：围绕下一代多模态 Agent 的数据底座与学习链路，探索更高质量、可验证的数据范式 - 多模态后训练与 Agent 能力构建（Post-training & Agentic RL）：覆盖 SFT / RLHF / RLVR 等后训练任务，面向 Code Agent、Web Coding、自动化工作流等场景，构建从规划、执行到自我验证的能力闭环 - 围绕 Code 构建下一代多模态 Agent：让模型不仅看懂图片、网页、GUI、设计稿和视频，更能理解其背后的结构、逻辑和交互，并通过推理、工具调用、代码生成和自动验证完成复杂数字任务

要求

- 计算机科学 / 人工智能等相关专业的优秀本科、硕士或博士生 - 极强的自驱力：方向不完全明确时能自己定义问题、推动落地 - 扎实的工程基建：精通 Python，熟悉大模型背景下的分布式编程，至少在 VeRL / AReaL / Steptron 等主流开源 LLM/VLM RL 框架上有二次开发经验 - 对视觉与产品有独特品味：能把品味注入数据、训练目标与评估标准 - 加分项：顶会一作 / Tech Report 核心贡献者；DeepSpeed / Megatron 等分布式训练经验；前端 / Web / UI/UX 实战；Tool Use / Agent 系统研究；知名开源贡献；ICPC / NOI / IOI 等竞赛获奖