淘天集团

Agent 评测实习生· 2026-06-23

国内大厂 杭州 实习

淘天招 Agent 评测实习生,参与 Agent Harness 核心模块算法化升级与端到端自动化评测框架研发。

1. 参与 Agent Harness 核心模块的算法化升级,协助设计基于 LLM 的动态规划、反思与纠错机制,通过 APO 提升 Agent 在复杂任务中的鲁棒性与执行自由度; 2. 参与标准化自动化评测框架的研发与维护,协助构建覆盖 Agent 运行时、编排引擎、模型迭代平台等基建模块的端到端 Benchmark 体系,支持 Query 构造、仿真环境模拟与评测资产的版本化管理; 3. 参与实验管理体系的搭建与优化,协助设计自适应 A/B Test 与 Bandit 实验方案,跟踪线上指标变化,支撑平台核心智能化能力的持续迭代; 4. 参与基于环境的进化方案探索,协助完成合成数据生成、轨迹挖掘与轻量级模型适配,推动“诊断-优化-验证”闭环落地; 5. 跟踪 AI Agent 与评测技术领域的前沿动态,协助复现顶会论文与开源项目,推动技术创新在 Harness 平台中的落地应用。

1. 计算机、人工智能、数学等相关专业本科及以上学历在读,硕士/博士及顶会论文发表者优先;实习周期需保证 3 个月及以上,每周出勤 4 天以上; 2. 对大模型与 Agent 前沿技术充满热情,具备快速实现 Paper→Code→Solution 的技术转化能力,有 Agent 系统搭建或评测框架开发经验者优先; 3. 精通 Python 及 PyTorch 框架,熟悉 vLLM、sglang 等推理框架,了解 LangChain、AutoGen 等 Agent 开发框架,有 Qwen、Llama 等模型二次开发经验者优先; 4. 深入理解 Transformer 架构、SFT/RL 训练范式及 Prompt 工程,了解 RAG、Memory、Tool-Use 等 Agent 核心技术,有 APO 或自动化评测实践经验者优先; 5. 具备良好的工程素养与团队协作能力,能与 Infra 工程师高效沟通,共同定位系统级问题。

在 Offer岛 浏览更多 AI 岗位 →