淘天集团

Agent 评测实习生· 2026-06-23

国内大厂杭州实习

介绍

淘天招 Agent 评测实习生，参与 Agent Harness 核心模块算法化升级与端到端自动化评测框架研发。

描述

1. 参与 Agent Harness 核心模块的算法化升级，协助设计基于 LLM 的动态规划、反思与纠错机制，通过 APO 提升 Agent 在复杂任务中的鲁棒性与执行自由度； 2. 参与标准化自动化评测框架的研发与维护，协助构建覆盖 Agent 运行时、编排引擎、模型迭代平台等基建模块的端到端 Benchmark 体系，支持 Query 构造、仿真环境模拟与评测资产的版本化管理； 3. 参与实验管理体系的搭建与优化，协助设计自适应 A/B Test 与 Bandit 实验方案，跟踪线上指标变化，支撑平台核心智能化能力的持续迭代； 4. 参与基于环境的进化方案探索，协助完成合成数据生成、轨迹挖掘与轻量级模型适配，推动“诊断-优化-验证”闭环落地； 5. 跟踪 AI Agent 与评测技术领域的前沿动态，协助复现顶会论文与开源项目，推动技术创新在 Harness 平台中的落地应用。

要求

1. 计算机、人工智能、数学等相关专业本科及以上学历在读，硕士/博士及顶会论文发表者优先；实习周期需保证 3 个月及以上，每周出勤 4 天以上； 2. 对大模型与 Agent 前沿技术充满热情，具备快速实现 Paper→Code→Solution 的技术转化能力，有 Agent 系统搭建或评测框架开发经验者优先； 3. 精通 Python 及 PyTorch 框架，熟悉 vLLM、sglang 等推理框架，了解 LangChain、AutoGen 等 Agent 开发框架，有 Qwen、Llama 等模型二次开发经验者优先； 4. 深入理解 Transformer 架构、SFT/RL 训练范式及 Prompt 工程，了解 RAG、Memory、Tool-Use 等 Agent 核心技术，有 APO 或自动化评测实践经验者优先； 5. 具备良好的工程素养与团队协作能力，能与 Infra 工程师高效沟通，共同定位系统级问题。