阿里巴巴 · HappyHorse

音频算法工程师(基模 / 音视频联合生成方向)· 2026-06-26

国内大厂 北京 / 杭州 正式

HappyHorse 基模团队招聘音频算法工程师(音视频联合生成方向)

HappyHorse 基模音频算法团队招人~ 主要职责: 1、研发前沿的音视频生成大模型,实现原生音视频联合端到端生成(T2VA)、音频参考的视频生成等。 2、优化复杂场景下的音视频生成表现力与自然度,重点攻克多角色同框时的身份一致性、长视频叙事连贯性以及毫秒级音画精准同步等核心难题。 3、设计并优化音视频联合生成模型,涵盖视觉画面与听觉元素(如环境音效、配乐、人声)在风格、节奏与语义上的多维度协同生成任务。 4、探索音视频统一 Tokenizer 优化,实现音频与视觉特征在 LLM 符号空间的高效对齐与联合建模。

在 Offer岛 浏览更多 AI 岗位 →