Stealth Startup

语音算法工程师· 2026-06-03

上海正式

描述

1. 设计融合文本、语音、视频等多模态信息的大模型结构及预训练方法，解决模态冲突与知识跨模态迁移效率较低等问题； 2. 探索语音文本模态大模型的后训练技术，包括数据合成、可扩展监督、强化学习、推理时优化、模型性能评估等前沿技术，提升模型交互拟人程度和模型智能； 3. 设计能够进行高表现力音频生成的大模型结构及训练方法，提升语音自然度与表现力； 4. 探索并构建细粒度指令控制的语音生成模型及评估方法。

要求

1. 人工智能、计算机、自动化、数学相关专业优先； 2. 有志于投身机器学习、人工智能、大模型、多模态理解和生成等技术领域； 3. 扎实的数据结构和算法设计基础，熟练掌握 Python / C++ 中的一种或多种，熟练掌握 PyTorch、TensorFlow 等深度学习框架以及分布式训练框架； 4. 有大型语言模型预训练、后训练、强化学习、语音合成与识别、音乐生成等研究或技术背景优先； 5. 在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR 等顶级会议发表论文者优先； 6. 有良好的英文读写能力和扎实的数学基础，优秀的代码能力、数据结构和基础算法功底； 7. ACM / ICPC、NOI / IOI、TopCoder、Kaggle 等比赛获奖者优先； 8. 在多模态、计算机视觉或机器学习领域比赛中获得优异成绩者优先； 9. 责任心强，积极主动，有良好的沟通能力和团队合作能力； 10. 在大模型、语音、RL 领域主导过大影响力项目或论文者优先； 11. 有端到端项目经历或从 0 到 1 建立团队经验者优先。