深度学习训练系统研发专家-北京,杭州
3.5-6.5万元/月
更新 2025-12-16 14:43:29
浏览 230
职位详情
高性能计算工程师
3-5年
机器学习 · 大模型算法 · 模型加速/性能优化 · C/C++ · Python · Java · Golang
职位描述
●承担PAI平台深度学习框架的开发工作,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练系统等方向,服务于通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等各阶段训练任务的性能调优与系统支持;
●专注于提升各类模型训练负载在不同阶段的极致吞吐能力,能够系统性分析训练过程中各环节耗时瓶颈,并提出有效优化方案,包括但不限于算子层面改进、通信机制增强、分布式策略调整等技术手段;
●主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际产出效率,打造高效的故障识别机制与自动恢复能力,保障大规模训练流程的平稳顺畅运行;
●参与训练框架对多元硬件平台的适配与性能优化工作。
职位要求
●具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的架构设计、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的技术特性;
●精通PyTorch等相关深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的设计理念与核心技术细节;
●具有良好的沟通协作能力和团队合作精神,具备快速获取新知识的能力和持续攻克技术难题的毅力;
●掌握计算机体系结构基础,具有异构计算优化(GPGPU/x86/ARM等)、高性能网络通信调优、分布式训练策略优化等方面的实践经验;
●承担PAI平台深度学习框架的开发工作,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练系统等方向,服务于通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等各阶段训练任务的性能调优与系统支持;
●专注于提升各类模型训练负载在不同阶段的极致吞吐能力,能够系统性分析训练过程中各环节耗时瓶颈,并提出有效优化方案,包括但不限于算子层面改进、通信机制增强、分布式策略调整等技术手段;
●主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际产出效率,打造高效的故障识别机制与自动恢复能力,保障大规模训练流程的平稳顺畅运行;
●参与训练框架对多元硬件平台的适配与性能优化工作。
职位要求
●具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的架构设计、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的技术特性;
●精通PyTorch等相关深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的设计理念与核心技术细节;
●具有良好的沟通协作能力和团队合作精神,具备快速获取新知识的能力和持续攻克技术难题的毅力;
●掌握计算机体系结构基础,具有异构计算优化(GPGPU/x86/ARM等)、高性能网络通信调优、分布式训练策略优化等方面的实践经验;
相似职位
很抱歉,暂无相似职位!