阿里云智能-深度学习训练系统开发专家
3-6万元/月
更新 2025-12-16 14:28:22
浏览 630
职位详情
高性能计算工程师
3-5年
机器学习 · 自然语言处理算法 · Python · 分布式训练 · 算法工程化经验
阿里云智能-深度学习训练系统研发专家-北京,杭州
职位描述
基础平台开发-机器学习岗位
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,支撑通义实验室及阿里集团内多个业务场景;参与基模型Pretrain、SFT等关键阶段的训练性能调优工作;
●专注于提升各阶段模型训练负载的峰值吞吐能力,能系统性分析不同训练阶段的时间开销,并提出针对性优化方案,包括但不限于算子层面改进、通信机制增强、分布式策略调整等技术手段;
●主导超大规模训练任务的稳定性架构设计,通过多种技术途径提高训练过程的有效吞吐,建设高效的故障识别与自动恢复机制,保障大规模训练任务的平稳运行体验;
●参与训练框架对多元硬件后端的适配与性能优化工作。
职位要求
●具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂软件系统的架构、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的核心特性;
●精通PyTorch等常用框架,深入掌握Megatron、DeepSpeed、JAX等训练框架的技术差异与底层细节;
●具备良好的沟通表达能力和团队协作经验;有快速学习新知识的能力,以及持续探究技术难题的专注力;
●掌握计算机体系结构基础知识,在异构计算优化(GPGPU/x86/ARM等)、高性能网络通信架构优化、分布式训练策略调优等方面具备实际项目经验;
职位描述
基础平台开发-机器学习岗位
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,支撑通义实验室及阿里集团内多个业务场景;参与基模型Pretrain、SFT等关键阶段的训练性能调优工作;
●专注于提升各阶段模型训练负载的峰值吞吐能力,能系统性分析不同训练阶段的时间开销,并提出针对性优化方案,包括但不限于算子层面改进、通信机制增强、分布式策略调整等技术手段;
●主导超大规模训练任务的稳定性架构设计,通过多种技术途径提高训练过程的有效吞吐,建设高效的故障识别与自动恢复机制,保障大规模训练任务的平稳运行体验;
●参与训练框架对多元硬件后端的适配与性能优化工作。
职位要求
●具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂软件系统的架构、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的核心特性;
●精通PyTorch等常用框架,深入掌握Megatron、DeepSpeed、JAX等训练框架的技术差异与底层细节;
●具备良好的沟通表达能力和团队协作经验;有快速学习新知识的能力,以及持续探究技术难题的专注力;
●掌握计算机体系结构基础知识,在异构计算优化(GPGPU/x86/ARM等)、高性能网络通信架构优化、分布式训练策略调优等方面具备实际项目经验;
相似职位
很抱歉,暂无相似职位!