阿里云智能-深度学习推理系统研发专家
2.8-5.5万元/月
更新 2025-12-16 14:07:21
浏览 404
职位详情
高性能计算工程师
3-5年
深度学习 · 大模型算法 · 模型加速/性能优化 · 自然语言处理算法 · 多模态算法 · C/C++ · Python · 算法工程化经验 · 发表算法相关优秀论文 · 参加算法相关竞赛/获奖
任职要求:
●设计并构建高效的分布式推理架构,提升多节点、多GPU环境下的推理效率与资源使用率。研发智能化的请求调度策略,保障高并发场景下系统的最优响应速度与吞吐能力。深度优化推理引擎的运行时环境,降低延迟,增强整体性能表现。针对多种异构AI加速硬件(如NVIDIAGPU,AMDGPU,NPU等),对关键算子进行精细化性能调优,充分释放计算能力和内存带宽潜力。
●研究并落地极低bit量化与模型稀疏化技术,降低模型存储开销与计算成本,同时维持推理精度稳定。探索更高效的解码机制,加快生成类任务的推理执行速度。
●构建可支撑大规模并发访问的系统架构,确保在极端负载条件下的稳定性与高性能。集成容错设计、自动恢复机制及监控告警体系,保障服务的高可用性与持续运行能力。打造具备弹性扩展能力的架构方案,适应未来业务规模扩张与技术迭代需求。
●持续跟踪前沿技术动态,重点关注超长上下文处理、COT思维链、多模态融合等方向。主动探索新型推理优化路径,提出并验证具有创新性的技术解决方案。
任职要求:
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂系统的设计、开发与调试经验。
●理解深度学习基本理论,熟悉主流模型结构与算法流程,能熟练运用PyTorch、TensorFlow等主流框架。
●具备良好的沟通协作能力与团队合作经历,学习能力强,对深入研究技术难题有耐心和热情。
●掌握计算机体系结构相关基础知识,具备高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI资源调度优化等方面的实践经验。
加分项:
●拥有优秀的学术成果与创新能力,在相关领域发表过高水平论文或获得专利。
●具备基于cutlass/cute进行高性能Kernel开发与极致性能优化,并成功应用于实际生产环境的经验。
●在大型语言模型(LLM)等重点应用场景中,有深入且落地的系统级优化或前沿算法实践经验。
●曾作为核心开发者参与大规模AI系统的构建,或贡献于业界主流开源项目,具备丰富的实战积累与成功落地案例。
●设计并构建高效的分布式推理架构,提升多节点、多GPU环境下的推理效率与资源使用率。研发智能化的请求调度策略,保障高并发场景下系统的最优响应速度与吞吐能力。深度优化推理引擎的运行时环境,降低延迟,增强整体性能表现。针对多种异构AI加速硬件(如NVIDIAGPU,AMDGPU,NPU等),对关键算子进行精细化性能调优,充分释放计算能力和内存带宽潜力。
●研究并落地极低bit量化与模型稀疏化技术,降低模型存储开销与计算成本,同时维持推理精度稳定。探索更高效的解码机制,加快生成类任务的推理执行速度。
●构建可支撑大规模并发访问的系统架构,确保在极端负载条件下的稳定性与高性能。集成容错设计、自动恢复机制及监控告警体系,保障服务的高可用性与持续运行能力。打造具备弹性扩展能力的架构方案,适应未来业务规模扩张与技术迭代需求。
●持续跟踪前沿技术动态,重点关注超长上下文处理、COT思维链、多模态融合等方向。主动探索新型推理优化路径,提出并验证具有创新性的技术解决方案。
任职要求:
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂系统的设计、开发与调试经验。
●理解深度学习基本理论,熟悉主流模型结构与算法流程,能熟练运用PyTorch、TensorFlow等主流框架。
●具备良好的沟通协作能力与团队合作经历,学习能力强,对深入研究技术难题有耐心和热情。
●掌握计算机体系结构相关基础知识,具备高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI资源调度优化等方面的实践经验。
加分项:
●拥有优秀的学术成果与创新能力,在相关领域发表过高水平论文或获得专利。
●具备基于cutlass/cute进行高性能Kernel开发与极致性能优化,并成功应用于实际生产环境的经验。
●在大型语言模型(LLM)等重点应用场景中,有深入且落地的系统级优化或前沿算法实践经验。
●曾作为核心开发者参与大规模AI系统的构建,或贡献于业界主流开源项目,具备丰富的实战积累与成功落地案例。
相似职位
很抱歉,暂无相似职位!