阿里云智能-运维专家-云平台运维-杭州/
1.5-3万元/月
更新 2025-12-17 05:54:29
浏览 201
职位详情
运维开发工程师
3-5年
Golang · 大数据引擎 · Java · 大数据运维经验 · Python/Shell
职位描述:
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等工作
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈能力、智能诊断与问题定界等核心功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型和智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,包括基础架构云原生转型、跨AZ高可用架构设计、产品可运维性架构持续演进等
职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统原理及Linux底层机制,有AIIaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,具备运维平台开发经历,拥有AIOps智能运维实践经验者更佳
3)具备扎实的生产环境稳定性保障实战能力,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等
4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,富有责任心
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等工作
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈能力、智能诊断与问题定界等核心功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型和智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,包括基础架构云原生转型、跨AZ高可用架构设计、产品可运维性架构持续演进等
职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统原理及Linux底层机制,有AIIaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,具备运维平台开发经历,拥有AIOps智能运维实践经验者更佳
3)具备扎实的生产环境稳定性保障实战能力,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等
4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,富有责任心
相似职位
很抱歉,暂无相似职位!