返回 职位详情 登录/注册
阿里云智能-运维专家-云平台运维-杭州/
1.5-3万元/月
定位 北京朝阳区阿里中心·望京A座阿里巴巴
更新 2025-12-17 05:54:29 浏览 201
职位详情
运维开发工程师 3-5年 Golang · 大数据引擎 · Java · 大数据运维经验 · Python/Shell
职位描述:
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等工作
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈能力、智能诊断与问题定界等核心功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型和智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,包括基础架构云原生转型、跨AZ高可用架构设计、产品可运维性架构持续演进等

职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统原理及Linux底层机制,有AIIaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,具备运维平台开发经历,拥有AIOps智能运维实践经验者更佳
3)具备扎实的生产环境稳定性保障实战能力,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等
4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,富有责任心
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
忠县人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!