返回 职位详情 登录/注册
通义SRE运维开发专家-大规模推理服务-
2.5-5万元/月
定位 北京朝阳区阿里巴巴·朝阳科技园1
更新 2025-12-17 02:13:10 浏览 799
职位详情
运维开发工程师 3-5年 运维开发经验
1.稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。

2.高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。

3.架构高可用优化:参与业务系统架构方案的设计与评审,推动高可用架构落地,规避系统性风险。

4.运维流程优化与自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。

5.容量规划:主导业务系统的容量规划与资源优化,通过链路追踪、压测、性能调优等手段保障资源利用率与成本可控性。

6.Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。

职位要求
1.计算机及相关专业。3年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。

2.熟悉阿里云、火山、AWS等至少一种公有云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。

3.深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障排查经验。

4.熟悉Prometheus、Grafana、ELK、SkyWalking、OpenTelemetry等可观测性技术栈。

5.熟练使用GitLab、Jenkins、Argo等CI/CD工具链,具备Pipeline设计与优化经验。

6.至少掌握Python/Go/Shell任意一门语言,熟悉主流Web框架,有运维工具开发经验者优先。

7.具备优秀的逻辑分析能力与系统性思维,对技术敏感度高,有强烈的责任心和抗压能力,适应快节奏业务场景。具备优秀的沟通能力、执行力及团队合作精神。
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
忠县人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!