通义SRE运维开发专家-大规模推理服务-
2.5-5万元/月
更新 2025-12-17 02:13:10
浏览 799
职位详情
运维开发工程师
3-5年
运维开发经验
1.稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。
2.高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。
3.架构高可用优化:参与业务系统架构方案的设计与评审,推动高可用架构落地,规避系统性风险。
4.运维流程优化与自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
5.容量规划:主导业务系统的容量规划与资源优化,通过链路追踪、压测、性能调优等手段保障资源利用率与成本可控性。
6.Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。
职位要求
1.计算机及相关专业。3年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。
2.熟悉阿里云、火山、AWS等至少一种公有云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。
3.深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障排查经验。
4.熟悉Prometheus、Grafana、ELK、SkyWalking、OpenTelemetry等可观测性技术栈。
5.熟练使用GitLab、Jenkins、Argo等CI/CD工具链,具备Pipeline设计与优化经验。
6.至少掌握Python/Go/Shell任意一门语言,熟悉主流Web框架,有运维工具开发经验者优先。
7.具备优秀的逻辑分析能力与系统性思维,对技术敏感度高,有强烈的责任心和抗压能力,适应快节奏业务场景。具备优秀的沟通能力、执行力及团队合作精神。
2.高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。
3.架构高可用优化:参与业务系统架构方案的设计与评审,推动高可用架构落地,规避系统性风险。
4.运维流程优化与自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
5.容量规划:主导业务系统的容量规划与资源优化,通过链路追踪、压测、性能调优等手段保障资源利用率与成本可控性。
6.Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。
职位要求
1.计算机及相关专业。3年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。
2.熟悉阿里云、火山、AWS等至少一种公有云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。
3.深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障排查经验。
4.熟悉Prometheus、Grafana、ELK、SkyWalking、OpenTelemetry等可观测性技术栈。
5.熟练使用GitLab、Jenkins、Argo等CI/CD工具链,具备Pipeline设计与优化经验。
6.至少掌握Python/Go/Shell任意一门语言,熟悉主流Web框架,有运维工具开发经验者优先。
7.具备优秀的逻辑分析能力与系统性思维,对技术敏感度高,有强烈的责任心和抗压能力,适应快节奏业务场景。具备优秀的沟通能力、执行力及团队合作精神。
相似职位
很抱歉,暂无相似职位!