运维工程师(系统可靠性)
2.5-3.5万元/月
更新 2025-10-14 01:43:36
浏览 464
职位详情
运维工程师
3-5年
网络运维 · Java · 通信相关专业 · 系统运维 · 运维开发经验 · P
工作职责:
1、运维保障:持续优化技术架构,为业务提供安全、稳定、高效且易于使用的数据服务支持,满足业务及数据规模的快速增长需求;
2、高可用能力保障:沉淀关键运维能力,涵盖应急响应、故障恢复、健康巡检、变更管控及日常演练等核心环节;
3、自动化能力提升:负责内外部系统的日常运维管理,通过自动化手段解决平台问题,提升各团队整体工作效率;
4、CI/CD能力提升:维护并优化持续集成与持续交付流程,参与持续测试(CT)机制设计,推动监控告警与故障自愈自动化;
5、运维平台开发&技术调研:主导CMDB、系统自动化运维平台、自动化监控平台、自动化工单系统及DevOps平台的开发工作;开展相关技术研究并输出规范文档。
任职要求:
1、具备三年以上高并发在线系统运维经验,有生产环境Swarm/k8s/nomad容器编排管理实操经历;
2、熟悉Linux操作系统(优先Ubuntu),掌握Python等常用运维工具,具备脚本开发能力,熟练运用bash,熟悉sysctl参数调优,了解核心系统指标的监控与分析;
3、具备Prometheus、Zabbix在生产环境中的部署、使用与性能调优经验;熟悉lvs流量调度、nginx服务代理或网关类组件的运维及自动化管理;
4、有Kafka、Etcd、Zookeeper、RabbitMQ在生产环境的部署、运维及调优实践;具备实际CMDB、自动化平台、监控系统、工单系统及DevOps平台开发经验;
5、熟练操作阿里云、腾讯云及相关ELK生态工具;具备优秀的文档撰写能力和跨团队协作沟通能力。
1、运维保障:持续优化技术架构,为业务提供安全、稳定、高效且易于使用的数据服务支持,满足业务及数据规模的快速增长需求;
2、高可用能力保障:沉淀关键运维能力,涵盖应急响应、故障恢复、健康巡检、变更管控及日常演练等核心环节;
3、自动化能力提升:负责内外部系统的日常运维管理,通过自动化手段解决平台问题,提升各团队整体工作效率;
4、CI/CD能力提升:维护并优化持续集成与持续交付流程,参与持续测试(CT)机制设计,推动监控告警与故障自愈自动化;
5、运维平台开发&技术调研:主导CMDB、系统自动化运维平台、自动化监控平台、自动化工单系统及DevOps平台的开发工作;开展相关技术研究并输出规范文档。
任职要求:
1、具备三年以上高并发在线系统运维经验,有生产环境Swarm/k8s/nomad容器编排管理实操经历;
2、熟悉Linux操作系统(优先Ubuntu),掌握Python等常用运维工具,具备脚本开发能力,熟练运用bash,熟悉sysctl参数调优,了解核心系统指标的监控与分析;
3、具备Prometheus、Zabbix在生产环境中的部署、使用与性能调优经验;熟悉lvs流量调度、nginx服务代理或网关类组件的运维及自动化管理;
4、有Kafka、Etcd、Zookeeper、RabbitMQ在生产环境的部署、运维及调优实践;具备实际CMDB、自动化平台、监控系统、工单系统及DevOps平台开发经验;
5、熟练操作阿里云、腾讯云及相关ELK生态工具;具备优秀的文档撰写能力和跨团队协作沟通能力。
相似职位