返回 职位详情 登录/注册
AI智算集群运维管控算力平台开发-北/
3-6万元/月
定位 北京朝阳区朝阳科技园阿里中心
更新 2025-12-16 14:39:22 浏览 966
职位详情
Java 5-10年 Golang · Java · 节点调度 · C++ · 分布式经验 · SpringCloud · MySQL · Spring · 集群 · Python
职位描述
1.打造灵骏监管控系统的核心功能模块,持续优化客户在云环境使用灵骏智算集群产品的自动化与智能化水平。

2.构建涵盖智算集群库存管理、节点调度、性能监控、故障自愈、租户运维等关键能力的体系架构,不断增强灵骏智算集群的产品优势。

3.完善系统高可用机制,包括管控组件异常自动识别、故障恢复、弹性容灾、云原生技术应用与落地,确保线上服务稳定运行和业务连续性。

4.推进异构算力资源的统一管控与智能调度平台建设,持续提升集群资源利用效率,降低整体计算开销。

5.密切关注AI智算、云原生及智能运维领域的前沿技术发展,结合实际业务场景推动技术创新与实践落地。

6.本岗位需承担值班支持职责,在服务级别协议(SLA)规定时限内及时响应客户需求,推进问题闭环处理,提升客户满意度。

职位要求
1.具备5年以上大规模分布式系统的设计与开发经验,曾独立主导含多个模块的业务子系统建设,承担接口规范制定、架构设计及核心分布式技术方案的落地工作。

2.编程基础扎实,熟练掌握数据结构与算法,精通Golang/Java/Python/C++中至少一门编程语言。

3.系统工程能力突出,具备强烈的线上稳定性意识,对复杂系统有较强的技术洞察力和故障定位能力;有线上监控体系、变更流程设计与实施经验者优先考虑。

4.业务理解能力强,具备优秀的系统抽象与架构设计能力,逻辑清晰,善于思考,能独立开展问题分析与解决,有主导完整技术产品项目经历者优先。

5.具备较强的复杂项目统筹能力,有担任项目负责人或研发团队对接人的实践经验者优先。

6.具备良好的团队协作精神,有实线或虚线带领团队完成技术项目的经验者优先。

7.熟悉主流AI框架、云原生架构、微服务原理及常用设计模式者优先。
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
忠县人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!