职位描述
岗位职责
1. 负责主流云厂商(阿里云/腾讯云/AWS)平台的日常运维:云服务器(ECS/CVM/EC2)、负载均衡(SLB/CLB/ELB)、数据库(RDS/CDB)、对象存储(OSS/COS/S3)的巡检、配置优化与资源动态调配;
2. 设计云资源架构:基于业务场景选择云服务组合(如“ECS+SLB+RDS+OSS+CDN”),实现多可用区/跨地域容灾(RDS主备切换、SLB跨区部署),保障业务SLA(服务等级协议);
3. 管理容器与编排平台:通过阿里云ACK/腾讯云TKE/Kubernetes集群部署、维护容器化应用,使用Helm进行包管理,解决容器网络(Calico/Flannel)、存储(PV/PVC/CSI)问题;
4. 优化成本与容量:分析云资源使用率,通过闲置资源回收、预留实例券、实例降配降低成本;基于QPS/并发连接数预测资源需求,制定扩缩容策略(自动伸缩组ASG);
5. 搭建云监控与应急体系:使用CloudMonitor/CloudWatch/Prometheus+Grafana监控云资源(CPU/内存/带宽)、应用指标(响应时间/错误率),编写告警规则,制定故障自愈预案(如OOS运维编排自动重启服务)。
任职要求
统招本科及以上,计算机/软件工程相关专业;
1-3年云平台运维经验,至少熟悉1家主流云厂商(阿里云优先);
能适应7*24小时Oncall(突…