职位描述
岗位职责
1. 保障业务系统稳定性:通过全链路监控(基础设施层+应用层)、故障演练(混沌工程)、容灾备份策略,将系统SLA维持在99.9%及以上;
2. 开发运维自动化平台:基于Python/Go开发IT统一运维工具,包括监控告警系统、日志分析平台(ELK/ClickHouse)、容量管理系统、CMDB资源管理平台,提升运维效率;
3. 制定SRE流程规范:输出容量规划(基于业务增长预测资源需求)、变更管理(蓝绿发布/金丝雀发布)、故障响应(Oncall流程、故障复盘)的标准文档,推动跨团队落地;
4. 优化系统性能与成本:分析系统瓶颈(CPU/内存/IO/网络),推动开发团队优化架构(如微服务拆分、缓存策略);通过资源使用率分析,清理闲置资源,降低IT成本;
5. 应急响应与复盘:7*24小时响应线上故障(如服务宕机、数据丢失),主导故障定位与止损,编写复盘报告(5Why分析),推动问题根治。
任职要求
统招本科及以上,计算机/软件工程相关专业;
有运维/SRE经验,有中大型分布式系统(如电商、金融)稳定性保障经验;
能适应高频Oncall,具备强烈的责任心和抗压能力,符合企业价值观。
具备“工程思维”,能将运维需求抽象为技术方案(如将“故障自愈”转化为“监控指标触发脚本执行”);
跨团队协作能力强,可推动开发、产品、安全团队解决稳定性问题(如推动开发优化慢查询、配合安全团…