SRE工程师

6-10K/月 · 武汉江岸 · 经验不限 · 本科

警示:以招聘为由收取培训费,提供培训贷款,缴纳体检、服装、押金等费用,都属违法行为;一经发现,请立即向110或12333举报!

职位描述

岗位职责
1. 保障业务系统稳定性:通过全链路监控(基础设施层+应用层)、故障演练(混沌工程)、容灾备份策略,将系统SLA维持在99.9%及以上;
2. 开发运维自动化平台:基于Python/Go开发IT统一运维工具,包括监控告警系统、日志分析平台(ELK/ClickHouse)、容量管理系统、CMDB资源管理平台,提升运维效率;
3. 制定SRE流程规范:输出容量规划(基于业务增长预测资源需求)、变更管理(蓝绿发布/金丝雀发布)、故障响应(Oncall流程、故障复盘)的标准文档,推动跨团队落地;
4. 优化系统性能与成本:分析系统瓶颈(CPU/内存/IO/网络),推动开发团队优化架构(如微服务拆分、缓存策略);通过资源使用率分析,清理闲置资源,降低IT成本;
5. 应急响应与复盘:7*24小时响应线上故障(如服务宕机、数据丢失),主导故障定位与止损,编写复盘报告(5Why分析),推动问题根治。

任职要求

统招本科及以上,计算机/软件工程相关专业;
有运维/SRE经验,有中大型分布式系统(如电商、金融)稳定性保障经验;
能适应高频Oncall,具备强烈的责任心和抗压能力,符合企业价值观。
具备“工程思维”,能将运维需求抽象为技术方案(如将“故障自愈”转化为“监控指标触发脚本执行”);
跨团队协作能力强,可推动开发、产品、安全团队解决稳定性问题(如推动开发优化慢查询、配合安全团…

工作地址

湖 北武汉市江岸区武汉市武汉东湖新技术开发区高新大道815号(第三层)303室

查看地图
登录后投递

请先登录后再投递简历