SRE工程师 - 职位详情

武汉方阵信息技术有限公司

| 20人以下

点击查看企业详情 >

职位描述

岗位职责
1. 保障业务系统稳定性：通过全链路监控（基础设施层+应用层）、故障演练（混沌工程）、容灾备份策略，将系统SLA维持在99.9%及以上；
2. 开发运维自动化平台：基于Python/Go开发IT统一运维工具，包括监控告警系统、日志分析平台（ELK/ClickHouse）、容量管理系统、CMDB资源管理平台，提升运维效率；
3. 制定SRE流程规范：输出容量规划（基于业务增长预测资源需求）、变更管理（蓝绿发布/金丝雀发布）、故障响应（Oncall流程、故障复盘）的标准文档，推动跨团队落地；
4. 优化系统性能与成本：分析系统瓶颈（CPU/内存/IO/网络），推动开发团队优化架构（如微服务拆分、缓存策略）；通过资源使用率分析，清理闲置资源，降低IT成本；
5. 应急响应与复盘：7*24小时响应线上故障（如服务宕机、数据丢失），主导故障定位与止损，编写复盘报告（5Why分析），推动问题根治。

任职要求

统招本科及以上，计算机/软件工程相关专业；
有运维/SRE经验，有中大型分布式系统（如电商、金融）稳定性保障经验；
能适应高频Oncall，具备强烈的责任心和抗压能力，符合企业价值观。
具备“工程思维”，能将运维需求抽象为技术方案（如将“故障自愈”转化为“监控指标触发脚本执行”）；
跨团队协作能力强，可推动开发、产品、安全团队解决稳定性问题（如推动开发优化慢查询、配合安全团…

工作地址

湖北武汉市江岸区武汉市武汉东湖新技术开发区高新大道815号（第三层）303室

查看地图