AI运维工程师（GPU/大模型方向） - 职位详情

武汉方阵信息技术有限公司

| 20人以下

点击查看企业详情 >

职位描述

岗位职责
1. 负责AI基础设施运维：GPU服务器集群（NVIDIA P100/V100/A10）的部署、GPU驱动（CUDA/CuDNN）安装与验证，监控GPU资源使用率（显存/算力）并优化调度；
2. 维护大模型平台：部署、维护大模型训练/推理平台（阿里云PAI、自定义Stable Diffusion/GPT-4o推理服务），解决平台稳定性问题（如训练任务中断、推理延迟高）；
3. 管理AI容器与网络：基于Kubernetes部署AI应用，配置RDMA高性能网络（优化大模型分布式训练效率），使用Kubeflow搭建AI工作流（数据处理→模型训练→部署）；
4. 保障AI业务高可用：制定AI平台容灾策略（模型版本备份、训练数据冗余存储），参与故障应急（如GPU节点宕机、模型服务异常），编写应急预案与复盘报告；
5. 推动AI运维智能化：结合MLOps/AIOps理念，使用MLflow管理模型版本，通过Prometheus+Grafana监控模型指标（准确率/响应时间），实现模型迭代与服务升级的自动化。

任职要求
统招本科及以上，计算机/人工智能/电子工程相关专业（硕士优先，大模型研究方向加分）；有GPU集群或AI平台运维经验；
能适应7*24小时Oncall（大模型训练/推理任务保障），接受项目期加班。
对AI技术有强烈兴趣，能主动跟进大模型运维前沿技术（如AI Agent运…

工作地址

湖北武汉市江岸区武汉市武汉东湖新技术开发区高新大道815号（第三层）303室

查看地图