职位描述
岗位职责
1. 负责AI基础设施运维:GPU服务器集群(NVIDIA P100/V100/A10)的部署、GPU驱动(CUDA/CuDNN)安装与验证,监控GPU资源使用率(显存/算力)并优化调度;
2. 维护大模型平台:部署、维护大模型训练/推理平台(阿里云PAI、自定义Stable Diffusion/GPT-4o推理服务),解决平台稳定性问题(如训练任务中断、推理延迟高);
3. 管理AI容器与网络:基于Kubernetes部署AI应用,配置RDMA高性能网络(优化大模型分布式训练效率),使用Kubeflow搭建AI工作流(数据处理→模型训练→部署);
4. 保障AI业务高可用:制定AI平台容灾策略(模型版本备份、训练数据冗余存储),参与故障应急(如GPU节点宕机、模型服务异常),编写应急预案与复盘报告;
5. 推动AI运维智能化:结合MLOps/AIOps理念,使用MLflow管理模型版本,通过Prometheus+Grafana监控模型指标(准确率/响应时间),实现模型迭代与服务升级的自动化。
任职要求
统招本科及以上,计算机/人工智能/电子工程相关专业(硕士优先,大模型研究方向加分);有GPU集群或AI平台运维经验;
能适应7*24小时Oncall(大模型训练/推理任务保障),接受项目期加班。
对AI技术有强烈兴趣,能主动跟进大模型运维前沿技术(如AI Agent运…