AI运维工程师(GPU/大模型方向)

6-15K/月 · 武汉江岸 · 经验不限 · 本科

警示:以招聘为由收取培训费,提供培训贷款,缴纳体检、服装、押金等费用,都属违法行为;一经发现,请立即向110或12333举报!

职位描述

岗位职责
1. 负责AI基础设施运维:GPU服务器集群(NVIDIA P100/V100/A10)的部署、GPU驱动(CUDA/CuDNN)安装与验证,监控GPU资源使用率(显存/算力)并优化调度;
2. 维护大模型平台:部署、维护大模型训练/推理平台(阿里云PAI、自定义Stable Diffusion/GPT-4o推理服务),解决平台稳定性问题(如训练任务中断、推理延迟高);
3. 管理AI容器与网络:基于Kubernetes部署AI应用,配置RDMA高性能网络(优化大模型分布式训练效率),使用Kubeflow搭建AI工作流(数据处理→模型训练→部署);
4. 保障AI业务高可用:制定AI平台容灾策略(模型版本备份、训练数据冗余存储),参与故障应急(如GPU节点宕机、模型服务异常),编写应急预案与复盘报告;
5. 推动AI运维智能化:结合MLOps/AIOps理念,使用MLflow管理模型版本,通过Prometheus+Grafana监控模型指标(准确率/响应时间),实现模型迭代与服务升级的自动化。

任职要求
统招本科及以上,计算机/人工智能/电子工程相关专业(硕士优先,大模型研究方向加分);有GPU集群或AI平台运维经验;
能适应7*24小时Oncall(大模型训练/推理任务保障),接受项目期加班。
对AI技术有强烈兴趣,能主动跟进大模型运维前沿技术(如AI Agent运…

工作地址

湖 北武汉市江岸区武汉市武汉东湖新技术开发区高新大道815号(第三层)303室

查看地图
登录后投递

请先登录后再投递简历